相册管理网站模板下载,中国网站优化公司,学校网站建设调查报告,广州软件开发培训哪个好文章目录 Jupyter Notebook 学习人工智能的好帮手数据集数据集下载数据集调用数据集应用技巧——获取不重复的编号数据集应用技巧——随机采样数据集应用技巧——抽取前N项进行模拟测试 数据集构建技巧一——查看数据集构建进度 Jupyter Notebook 学习人工智能的好帮手
【Jupy… 文章目录 Jupyter Notebook 学习人工智能的好帮手数据集数据集下载数据集调用数据集应用技巧——获取不重复的编号数据集应用技巧——随机采样数据集应用技巧——抽取前N项进行模拟测试 数据集构建技巧一——查看数据集构建进度 Jupyter Notebook 学习人工智能的好帮手
【Jupyter Notebook】快速上手 轻松玩明白
数据集
数据集下载
数据集下载地址
数据集调用
from sklearn.preprocessing import LabelEncoder
import pandas as pddf pd.read_csv(yoochoose-clicks.dat,headerNone)
df.columns [session_id,timestamp,item_id,category]print(df)其中session_id表示的是某次会话的编号而item_id表示的是某次会话下的某个操作category代表购买情况其中0代表未购入1代表购入。
数据集应用技巧——获取不重复的编号
可以对某一个关键字采用unique()。
数据集应用技巧——随机采样
应用场景数据集过多抽取部分数据进行观察。 工具采用random中的choice进行提取(numpy库也有random包也有choice方法)。 choice可以选取出列表/集合中的其中一项
数据集应用技巧——抽取前N项进行模拟测试
应用场景可用于熟悉操作。 工具使用分片进行操作。 分片的具体操作可见于分片链接
数据集构建 第二步刚开始这些点并没有图的编号有session_id,但并不是一个方便建图的编号于是可以采取按某一个关键字进行排序的方法按大小给图上的节点进行重新编号。 后几步开始制作边集。 考虑复用性的话记得将构造出来的数据集进行保存。
技巧一——查看数据集构建进度
应用场景可以可视化进度