网站培训班有哪些课程,如何在阿里巴巴上建设公司网站,rio门户网站的制作,建设公司网站 优帮云文章目录 一、前述1.1、采集场景1.2、采集字段1.3、采集结果1.4、采集工具 二、采集步骤2.1、登录网站2.1.1、登录入口2.1.2、京东账号登录2.1.3、登录完成 2.2、自动识别2.3、选取爬取的内容2.4、处理数据2.4.1、纵向字段布局2.4.2、更多字段操作2.4.3、格式化数据2.4.4、添加… 文章目录 一、前述1.1、采集场景1.2、采集字段1.3、采集结果1.4、采集工具 二、采集步骤2.1、登录网站2.1.1、登录入口2.1.2、京东账号登录2.1.3、登录完成 2.2、自动识别2.3、选取爬取的内容2.4、处理数据2.4.1、纵向字段布局2.4.2、更多字段操作2.4.3、格式化数据2.4.4、添加步骤2.4.5、正则替换 2.5、采集数据2.5.1、本地采集2.5.2、采集过程2.5.3、采集完成2.5.4、导出数据 三、付费3.1、试用3.2、定时采集3.3、版本 四、最后 一、前述
1.1、采集场景
打开京东商品详情页实例网址https://item.jd.com/100008134693.html 使用八爪鱼采集点击不同的参数后得到的数据。 1.2、采集字段
标题、商品编号SKU、促销、优惠券 1.3、采集结果
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。 导出为Excel示例 1.4、采集工具
使用的是八爪鱼这个工具来爬取去【下载】本文操作使用的版本是v8.6.7.112311 二、采集步骤
2.1、登录网站
在首页输入框中输入网址 https://item.jd.com/100008134693.html 此时会跳转到京东登录页 2.1.1、登录入口
点击【登录网站】未登录时盾牌图标是灰色状态 2.1.2、京东账号登录 2.1.3、登录完成
登录完成后会进入到商品详情页点击右下角的【完成登录】之后会关闭登录网站的弹窗回到主界面 登录网站右侧的盾牌会从灰色变成绿色 2.2、自动识别
打开网页后如果开始【自动识别】请等待自动识别完成。八爪鱼支持自动识别网页上的列表、滚动和翻页识别成功后直接启动采集即可获取数据 2.3、选取爬取的内容 ① 选中页面上优惠券右侧的文本
② 在黄色操作提示框中选择【文本内容】
③ 商品编号、标题、促销类似操作
2.4、处理数据
导出的excel中有发现数据带有很多空格和换行所以做下处理表格会显示的更好看些
2.4.1、纵向字段布局
默认是横向字段布局 点击工具栏按钮切换布局 2.4.2、更多字段操作 2.4.3、格式化数据 2.4.4、添加步骤
添加步骤-正则替换 2.4.5、正则替换
正则表达式输入框里的\s的意思就是匹配采集到的数据中的所有空格 替换为下面的输入框为空就是把很多换行之类的空格全部都置空
2.5、采集数据
2.5.1、本地采集
单击【采集】并点击本地采集下的【普通模式】 2.5.2、采集过程
之后就开始启动后八爪鱼开始自动采集数据 2.5.3、采集完成 2.5.4、导出数据 三、付费
3.1、试用
付费的项目可以申请使用但是免费使用时间只有3天而且还需要申请 3.2、定时采集
本来想设置下每天定时自动采集自动下载excel结果发现需要付费 3.3、版本
个人版每个月79个人觉得有点贵了 四、最后
本人每篇文章都是一字一句码出来希望对大家有所帮助多提提意见。顺手来个三连击点赞收藏关注✨一起加油☕