怎样做一个自己的网站,wordpress带微信二维码,手机网站和pc网站,注册网站多少钱前言
对于爬虫很不陌生#xff0c;而爬虫最为经典的案例就是爬取豆瓣上面的电影数据了#xff0c;今天小编就介绍一下如果爬取豆瓣上面电影影评#xff0c;以《我不是药神》为例。
基本环境配置
版本#xff1a;Python3.6
相关模块#xff1a;
#xff08;1#xff09;r…
前言
对于爬虫很不陌生而爬虫最为经典的案例就是爬取豆瓣上面的电影数据了今天小编就介绍一下如果爬取豆瓣上面电影影评以《我不是药神》为例。
基本环境配置
版本Python3.6
相关模块
1requests用来简单数据请求。
2lxml比BeautiSoup更快更强的解析库。
3pandas数据处理神器。
4time设置爬虫访问间隔。
5random生成随机数配合time使用。
6tqdm显示程序运行进度。
以上模块如果你没有安装可以在cmd命令提示符里进行pip install 模块名 进行安装。
主要思路步骤
1、打开豆瓣电影《我不是药神》的短评网页右键检查或者按F12然后选择用户名和评论就会显示出对应的代码部分正在上传...取消
2、通过requests模块发送一个get请求并以utf-8重新编码
3、添加一个交互判断是否成功获取到资源状态码为200输出获取状态。
对于爬取下来《我不是药神》的短评内容我们用lxml来进行解析。在步骤1中找到对应部分的代码然后右键选择Copy再选择Copy XPath就能获取其路径了。
注意
爬取下来的短评首尾可能有多余的空格我们就需要使用字符串中的strip()方法来去掉这些多余的空格。
4、获取到数据之后我们通过list构造dictionary然后通过dictionary构造dataframe并通过pandas模块将数据输出为csv文件
实现代码
运行结果正在上传...取消
当然了如果你想要用这些数据做成词云图进行数据展示也是可以的。
词云实现代码