网站开发怎么入账,天津专业制作网站,wordpress当前文章所属分类,微信小程序双人游戏情侣这次主要是爬了京东上一双鞋的相关评论#xff1a;将数据保存到excel中并可视化展示相应的信息主要的python代码如下#xff1a;文件1#将excel中的数据进行读取分析import openpyxlimport matplotlib.pyplot as pit #数据统计用的wkopenpyxl.load_workbook(销售数据.xlsx)she…这次主要是爬了京东上一双鞋的相关评论将数据保存到excel中并可视化展示相应的信息主要的python代码如下文件1#将excel中的数据进行读取分析import openpyxlimport matplotlib.pyplot as pit #数据统计用的wkopenpyxl.load_workbook(销售数据.xlsx)sheetwk.active #获取活动表#获取最大行数和最大列数rowssheet.max_rowcolssheet.max_columnlst[] #用于存储鞋子码数for i in range (2,rows1):sizesheet.cell(i,3).valuelst.append(size)#以上已经将excel中的数据读取完毕#一下操作就你行统计不同码数的数量python中有一个数据结构叫做字典使用鞋码做key使用销售数量做valuedic_size{}for item in lst:dic_size[item]0for item in lst:for size in dic_size:#遍历字典if itemsize:dic_size[size]1breakfor item in dic_size:print(item,dic_size[item])#弄成百分比的形式lst_total[]for item in dic_size:lst_total.append([item,dic_size[item],dic_size[item]/160*1.0])#接下来进行数据的可视化(进行画饼操作)labels[item[0] 码for item in lst_total] #使用列表生成式得到饼图的标签fraces[item[2] for item in lst_total] #饼图中的数据源pit.rcparams[font.family][simhei] #单独的表格乱码的处理方式pit.pie(xfraces,labelslabels,autopct%1.1f%%)#pit.show()进行结果的图片的展示pit.savefig(图.jpg)文件2#所涉及到的是requests和openpyxl数据的存储和数据的清洗以及统计然后就是matplotlib进行数据的可视化#静态数据点击element中点击发现在html中服务器已经渲染好的内容直接发给浏览器浏览器解释执行#动态数据如果点击下一页。我们的地址栏(加后缀但是前面的地址栏没变也算)(也可以点击2和3页)没有发生任何变化说明是动态数据说明我们的数据是后来被渲染到html中的。他的数据根本不在html中的。#动态查看network然后用的url是network里面的headers#安装第三方模块输入cmd之后pip install 加名字例如requestsimport requestsimport reimport timeimport jsonimport openpyxl #用于操作 excel文件的headers {user-agent:mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/74.0.3729.131 safari/537.36}#创建头部信息def get_comments(productid,page):url https://club.jd.com/comment/productpagecomments.action?callbackfetchjson_comment98productid{0}score0sorttype5page{1}pagesize10isshadowsku0fold1.format(productid,page)resp requests.get(url, headersheaders)sresp.text.replace(fetchjson_comment98(,)#进行替换操作。获取到所需要的相应的json也就是去掉前后没用的东西ss.replace();,)json_datajson.loads(s)#进行数据json转换return json_data#获取最大页数def get_max_page(productid):dis_dataget_comments(productid,0)#调用刚才写的函数进行向服务器的访问请求获取字典数据return dis_data[maxpage]#获取他的最大页数。每一页都有最大页数#进行数据提取def get_info(productid):max_pageget_max_page(productid)lst[]#用于存储提取到的商品数据for page in range(1,max_page1):#获取没页的商品评论commentsget_comments(productid,page)comm_listcomments[comments]#根据comnents获取到评论的列表(每页有10条评论)#遍历评论列表获取其中的相应的数据for item in comm_list:#每条评论分别是一字典。在继续通过key来获取值contentitem[content]coloritem[productcolor]sizeitem[productsize]lst.append([content,color,size])#将每条评论添加到列表当中time.sleep(3)#防止被京东封ip进行一个时间延迟。防止访问次数太频繁save(lst)def save(lst):#把爬取到的数据进行存储,保存到excel中wkopenpyxl.workbook()#用于创建工作簿对象sheetwk.active #获取活动表(一个工作簿有三个表)#遍历列表将数据添加到excel中。列表中的一条数据在表中是一行biaotou评论,颜色,大小sheet.append(biaotou)for item in lst:sheet.append(item)#将excel保存到磁盘上wk.save(销售数据.xlsx)if __name____main__:productid66749071789get_info(productid)print(ok)实现的效果如下以上就是本文的全部内容希望对大家的学习有所帮助也希望大家多多支持萬仟网。希望与广大网友互动点此进行留言吧