当前位置: 首页 > news >正文

h5网站开发语言选择福建微网站建设公司

h5网站开发语言选择,福建微网站建设公司,ceac网页设计师证书如何考,游戏网站建设的目的同事让帮忙在某个网站爬点数据#xff0c;首次尝试爬虫#xff0c;遇到的问题及解决思路记录下。 大体需求是需要爬取详情页内的信息#xff0c;详情页有一定格式规律#xff0c;但是详情页需要从列表页跳入#xff0c;列表页中的每一条记录需要鼠标悬停才会弹出跳转链接…同事让帮忙在某个网站爬点数据首次尝试爬虫遇到的问题及解决思路记录下。 大体需求是需要爬取详情页内的信息详情页有一定格式规律但是详情页需要从列表页跳入列表页中的每一条记录需要鼠标悬停才会弹出跳转链接点击后才可跳转然后将数据存在excel中一个个解决吧。 第一步是先爬取详情页的数据发现页面数据是js渲染出来的直接用请求获取不到信息于是使用selenium来模拟浏览器实际请求然后需要的各个标签值也都没有id就根据class来获取值的列表具体方法为 from selenium import webdriverstrurl https://xxxxxxxx?idstribrowser webdriver.Chrome()try:browser.get(strurl)item1 browser.find_elements(byBy.CLASS_NAME, valuexxxxxxxx)item2 browser.find_elements(byBy.CLASS_NAME, valueyyyyyyyy)item3 browser.find_elements(byBy.CLASS_NAME, valuezzzzzzzz)# text\n基本信息:\n# for str1,str2 in zip(item1,item2):# print(str1.text ,:,str2.text)# textstr1.text : str2.text\n #加入到字符串中并换行## for str in item3:# text\n使用案例: str.text\n #加入到字符串中并换行# print(str.text \n)finally:browser.close()获取到需要的值然后需要把值放到excel中使用openpyxl 将获取到的值拼成一行追加到excel中具体方法如下 from openpyxl import load_workbook# 打开 Excel 文件wb load_workbook(test.xlsx)# 选择要操作的工作表ws wb[Sheet2]new_data []for str2 in item2:new_data.append(str2.text)for str in item3:new_data.append(str.text)# 在最后一行添加数据ws.append(new_data)# 保存文件wb.save(test.xlsx) 这样单详情页的内容可以搞到excel中了需要搞抓所有记录的问题因为列表页首先也是js渲染出来的还有需要模拟悬停才能弹出跳转链接研究了下详情页的url都是xxx?idaaa这个aaa虽然是int但是也没规律随便找了几个值找不到对应页面的时候会报错但是列表请求页可以看到对于列表的分页请求相应为json格式有个列表包含各个对象的id值整好就是详情页的id值那就这么搞把列表信息通过这个请求模拟然后从相应里取各个id遍历跳转一开始尝试了将列表请求跟遍历详情页拼在一个方法里但是报“TypeError: WebElement object is not callable”这个错反正是自己用的小工具先解决需求就行分俩方法把id结果集自己拼过来当参数整合后参考代码如下凑合看吧 {code: 200,message: 操作成功,data: {pageNum: 2,pageSize: 10,totalPage: 10,total: 100,list: [{id: aaaa,logo: 6426cb.png},{id: bbbb,logo: 6426cb.png}]},requestId: abc }import jsonwith open(searchResultP3.json, encodingutf-8) as f:jsondata json.load(f)jsonlist jsondata[data][list]datalist[]for objjson in jsonlist:strid str(objjson[id])datalist.append(strid)print(datalist) from selenium import webdriver from selenium.webdriver.common.by import By from openpyxl import load_workbookimport jsonfor stri in [aaa, bbb, ccc]:strurl https://xxx?idstribrowser webdriver.Chrome()try:browser.get(strurl)item1 browser.find_elements(byBy.CLASS_NAME, valuexxxxx)item2 browser.find_elements(byBy.CLASS_NAME, valueyyyyy)item3 browser.find_elements(byBy.CLASS_NAME, valuezzzzz)# text\n基本信息:\n# for str1,str2 in zip(item1,item2):# print(str1.text ,:,str2.text)# textstr1.text : str2.text\n #加入到字符串中并换行## for str in item3:# text\n使用案例: str.text\n #加入到字符串中并换行# print(str.text \n)# 打开 Excel 文件wb load_workbook(test.xlsx)# 选择要操作的工作表ws wb[Sheet2]new_data []for str2 in item2:new_data.append(str2.text)for str in item3:new_data.append(str.text)# 在最后一行添加数据ws.append(new_data)# 保存文件wb.save(test.xlsx)finally:browser.close()
http://www.zqtcl.cn/news/372387/

相关文章:

  • 深圳福田做网站公司cname解析对网站影响
  • 做个网站要多久网站制作文案
  • 用户搭建网站wordpress代码实现头像
  • 和平区网站建设app和手机网站
  • 腾讯科技微信小程序电商seo是什么意思啊
  • 手机网站模板更换方法新闻客户端网站开发
  • 湛江定制建站黄页推广app软件
  • 盈利型网站做安卓app用什么软件
  • wordpress优秀移动站点西宁公司网站建设
  • 浙江网站建设的要求建设网上商城网站的目的和意义
  • 西峰住房和城乡建设局网站关于校园网站升级建设的报告
  • 网站怎么自适应屏幕大小达人室内设计网app
  • 做网站的软件名字全拼wordpress面包屑文字大小如何调整
  • 如何建设软件下载网站北京网站建设出名 乐云践新
  • 网站seo外包南宁网站建设活动
  • 汽车行业网站设计做互联网公司网站谈单模拟视频教学
  • 做网站界面设计注意什么江苏宿迁房产网
  • 传奇服务器网站如何建设帮人做兼职的网站
  • 织梦手机网站有广告位wordpress媒体库现实不全
  • 网站建设外包公司怎么样珠海网站排名提升
  • 电子商务网站建设结业论文做网站的图片字虚
  • 米拓建站最新进展注册做网站的公司有哪些
  • 设计网站设计wordpress 改系统
  • 学校网站建设评审会议通知网站是怎么赢利的
  • 手机网站建设 苏州优化网站哪个好
  • 网站建设流程方案通州网站建设公司
  • 免费的十大免费货源网站全国领先网站制作
  • 农业网站建设方案 ppt中国有什么网站做跨境零售
  • 网站文章结构变更怎么做301如何自己制作自己的网站
  • 网站网站平台建设方案免费制作桥架app