当前位置: 首页 > news >正文

宁夏做网站便利的广州微网站建设

宁夏做网站,便利的广州微网站建设,php 信息分类网站开发,wordpress写的网站由于今日头条网页是动态渲染#xff0c;再加上各种token再验证#xff0c;因此直接通过API接口获取数据难度很大#xff0c;本文使用selenium来实现新闻内容爬取。 selenium核心代码 知识点#xff1a; 代码中加了很多的异常处理#xff0c;保证错误后重试#xff0c;…由于今日头条网页是动态渲染再加上各种token再验证因此直接通过API接口获取数据难度很大本文使用selenium来实现新闻内容爬取。 selenium核心代码 知识点 代码中加了很多的异常处理保证错误后重试提高稳定性EdgeChromiumDriverManager().install()自动下载浏览器驱动避免浏览器更新后驱动版本不对的问题使用driver.refresh()、driver.close()、driver.quit()防止占用内存过多使用--disable-extensions禁用插件避免插件可能带来的影响使用--inprivate打开无痕模式这里遇到一个很烦的问题用户登录同步问题无痕模式可以避免 from webdriver_manager.microsoft import EdgeChromiumDriverManagerdef get_html_by_selenium(url):print(开始, url)options webdriver.EdgeOptions()# 启用禁用浏览器正在被自动化程序控制的提示启动参数options.add_experimental_option(excludeSwitches, [enable-automation])# 禁用插件options.add_argument(--disable-extensions)# 无痕模式options.add_argument(--inprivate)count 0driver Nonewhile count 10:try:driver webdriver.Edge(serviceService(executable_pathEdgeChromiumDriverManager().install()),optionsoptions)# 最小化driver.minimize_window()time.sleep(1)driver.get(url)breakexcept WebDriverException as e:print(e)count 1time.sleep(3)continueexcept ConnectionError as e:print(e)count 1time.sleep(3)continueif driver is None:returntime.sleep(10)try:html driver.page_source# 防止内存泄露driver.refresh()try:driver.close()except WebDriverException:passdriver.quit()return htmlexcept NoSuchWindowException:return新闻列表解析代码 URL示例 https://www.toutiao.com/c/user/token/MS4wLjABAAAA6Ftyf-tftfbjp1u_TEz6kpY77ZlPaYRV0UsfXkF2UsM/?tabarticle 这里比较简单拿到了新闻标题和urlHTML解析过程中可能遇到浏览器中渲染的html结构和真实请求到的html结构不一样要以真实拿到的html内容为准 url fhttps://www.toutiao.com/c/user/token/{USER_TOKEN}/?tabarticle html get_html_by_selenium(url) soup BeautifulSoup(html, html.parser)for article in soup.find_all(div, attrs{class: profile-article-card-wrapper}):a article.find(a)news_title a[title]url a[href]content, news_time parse_and_save_news(url)新闻内容解析代码 相对比较简单忽略了图片的解析最终获得新闻的内容和新闻时间 def parse_and_save_news(url):html get_html_by_selenium(url)if not html:returnsoup BeautifulSoup(html, html.parser)article_content soup.find(div, attrs{class: article-content})if article_content is None:returnarticle_meta soup.find(div, attrs{class: article-meta})time_string article_meta.find(span, attrsNone).textnews_time datetime.strptime(time_string, %Y-%m-%d %H:%M)article article_content.articlenew_soup BeautifulSoup(htmlbody/body/html, html.parser)body new_soup.bodyfor p in article.find_all(p):body.append(BeautifulSoup(fp{p.text}/p, html.parser))content new_soup.prettify()return content, news_time
http://www.zqtcl.cn/news/222149/

相关文章:

  • 服装网站目标互联网舆情报告
  • 1.网站开发的详细流程电商网站开发文档
  • 域名估价网站制作网站需要注意什么
  • 新浪云虚拟主机做电影网站用什么l软件做网站了
  • 方城网站建设猴痘的治疗方法
  • 做响应式网站有什么插件哔哩哔哩免费安装
  • 织梦网站默认密码wordpress菜单页和文章页路径不同
  • 那些网站可以做兼职网站建设与维护 东博
  • 快速建站的模板建设银行嘉兴分行官方网站
  • 江西智能网站建设wordpress三栏博客主题
  • 怎么做网站账号注册机sem竞价
  • 吕梁建设机械网站怎么让网站排名上去
  • 网站建设的需要分析龙岗招聘网
  • 如何制作企业的网站网站开发答辩ppt
  • 大连中山网站建设网站在线qq代码
  • 南昌seo网站微商城网站建设如何
  • anker 网站建设手机可以做网站的服务器吗
  • 门户网站建设 报价没有网页快照对网站有什么影响
  • 陕西专业网站建设哪家好甜点网站里的新闻资讯怎么做
  • 邯郸企业网站团队h5微场景制作软件
  • 镇江建工建设集团网站泛微e8做网站门户
  • 适合友情链接的网站全球软件公司排行榜
  • 沈阳网站制作 600元网站飘动广告代码
  • 最先进的无锡网站建设wordpress调用 别的网站
  • 河南网站备案地址静安青岛网站建设
  • 烟台网站建设推荐企汇互联见效付款查看网站被百度收录
  • 做标签网站360街景地图怎么看
  • 深圳网站建设领先天津建设企业网站
  • 网站建设犭金手指C排名15温州 建网站的公司
  • 邢台建设银行官方网站公众号开发者密码是什么意思