当前位置: 首页 > news >正文

天猫秘券网站怎么做成都网络推广网站

天猫秘券网站怎么做,成都网络推广网站,美客多跨境电商平台,做好网站建设和运营使用 Selenium 和 Python 爬取腾讯新闻#xff1a;从基础到实践 在这篇博客中#xff0c;我们将介绍如何利用 Selenium 和 Python 爬取腾讯新闻的内容#xff0c;并将结果保存到 CSV 文件中。本教程包含以下内容#xff1a; 项目简介依赖安装实现功能的代码实现中的关键技…使用 Selenium 和 Python 爬取腾讯新闻从基础到实践 在这篇博客中我们将介绍如何利用 Selenium 和 Python 爬取腾讯新闻的内容并将结果保存到 CSV 文件中。本教程包含以下内容 项目简介依赖安装实现功能的代码实现中的关键技术完整代码运行结果与注意事项 1. 项目简介 腾讯新闻网站包含丰富的新闻资源。我们的目标是 爬取文章的标题和部分内容200个字符。点击“下一页”按钮后跳转到新页面并继续爬取。处理爬取内容中的特殊字符。将爬取到的内容保存到 CSV 文件中。 本项目适合初学者学习 Selenium 的基础操作例如页面切换和元素交互。 2. 依赖安装 在开始前需要安装以下依赖 Python 环境确保安装了 Python 3.7 或以上版本。Selenium用于网页自动化。WebDriver Manager自动管理浏览器驱动。 运行以下命令安装必要的库 pip install selenium webdriver-manager pandas3. 实现功能的代码 以下是主要功能实现 1. Selenium 驱动设置 通过 WebDriver Manager 自动管理 ChromeDriver避免手动下载和配置。 from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.chrome.options import Options from webdriver_manager.chrome import ChromeDriverManagerdef setup_driver():options Options()options.add_argument(--headless) # 无头模式运行options.add_argument(--disable-gpu)driver webdriver.Chrome(serviceService(ChromeDriverManager().install()), optionsoptions)return driver2. 点击下一页并切换窗口 实现点击下一页按钮切换到新打开的窗口并关闭旧窗口。 from selenium.webdriver.common.by import By import timedef click_next_and_switch_window(driver):current_window driver.current_window_handlenext_button driver.find_element(By.XPATH, /html/body/div[3]/div[1]/div[3]/div/div/ul/li[6]/div[2]/h3/a)next_button.click()time.sleep(3)all_windows driver.window_handlesdriver.close()driver.switch_to.window(all_windows[-1])time.sleep(2)3. 爬取文章内容 爬取标题和正文的前200个字符并使用正则表达式清理标题。 import redef crawl_tencent_news(start_url, max_articles50):driver setup_driver()articles []driver.get(start_url)time.sleep(2)for _ in range(max_articles):try:title driver.find_element(By.XPATH, //*[iddc-normal-body]/div[3]/div[1]/div[1]/div[2]/h1).texttitle re.sub(r[^a-zA-Z0-9\u4e00-\u9fa5\s。], , title)content driver.find_element(By.XPATH, //*[idArticleContent]/div[2]/div).textshort_content content[:200]articles.append({Title: title, Content: short_content})click_next_and_switch_window(driver)except:breakdriver.quit()return articles4. 保存为 CSV 将爬取到的内容保存到 CSV 文件中。 import pandas as pddef save_to_csv(articles, filename):df pd.DataFrame(articles)df.to_csv(filename, indexFalse, encodingutf-8)print(f已将 {len(articles)} 篇文章保存到 {filename}.)4. 完整代码 以下是完整代码整合 import re from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.chrome.options import Options from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.common.by import By import time import pandas as pddef setup_driver():options Options()options.add_argument(--headless)options.add_argument(--disable-gpu)driver webdriver.Chrome(serviceService(ChromeDriverManager().install()), optionsoptions)return driverdef click_next_and_switch_window(driver):current_window driver.current_window_handlenext_button driver.find_element(By.XPATH, /html/body/div[3]/div[1]/div[3]/div/div/ul/li[6]/div[2]/h3/a)next_button.click()time.sleep(3)all_windows driver.window_handlesdriver.close()driver.switch_to.window(all_windows[-1])time.sleep(2)def crawl_tencent_news(start_url, max_articles50):driver setup_driver()articles []driver.get(start_url)time.sleep(2)for _ in range(max_articles):try:title driver.find_element(By.XPATH, //*[iddc-normal-body]/div[3]/div[1]/div[1]/div[2]/h1).texttitle re.sub(r[^a-zA-Z0-9\u4e00-\u9fa5\s。], , title)content driver.find_element(By.XPATH, //*[idArticleContent]/div[2]/div).textshort_content content[:200]articles.append({Title: title, Content: short_content})click_next_and_switch_window(driver)except:breakdriver.quit()return articlesdef save_to_csv(articles, filename):df pd.DataFrame(articles)df.to_csv(filename, indexFalse, encodingutf-8)print(f已将 {len(articles)} 篇文章保存到 {filename}.)def main():start_url https://news.qq.com/rain/a/20241201A03DNQ00articles crawl_tencent_news(start_url, max_articles50)if articles:save_to_csv(articles, tencent_articles.csv)if __name__ __main__:main()5. 运行结果与注意事项 结果 运行代码后将爬取到的文章标题和内容保存到 tencent_articles.csv 文件中数据示例如下 TitleContent腾讯新闻标题示例这是文章内容的前200个字符… 注意事项 网络延迟需要确保网络连接畅通避免加载超时。页面变化目标网站的结构可能会变化需定期更新 XPath。反爬机制添加 time.sleep() 避免触发反爬机制。 希望这篇博客能帮助你理解和实践 Selenium 爬虫的开发过程如有疑问请随时留言讨论
http://www.zqtcl.cn/news/842938/

相关文章:

  • 南京模板建站定制网站网站单页面怎么做的
  • 宁夏住房建设厅网站石家庄最新今天消息
  • 写网站软件tomcat部署wordpress
  • 怎么做下载网站吗分析一个网站
  • 网站建设禁止谷歌收录的办法做挂网站
  • 佛山优化网站公司做购物网站需要多少钱
  • 山东网站建设维护营销型网站是什么样的
  • 长沙营销网站建设苏州风险区域最新
  • 个人网站百度推广收费wordpress发邮件慢
  • 三门峡网站设计wordpress 去掉功能
  • 网站小程序开发公司wordpress 用户授权
  • 做外贸的几个网站响应式网站wordpress摄影
  • 专业建设网站技术wordpress 虚拟资源
  • 广告网站设计哪家快网站建设外包包含内容
  • 网页游戏网站模板张家口住房和城乡建设部网站
  • 冀州建设局网站公司制作网站多少钱
  • 建设个招聘网站黄页88和58那个推广好
  • 如何设计一个漂亮的网站电商设计素材
  • 沈阳建设银行网站首页果冻影视传媒有限公司
  • 建设部网站有建筑施工分包网站规划设计方案
  • 网站wap怎么做郑州做网站华久科技
  • 哪里网站开发好姜堰网站定制
  • 广东网站开发需要多少钱百度问答官网
  • 建设电影网站的关键wordpress简码怎么用
  • 做网站的linux程序代码北京公司减资流程
  • 四川省住房建设厅网站进不去wordpress 无限下拉菜单
  • 培训网站图片网络编程基础知识
  • 外销网站怎么做的上海住房与城乡建设部网站
  • 平台网站建设教程网站建设谈业务要知道什么
  • php网站开发试题济南网站排名公司