当前位置：首页 > news >正文

延安市建设局网站十大微商推广平台

news 2025/11/15 0:50:57

延安市建设局网站,十大微商推广平台,网站备案更换,wordpress小程序主题进行selenium包和chromedriver驱动的安装安装selenium包在命令行或者anaconda prompt 中输入 pip install Selenium 安装 chromedriver 先查看chrome浏览器的版本这里是 123.0.6312.106 版然后在http://npm.taobao.org/mirrors/chromedriver/或者https://googlechrom…进行selenium包和chromedriver驱动的安装安装selenium包在命令行或者anaconda prompt 中输入 pip install Selenium 安装 chromedriver 先查看chrome浏览器的版本这里是 123.0.6312.106 版然后在http://npm.taobao.org/mirrors/chromedriver/或者https://googlechromelabs.github.io/chrome-for-testing/ 中下载对应版本的chromediver 由于没有106版的这里下的是105版下载解压后把exe文件复制到chrome浏览器的安装目录和 python的安装目录scripts文件夹下或者放到Anaconda的scripts文件夹下或测试 from selenium import webdriver browserwebdriver.Chrome() browser.get(https://www.sohu.com/)自动打开搜狐页面即可注浏览器自动更新后chromediver 也需要重新下载并按以上路径配置 SeleniumChrome Driver 爬取搜狐页面信息在selenium中不同的版本语法的用法具有差异按照书上的用chromedriver访问搜狐页面代码报错如下 chrome_driver_path传给webdriver.Chrome()时方式不对可参考下面这位博主的语法进行修改 http://t.csdnimg.cn/xxGhp from selenium.webdriver.chrome.service import Service# 设置 ChromeDriver 的路径 chrome_driver_path F:/chromedriver/chromedriver-win64/chromedriver.exe# 创建 Chrome WebDriver service Service(chrome_driver_path) driver webdriver.Chrome(serviceservice)代码实现导入包 from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By from selenium import webdriver: 导入了Selenium库中的webdriver模块它包含了各种WebDriver的实现用于模拟不同的浏览器行为。 from selenium.webdriver.chrome.service import Service: 导入了Service类它用于配置和启动ChromeDriver服务。 from selenium.webdriver.chrome.options import Options: 导入了Options类它用于配置Chrome浏览器的选项例如设置浏览器的头less模式等。 from selenium.webdriver.common.by import By: 导入了By类它定义了一些用于查找元素的方法例如通过class name、id等。配置ChromeDriver 的路径并启动浏览器 # 设置 ChromeDriver 的路径 chrome_driver_path F:/chromedriver/chromedriver-win64/chromedriver.exe# 创建 Chrome WebDriver# # 创建 Chrome Options 对象 # chrome_options Options() # chrome_options.add_argument(--headless) # 无头模式即不显示浏览器窗口service Service(chrome_driver_path) driver webdriver.Chrome(serviceservice)# 打开搜狐网站 driver.get(https://www.sohu.com/)获取当前页面的Html源码 # 获取当前网页的 HTML 源码 html_source driver.page_source print(HTML 源码:) print(html_source)运行结果如图所示获取当前页面的URL # 获取当前网页的 URL current_url driver.current_url print(\n当前网页的 URL:) print(current_url)运行结果如图所示获取classname为‘txt’的页面元素 # 使用 find_elements 方法查找 class 属性为 txt 的元素 txt_elements driver.find_elements(By.CLASS_NAME, txt)# 遍历输出每个元素的文本内容 for element in txt_elements:print(element.text)运行结果如图所示获取标签属性为 ‘footer’ 的元素文本 # 使用 find_elements 方法查找标签属性为 footer 的元素 txt_elements driver.find_elements(By.TAG_NAME, footer)# 遍历输出每个元素的文本内容 for element in txt_elements:print(element.text)运行结果如下图所示获取 class 属性为 ‘titleStyle’ 的元素的文本及href链接 # 使用 find_elements 方法查找 class 属性为 titleStyle 的元素 title_elements driver.find_elements(By.CLASS_NAME, titleStyle)# 遍历输出每个元素的文本内容 for element in title_elements:text element.texthref element.get_attribute(href)print(fText: {text}, Href: {href})运行结果如下图所示获取 xpath 搜狐首页的导航栏标签及 href链接 # 使用 find_elements 方法查找 xpath 搜狐首页的导航栏标签 title_elements driver.find_elements(By.XPATH, /html/body/div[2]/div/nav[classnav area]//a)# 遍历输出每个元素的文本内容 for element in title_elements:text element.get_attribute(innerHTML).strip()if text:href element.get_attribute(href)print(fText: {text}, Href: {href})运行结果如下图示这里运行出来后大的标签会有strong/strong 可以通过正则表达式进行优化优化代码如下 import re# 使用 find_elements 方法查找 xpath 搜狐首页的导航栏标签 title_elements driver.find_elements(By.XPATH, /html/body/div[2]/div/nav[classnav area]//a)# 遍历输出每个元素的文本内容 for element in title_elements:inner_html element.get_attribute(innerHTML)text re.sub(r[^]*, , inner_html).strip()if text:href element.get_attribute(href)print(fText: {text}, Href: {href})匹配左尖括号表示 HTML 标签的开始。 [^]匹配除了右尖括号之外的任何字符。 *匹配前面的字符零次或多次即匹配任意数量的除右尖括号之外的字符。匹配右尖括号表示 HTML 标签的结束。 re.sub(pattern, repl, string) pattern要匹配的正则表达式模式。 repl用于替换匹配文本的字符串。 string要进行替换操作的原始字符串。运行结果如下图所示关闭 WebDriver # 关闭 WebDriver driver.quit()完整代码 import re from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By# 设置 ChromeDriver 的路径 chrome_driver_path F:/chromedriver/chromedriver-win64/chromedriver.exe# 创建 Chrome WebDriver# # 创建 Chrome Options 对象 # chrome_options Options() # chrome_options.add_argument(--headless) # 无头模式即不显示浏览器窗口service Service(chrome_driver_path) driver webdriver.Chrome(serviceservice)# 打开搜狐网站 driver.get(https://www.sohu.com/)# 获取当前网页的 HTML 源码 html_source driver.page_source print(HTML 源码:) print(html_source)# 获取当前网页的 URL current_url driver.current_url print(\n当前网页的 URL:) print(current_url)# 使用 find_elements 方法查找 class 属性为 txt 的元素 txt_elements driver.find_elements(By.CLASS_NAME, txt)# 遍历输出每个元素的文本内容 for element in txt_elements:print(element.text)# 使用 find_elements 方法查找标签属性为 footer 的元素 txt_elements driver.find_elements(By.TAG_NAME, footer)# 遍历输出每个元素的文本内容 for element in txt_elements:print(element.text)# 使用 find_elements 方法查找 class 属性为 titleStyle 的元素 title_elements driver.find_elements(By.CLASS_NAME, titleStyle)# 遍历输出每个元素的文本内容 for element in title_elements:text element.texthref element.get_attribute(href)print(fText: {text}, Href: {href})# # 使用 find_elements 方法查找 xpath 搜狐首页的导航栏标签 # title_elements driver.find_elements(By.XPATH, /html/body/div[2]/div/nav[classnav area]//a)# # 遍历输出每个元素的文本内容 # for element in title_elements: # text element.get_attribute(innerHTML).strip() # if text: # href element.get_attribute(href) # print(fText: {text}, Href: {href})# 使用 find_elements 方法查找 xpath 搜狐首页的导航栏标签 title_elements driver.find_elements(By.XPATH, /html/body/div[2]/div/nav[classnav area]//a)# 遍历输出每个元素的文本内容 for element in title_elements:inner_html element.get_attribute(innerHTML)text re.sub(r[^]*, , inner_html).strip()if text:href element.get_attribute(href)print(fText: {text}, Href: {href})# 关闭 WebDriver driver.quit()

查看全文

http://www.zqtcl.cn/news/652601/