当前位置：首页 > news >正文

科技制作网站北京市在建工程项目查询

news 2025/11/14 15:49:13

科技制作网站,北京市在建工程项目查询,中国银行官网,广告设计培训班Hi#xff0c;大家好#xff0c;我是半亩花海。本项目是一个简单的网络爬虫#xff0c;用于从网易新闻的热点新闻列表中提取标题和对应的链接#xff0c;并将提取到的数据保存到一个 CSV 文件中。目录一、技术栈二、功能说明三、注意事项四、代码解析 1. 导入所需… Hi大家好我是半亩花海。本项目是一个简单的网络爬虫用于从网易新闻的热点新闻列表中提取标题和对应的链接并将提取到的数据保存到一个 CSV 文件中。目录一、技术栈二、功能说明三、注意事项四、代码解析 1. 导入所需库 2. 定义目标URL和请求头 3. 发送HTTP请求获取网页内容 4. 解析网页内容 5. 提取标题和链接 6. 将提取的数据写入 CSV 文件五、结果展示六、完整代码一、技术栈 PythonRequests 库用于发送 HTTP 请求lxml 库用于解析 HTML 文档CSV 文件操作二、功能说明通过发送 HTTP 请求到网易新闻的热点新闻列表页面获取页面内容。使用 XPath 解析页面内容提取新闻标题和对应链接。将提取的标题和链接写入 CSV 文件每一行包含一个标题和其对应的链接。三、注意事项网络爬虫应遵守网站的 Robots 协议和法律法规不得对网站造成不必要的负担或侵犯其权益。在进行大规模爬取时建议添加适当的延时和错误处理机制以避免被网站封禁 IP 或其他异常情况。四、代码解析 1. 导入所需库 import requests from lxml import etree2. 定义目标URL和请求头 url https://c.m.163.com/news/hot/newsList headers {user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36 }3. 发送HTTP请求获取网页内容 response requests.get(url, headersheaders)4. 解析网页内容 data etree.HTML(response.text)5. 提取标题和链接 title_list data.xpath(//div[classtitle]/a/text()) href_list data.xpath(//div[classtitle]/a/href)6. 将提取的数据写入 CSV 文件 with open(网易.csv, a, encodingutf-8) as f:for title, href in zip(title_list, href_list):print(Title:, title) # 标题print(Href:, href) # 超链接f.write({},{}\n.format(title, href))五、结果展示六、完整代码 #!/usr/bin/env python # -*- encoding: utf-8 -*- import requests from lxml import etreeurl https://c.m.163.com/news/hot/newsList headers {user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36 } response requests.get(url, headersheaders)data etree.HTML(response.text) title_list data.xpath(//div[classtitle]/a/text()) href_list data.xpath(//div[classtitle]/a/href)# 保存数据指定编码为UTF-8 with open(网易.csv, a, encodingutf-8) as f:for title, href in zip(title_list, href_list):print(Title:, title) # 标题print(Href:, href) # 超链接f.write({},{}\n.format(title, href))

查看全文

http://www.zqtcl.cn/news/47532/