科技制作网站,北京市在建工程项目查询,中国银行官网,广告设计培训班Hi#xff0c;大家好#xff0c;我是半亩花海。本项目是一个简单的网络爬虫#xff0c;用于从网易新闻的热点新闻列表中提取标题和对应的链接#xff0c;并将提取到的数据保存到一个 CSV 文件中。 目录
一、技术栈
二、功能说明
三、注意事项
四、代码解析
1. 导入所需… Hi大家好我是半亩花海。本项目是一个简单的网络爬虫用于从网易新闻的热点新闻列表中提取标题和对应的链接并将提取到的数据保存到一个 CSV 文件中。 目录
一、技术栈
二、功能说明
三、注意事项
四、代码解析
1. 导入所需库
2. 定义目标URL和请求头
3. 发送HTTP请求获取网页内容
4. 解析网页内容
5. 提取标题和链接
6. 将提取的数据写入 CSV 文件
五、结果展示
六、完整代码 一、技术栈
PythonRequests 库用于发送 HTTP 请求lxml 库用于解析 HTML 文档CSV 文件操作 二、功能说明
通过发送 HTTP 请求到网易新闻的热点新闻列表页面获取页面内容。使用 XPath 解析页面内容提取新闻标题和对应链接。将提取的标题和链接写入 CSV 文件每一行包含一个标题和其对应的链接。 三、注意事项
网络爬虫应遵守网站的 Robots 协议和法律法规不得对网站造成不必要的负担或侵犯其权益。在进行大规模爬取时建议添加适当的延时和错误处理机制以避免被网站封禁 IP 或其他异常情况。 四、代码解析
1. 导入所需库
import requests
from lxml import etree2. 定义目标URL和请求头
url https://c.m.163.com/news/hot/newsList
headers {user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36
}3. 发送HTTP请求获取网页内容
response requests.get(url, headersheaders)4. 解析网页内容
data etree.HTML(response.text)5. 提取标题和链接
title_list data.xpath(//div[classtitle]/a/text())
href_list data.xpath(//div[classtitle]/a/href)6. 将提取的数据写入 CSV 文件
with open(网易.csv, a, encodingutf-8) as f:for title, href in zip(title_list, href_list):print(Title:, title) # 标题print(Href:, href) # 超链接f.write({},{}\n.format(title, href))五、结果展示 六、完整代码
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
import requests
from lxml import etreeurl https://c.m.163.com/news/hot/newsList
headers {user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36
}
response requests.get(url, headersheaders)data etree.HTML(response.text)
title_list data.xpath(//div[classtitle]/a/text())
href_list data.xpath(//div[classtitle]/a/href)# 保存数据指定编码为UTF-8
with open(网易.csv, a, encodingutf-8) as f:for title, href in zip(title_list, href_list):print(Title:, title) # 标题print(Href:, href) # 超链接f.write({},{}\n.format(title, href))