当前位置: 首页 > news >正文

虚拟邮箱注册网站新开神途手游发布网站

虚拟邮箱注册网站,新开神途手游发布网站,前端需要学什么,怎样建设网站教程前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。PS#xff1a;如有需要Python学习资料的小伙伴可以加点击下方链接自行获取基本开发环境Python 3.6Pycharmimport parselimport requestsimport re目标网页分析今天就爬…前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。PS如有需要Python学习资料的小伙伴可以加点击下方链接自行获取基本开发环境Python 3.6Pycharmimport parselimport requestsimport re目标网页分析今天就爬取新闻网中的国际新闻栏目点击显示更多新闻内容可以看到相关的数据接口里面有新闻标题以及新闻详情的url地址如何提取url地址1、转成json键值对取值2、用正则表达式匹配url地址两种方法都可以实现看个人喜好根据接口数据链接中的pager 变化进行翻页其对应的就是页码。详情页可以看到新闻内容都是在 div标签里面 p 标签内按照正常的解析网站即可获取新闻内容。保存方式1、你可以保存txt文本形式2、也可以保存成PDF形式之前也讲过关于爬取文章内容保存成 PDF 可以点击下方链接查看相关保存方式。本篇文章的话就使用保存txt文本的形式吧。整体爬取思路总结在栏目列表页中点击更多新闻内容获取接口数据url接口数据url中返回的数据内容中匹配新闻详情页url使用常规解析网站操作(re、css、xpath)提取新闻内容保存数据代码实现获取网页源代码def get_html(html_url):获取网页源代码 response:param html_url: 网页url地址:return: 网页源代码response requests.get(urlhtml_url, headersheaders)return response获取每篇新闻url地址def get_page_url(html_data):获取每篇新闻url地址:param html_data: response.text:return: 每篇新闻的url地址page_url_list re.findall(url:(.*?), html_data)return page_url_list文件保存命名不能含有特殊字符需要对新闻标题进行处理def file_name(name):文件命名不能携带 特殊字符:param name: 新闻标题:return: 无特殊字符的标题replace re.compile(r[\\\/\:\*\?\\\|])new_name re.sub(replace, _, name)return new_name保存数据def download(content, title):with open 保存新闻内容 txt:param content: 新闻内容:param title: 新闻标题:return:path 新闻\\ title .txtwith open(path, modea, encodingutf-8) as f:f.write(content)print(正在保存, title)主函数def main(url):主函数:param url: 新闻列表页 url地址:return:html_data get_html(url).text # 获得接口数据response.textlis get_page_url(html_data) # 获得新闻url地址列表for li in lis:page_data get_html(li).content.decode(utf-8, ignore) # 新闻详情页 response.textselector parsel.Selector(page_data)title re.findall((.*?), page_data, re.S)[0] # 获取新闻标题new_title file_name(title)new_data selector.css(#cont_1_1_2 div.left_zw p::text).getall()content .join(new_data)download(content, new_title)if __name__ __main__:for page in range(1, 101):url_1 https://channel.chinanews.com/cns/cjs/gj.shtml?pager{}pagenum9t5_58.format(page)main(url_1)运行效果图
http://www.zqtcl.cn/news/917151/

相关文章:

  • 网站没有内容可以备案吗哪家网站设计好
  • 承德网站建设价格app 网站运营ppt
  • 外贸建站 服务器山西孝义网站开发
  • 廊坊网站建设开发全网整合营销公司
  • html网站建设流程网站模板二次开发
  • wordpress建站需要学什么意思sem扫描电镜
  • 总结 设网站门户网站开发一般多少钱
  • 政务网站无障碍建设wordpress虚拟资源主题
  • 确山专业网站建设百度一下一下你就知道
  • 设计类网站排名优秀广告案例
  • 自己做网站如何挣钱天津南开做网站
  • 小型教育网站的开发建设论文前端开发培训哪里好
  • 久免费域名注册网站朋友圈广告推广
  • 深圳著名设计网站西安管控最新消息
  • 珠海网站快速排名提升ftp查看网站后台密码
  • php电子商务网站源码百搜网络科技有限公司
  • 做外贸的网站怎么建立小说网站流量怎么做
  • 官网整站优化四川省造价工程信息网
  • 公司内部网站怎么建立网站建设与管理ppt
  • 做正规网站有哪些前端好学吗需要学多久
  • 1企业网站案例用自己服务器做网站用备案
  • 广州做啊里巴巴网站多少钱自贡公司做网站
  • 天津做家政的网站购物网站功能模块图
  • 哪个网站好网站赚钱的方式
  • 班级网站建设开题报告在线音乐网站开发摘要
  • 昆山装饰公司网站建设wordpress olve
  • 重庆哪个区最繁华百度seo排名规则
  • 长春火车站高清图片网站商城微信支付宝支付宝支付接口
  • 市场体系建设司在官方网站支付宝手机网站支付
  • dedecms 模版网站网站图标下载