当前位置: 首页 > news >正文

织梦网站手机版端设置网站列表页内容

织梦网站手机版端设置,网站列表页内容,浙江建设厅网站,长春小程序 开发目标网站#xff1a;湖南法治报 爬取目的#xff1a;为了获取某一地区更全面的在湖南法治报已发布的宣传新闻稿#xff0c;同时也让自己的工作更便捷 环境#xff1a;Pycharm2021#xff0c;Python3.10#xff0c; 安装的包#xff1a;requests#xff0c;csv#xff…  目标网站湖南法治报 爬取目的为了获取某一地区更全面的在湖南法治报已发布的宣传新闻稿同时也让自己的工作更便捷 环境Pycharm2021Python3.10 安装的包requestscsvbs4 v1.0 版本特点获取指定页数的新闻数据筛选出含有想要查找的的关键词的新闻内容并存储起来。 1 首先分析网页 查看数据返回方式发现网站不用像红网那样设置各种headers了可以直接爬 发现在这个页面只有文章标题和发布时间以及文章链接的信息当然文章有图片的就还有图片信息 2 再看文章内容页面 像我就只要文字部分就行了不需要图片 3 运行结果 爬虫 新闻网站 以湖南法治报为例 V1.0 4 具体分析和实现请看代码含详细注释 #!/usr/bin/env python # -*- coding: utf-8 -*- # Time : 2024/4/4 21:36 # Author : LanXiaoFang # Site : # File : efaw.py # Software: PyCharm import csv import requests from bs4 import BeautifulSoup# 由于发现湖南法治报没有设置反爬机制因为我们不用反反爬了可以直接爬数据了 # 市州动态 下的对应市州的编号 szId {长沙: 14129, 株洲: 14130, 湘潭: 14223, 衡阳: 14224, 邵阳: 14225, 岳阳: 14226, 常德: 14227,张家界: 14228, 益阳: 14229, 郴州: 14230, 永州: 14231, 怀化: 14232, 娄底: 14233, 湘西: 14234}# 输入你想要获取的湖南省下的哪一市州的新闻 比如 湖南省下的永州市直接输入 永州 即可 sz 永州 # 根据输入的湖南省下的市州 得到对应的市州编号 再拼接入链接 url http://www.efaw.cn/list/ szId[sz] # 输入你想要的关键词 比如 双牌、蓝山、宁远、新田、零陵 search_keyword 双牌 # 标题就含有关键词的计数器 title_Yes_Num 0 # 标题不含有关键词但是内容含有关键词的计数器 title_No_Num 0 # 新闻来源级别 level 省级爬虫思路 首先最开始是打开要爬取的网站然后分析怎样获取需要的数据最完整和便捷 一开始看到搜索其实是想直接搜关键词获取新闻的但是发现通过搜索框获得到新闻数据不如市州动态下的全面所以还是打算一条一条新闻比对是否符合自定义关键词 1 首先进入市州动态获取到某市州动态下的所有新闻数据 2 根据具体新闻链接进入新闻页面获取到新闻信息 # # 创建CSV文件并写入头部信息 with open(search_keyword 湖南法治报_标题含关键词.csv, w, newline, encodingutf-8) as csvfile:writer csv.writer(csvfile)writer.writerow([序号, 新闻名称, 新闻来源, 媒体级别, 发布日期, 原文链接, 来源]) # 根据实际情况定义列名 with open(search_keyword 湖南法治报_标题不含内容含关键词.csv, w, newline, encodingutf-8) as csvfile:writer csv.writer(csvfile)writer.writerow([序号, 新闻名称, 新闻来源, 媒体级别, 发布日期, 原文链接, 来源]) # 根据实际情况定义列名# http://www.efaw.cn/list/14231?page1 page 1 while page 20: # 从这里修改数字以控制要多少页的新闻内容,page20page从1开始一直到20# 拼接出每一页的urlurl_page url ?page str(page)html_all requests.get(url_page)html_all.encoding utf-8print(page, 页, url_page)if html_all.status_code 200:soups BeautifulSoup(html_all.text, html.parser)article_info soups.find_all(ul, class_list_content)for i in article_info:result_info i.find_all(div)for art in result_info:article_href art.a.get(href) # 文章链接print(article_href)article_title art.a.get(title) # 文章标题article_time art.i.text # 文章发布时间 显示为发布时间2024-04-02 10:08:03# 因为只要年月日部分的时间因此把一些不需要的字符去掉article_time article_time[2article_time.index(间):]article_time article_time[:article_time.index(:)-2]# 从文章内容中获取到来源html_article_info_sk requests.get(article_href)html_article_info_sk.encoding utf-8if html_article_info_sk.status_code 200:soups_sk BeautifulSoup(html_article_info_sk.text, html.parser)article_info_sk soups_sk.find_all(div, class_video_left)# 其实在这里我想获取到具体的来源这一段因为在新闻详情页面如果 来源 为 双牌县优化办 那么这条新闻就是优化办推过去的spxq_title_source soups_sk.find(div, class_spxq_title_source).text# 文章信息来源 显示为 来源湖南法治报atricle_source spxq_title_source[spxq_title_source.index(来源)3:spxq_title_source.index(|)]# 在这里可以从标题判断是否含有搜索的关键词search_keyword如果有则可以直接存储这条新闻信息如果没有则继续查看新闻内容看是否含有关键词信息if search_keyword in article_title: # 标题判断含有搜索的关键词search_keywordtitle_Yes_Num 1with open(search_keyword 湖南法治报_标题含关键词.csv, a, newline, encodingutf-8) as csvfile:writer csv.writer(csvfile)writer.writerow([title_Yes_Num, article_title, 湖南法治报, level, article_time, article_href, atricle_source])print(Yes Tile have SK !!!!!, title_Yes_Num)print(title_Yes_Num, --title:, article_title, time:, article_time, href:, article_href, source:, atricle_source)else: # 标题判断不含搜索的关键词search_keywordif search_keyword in article_info_sk:title_No_Num 1with open(search_keyword 湖南法治报_标题不含内容含关键词.csv, a, newline, encodingutf-8) as csvfile:writer csv.writer(csvfile)writer.writerow([title_No_Num, article_title, 湖南法治报, level, article_time, article_href, atricle_source])print(Yes Content have SK !!!!!, article_info_sk)print(title_No_Num, --title:, article_title, time:, article_time, href:, article_href, source:, atricle_source)page 1
http://www.zqtcl.cn/news/19810/

相关文章:

  • 唐山建网站公司微官网制作一般多少钱
  • 生物网站模板wordpress建小说网站
  • 网站建站 在线制作家居网站建设总结
  • 做网站加盟做医学网站
  • 网站开发工程师的证件jsp网站开发目的及意义
  • 盘锦做网站选哪家好药企做网站需要哪些手续
  • php 如何在网站根目录创建文件夹网站的建立步骤
  • 网站是用虚拟机做还是服务器团购网站 设计方案
  • 网站建设数据库设计有人有片资源吗在线观看不下载
  • 企业网站建设费用计入哪个科目ppt制作模板免费下载
  • 商务网站设计报告问卷调查网站
  • 宁津做网站公司搜索引擎作弊网站有哪些
  • 做算命网站犯法吗美发店网站源码
  • 企业网站建设策划案wordpress 4.5 中文版
  • 有了域名怎么建网站万网怎么建立网站
  • 网站建设优化公司排名怎么样建设一个电影网站视频
  • 沈阳市建设公司网站施工企业税收筹划
  • 照片分享网站模板下载青海省建设工程造价网站
  • 攀枝花住房和城乡建设厅官方网站网站建设优選宙斯站长
  • 如何设置网站iconwordpress炫酷登录界面
  • 义乌制作网站女生做网站编辑好不好
  • 织梦只显示网站首页族谱网站建设
  • 浙江省城乡和建设厅网站东莞制作公司网站
  • 菏砖网站建设网站开发怎么挣钱
  • 回收网站建设吕梁网站制作吕梁安全
  • 网站设计参考网站在线旅游网站平台有哪些
  • jsp网站怎么运行微模板网站建设
  • 响应式建站网站武平县天恒建设投资集团公司网站
  • 辽宁建设工程质量监督站网站网站模版源码
  • 爱建站吧织梦网站栏目增加