当前位置: 首页 > news >正文

大丰做网站费用网站开发价格评估

大丰做网站费用,网站开发价格评估,广州最新消息,网站运营怎么学爬取笑话集网页 目标网址为#xff1a;http://www.jokeji.cn/list.html 感觉这个网站挺简单#xff0c;不用登陆#xff0c;没有复杂的功能#xff0c;好爬~ 可以现在浏览器中访问这个链接看一下效果#xff0c;你会发现这个页面是个目录#xff0c;有很多笑话页面的链接…爬取笑话集网页 目标网址为http://www.jokeji.cn/list.html  感觉这个网站挺简单不用登陆没有复杂的功能好爬~ 可以现在浏览器中访问这个链接看一下效果你会发现这个页面是个目录有很多笑话页面的链接。 还是先使用简单的代码试试有没有效果 由于爬取的内容发现乱码所以加上encoding import requests # 导入requests库 jokePage requests.get(http://www.jokeji.cn/list.htm) jokePage.encoding gbk print(jokePage.text)爬取每个笑话页面的连接 刚刚我们爬的那个页面是所有笑话的目录每个目录是一个链接打开链接才能看到笑话的内容所以我们要从刚刚爬取的页面中提取所有的笑话页面链接。 * 网页就是文本我们要从一个网页中爬取我们想要的内容就是处理字符串 *。所以分析刚刚爬取的页面找到其中所有的笑话页面链接地址。 可以简单的认为一个笑话页面的链接都是如下结构的/jokehtml/***/****.htm,不信你可以去刚刚爬到的网页源码里面看看 知道了笑话页面链接的结构就可以从网页源码里把所有的链接提取出来啦当然要使用正则表达式  import requests # 导入requests库 import re # 导入正则表达式库 jokePage requests.get(http://www.jokeji.cn/list.htm) jokePage.encoding gbk jokeList re.findall(/jokehtml/[\w]/[0-9].htm,jokePage.text) # 使用正则表达式找到所有笑话页面的链接 print(jokeList) 利用爬到的笑话网页链接去访问笑话页面 简单点先访问我们获取到的第一个链接既 http://www.jokeji.cn jokeList[0] 这个页面访问的方法一样是用requests.get()方法代码如下 import requests # 导入requests库 import re # 导入正则表达式库 jokePage requests.get(http://www.jokeji.cn/list.htm) jokePage.encoding gbk jokeList re.findall(/jokehtml/[\w]/[0-9].htm,jokePage.text) # 使用正则表达式找到所有笑话页面的链接 jokeContent requests.get(http://www.jokeji.cn/jokeList[1]) # 访问第一个链接 jokeContent.encoding gbk print(jokeContent.text)            比如我就发现所有的笑话都在p/p标签中而且p后面都跟了一个数字代表这个笑话的序号而其他非笑话的 p标签后就没有数字所以可以用p[0-9].*/p这个简单的正则匹配到所有笑话把上面代码修改最后两句 import requests # 导入requests库 import re # 导入正则表达式库 jokePage requests.get(http://www.jokeji.cn/list.htm) jokePage.encoding gbk jokeList re.findall(/jokehtml/[\w]/[0-9].htm,jokePage.text) # 使用正则表达式找到所有笑话页面的链接 jokeContent requests.get(http://www.jokeji.cn/jokeList[0]) # 访问第一个链接 jokeContent.encoding gbk jokes re.findall(P[0-9].*/P, jokeContent.text) # 利用正则找到页面中的所有笑话 print(jokes) 完整代码如下 import requests import re jokePage requests.get(http://www.jokeji.cn/list.htm) #取到笑话集完整网址 jokePage.encoding gbk # print(jokePage.text) #打印html页面 jokeList re.findall(/jokehtml/[\w]/[0-9].htm,jokePage.text) #匹配到所有的链接 print(jokeList) for jokeLink in jokeList: #取到每一个链接jokeContent requests.get(http://www.jokeji.cn/ jokeLink) # 访问第一个链接jokeContent.encoding gbkjokes re.findall(P[0-9].*/P, jokeContent.text)for joke in jokes: # 循环打印笑话print(joke)print()     最后还是别忘了这篇文章主要目的是练习使用requests库别只顾看笑话了想想爬笑话过程中用到了requests的什么功能。实际上学会了用代码去访问网页转载于:https://www.cnblogs.com/moning/p/8299037.html
http://www.zqtcl.cn/news/64816/

相关文章:

  • php做网站安装网站搭建合同
  • 卖网格布怎样做网站wordpress前台修改文章
  • 网站建立具体步骤是国内最大的供求信息网
  • 网站建设手机登录密码是什么啊电商网站建设服务平台
  • 正规网站建设多少钱上海做高端网站
  • vs做网站的书籍河南省城乡与住房建设厅网站首页
  • 如何创办网站网站制作计算机
  • 怎么自建一个网站建设银行网站登录不了
  • wordpress官方网站网站都有什么类型的
  • 莱芜网站制作公司wordpress修改文件上传路径
  • 招聘网站建设的目的wordpress 屏蔽插件更新
  • 网站营销管理培训班黄岐网站制作
  • 哪个软件做网站最简单天津滨海新区大爆炸
  • 网站开发 需求说明书团购的网站扣佣金分录怎么做
  • 网站后期维护需要注意什么网页设计师证书什么时候考
  • 怎样增加网站浏览量个人怎么做网站
  • 软件的开发文档青岛网站优化公司
  • 如何把php做的网站做成app网络营销做得好的酒店
  • 会员管理网站模板玉溪网站制作公司
  • 北京营销型网站建设公司播放我的观看历史记录
  • 关于网站设计的论文免费的行情软件网站不下载
  • 举报企业网站用个人信息备案孵化器网站建设方案
  • 南海区住房和城乡建设部网站广告推广方式有哪几种
  • 电商网站竞价推广的策略wordpress采集插件qqword
  • 桂林广告公司网站建设国际要闻
  • 我做的网站关键词到首页了没单子做个网站成功案例
  • 做h5动画网站字画价格网站建设方案
  • 企业网站设计收费新手如何做企业网站
  • 建设网站的目的及功能定位主要包括哪些内容查看虚拟币行情的网站怎么做
  • 中山如何制作网站我要学习做网站