当前位置: 首页 > news >正文

php网站制作过程中遇到的问题及解决办法建网站的成本计算

php网站制作过程中遇到的问题及解决办法,建网站的成本计算,西安教育类网站建设公司,洛阳做公司网站由于实验室需要一些语料做研究#xff0c;语料要求是知网上的论文摘要#xff0c;但是目前最新版的知网爬起来有些麻烦#xff0c;所以我利用的是知网的另外一个搜索接口 搜索出来的结果和知网上的结果几乎一样 在这个基础上#xff0c;我简单看了些网页的结构#xff0c;…由于实验室需要一些语料做研究语料要求是知网上的论文摘要但是目前最新版的知网爬起来有些麻烦所以我利用的是知网的另外一个搜索接口 搜索出来的结果和知网上的结果几乎一样 在这个基础上我简单看了些网页的结构很容易就能写出爬取得代码是最基础的相当不完善增加其他功能可自行增加网页的结构还是很清晰的摘要信息也很清晰 我使用的是 pymysql 连接的数据库效率也还可以 下面直接贴代码 # -*- coding: utf-8 -*- import time import re import random import requests from bs4 import BeautifulSoup import pymysql connection pymysql.connect(host, user, password, db, port3306, charsetutf8) # 注意是utf8不是utf-8 # 获取游标 cursor connection.cursor() #url http://epub.cnki.net/grid2008/brief/detailj.aspx?filenameRLGY201806014dbnameCJFDLAST2018 #这个headers信息必须包含否则该网站会将你的请求重定向到其它页面 headers { Accept:text/html,application/xhtmlxml,application/xml;q0.9,image/webp,*/*;q0.8, Accept-Encoding:gzip, deflate, sdch, Accept-Language:zh-CN,zh;q0.8, Connection:keep-alive, Host:www.cnki.net, Referer:http://search.cnki.net/search.aspx?q%E4%BD%9C%E8%80%85%E5%8D%95%E4%BD%8D%3a%E6%AD%A6%E6%B1%89%E5%A4%A7%E5%AD%A6rankrelevantclusterzykvalCDFDTOTAL, Upgrade-Insecure-Requests:1, User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 } headers1 { User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36 } def get_url_list(start_url): depth 20 url_list [] for i in range(depth): try: url start_url p str(i * 15) search requests.get(url.replace(\n, ), headersheaders1) soup BeautifulSoup(search.text, html.parser) for art in soup.find_all(div, class_wz_tab): print(art.find(a)[href]) if art.find(a)[href] not in url_list: url_list.append(art.find(a)[href]) print(爬取第 str(i) 页成功) time.sleep(random.randint(1, 3)) except: print(爬取第 str(i) 页失败) return url_list def get_data(url_list, wordType): try: # 通过url_results.txt读取链接进行访问 for url in url_list: i 1; if url pymysql.NULL or url : continue try: html requests.get(url.replace(\n, ), headersheaders) soup BeautifulSoup(html.text, html.parser) except: print(获取网页失败) try: print(url) if soup is None: continue # 获取标题 title soup.find(title).get_text().split(-)[0] # 获取作者 author for a in soup.find(div, class_summary pad10).find(p).find_all(a, class_KnowledgeNetLink): author (a.get_text() ) # 获取摘要 abstract soup.find(span, idChDivSummary).get_text() # 获取关键词存在没有关键词的情况 except: print(部分获取失败) pass try: key for k in soup.find(span, idChDivKeyWord).find_all(a, class_KnowledgeNetLink): key (k.get_text() ) except: pass print(第 str(i) 个url) print(【Title】 title) print(【author】 author) print(【abstract】 abstract) print(【key】 key) # 执行SQL语句 cursor.execute(INSERT INTO cnki VALUES (NULL, %s, %s, %s, %s, %s), (wordType, title, author, abstract, key)) # 提交到数据库执行 connection.commit() print() print(爬取完毕) finally: print() if __name__ __main__: try: for wordType in {大肠杆菌, 菌群总落, 胭脂红, 日落黄}: wordType 肉 wordType start_url http://search.cnki.net/search.aspx?q%srankrelevantclusterzykval % wordType url_list get_url_list(start_url) print(开始爬取) get_data(url_list, wordType) print(一种类型爬取完毕) print(全部爬取完毕) finally: connection.close()1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 在这里的关键词我简单的选了几个作为实验如果爬取的很多可以写在txt文件里直接读取就可以非常方便。
http://www.zqtcl.cn/news/23392/

相关文章:

  • 网站开发的关键绥化市住房和城乡建设网网站
  • 宁波网站的优化标识设计图片
  • 网站建设微信公众号做网站和app哪个难
  • 高密做网站的公司哈尔滨建设部网站
  • 网站建设问题整改报告无锡君通科技服务有限公司
  • 做庭院景观的那个网站推广好phpcms wap网站搭建
  • 如何创办一个赚钱的网站怎么下载网页上的视频
  • 国外优秀人像摄影网站wordpress 福利 源码
  • 做二手房又做网站的手机app快速开发平台
  • 网站开发维护求职信苏州优化外包
  • 江苏网站设计网页设计素材整理分级是什么意思
  • 安徽茶叶网站建设学校网站要求
  • .net网站程序网页设计与制作作业成品免费
  • 做网站l价格中国老区建设促进会网站
  • 网站备案需要拍照备案网站域名被抢注
  • 旅行社建设网站wordpress图片主题
  • 私自建设网站绿色食品网站模板.htm
  • 乐陵市人力资源中心网站西安招聘网最新招聘
  • 怀柔重庆网站建设规模以上工业企业分析
  • h5建站是什么怎么自己做网站服务器
  • 中国建设银行掌上银行官方网站网上可以报警备案吗
  • 嘉兴seo排名扣费做好的网站怎么优化
  • 手机网站建设团队网站建设详细流程视频
  • 网页游戏网站火谷歌推广开户多少费用
  • 帝国cms调用网站名称WordPress蜘蛛爬行插件
  • html编辑工具有哪些便宜的seo官网优化
  • 杭州门户网站建设专业的高端网站制作公司
  • 网站的空间定制app开发
  • 郑州住房和城乡建设部网站百度海南分公司
  • 多语言建设外贸网站做一个好的网站