网站开发中网页上传,拼多多电商网站建设,网站开发项目任务,wordpress搬到本地分析url的网页源代码#xff0c;在源代码里有我们想要的评论数据#xff0c;我们可以用正则(在这里正则还是比较好用的)把我们想要的信息弄下来开启循环#xff0c;批量抓取保存数据至文本和数据库defparse_one_page(html):pattern2 re.compile( m_type:…分析url的网页源代码在源代码里有我们想要的评论数据我们可以用正则(在这里正则还是比较好用的)把我们想要的信息弄下来开启循环批量抓取保存数据至文本和数据库defparse_one_page(html):pattern2 re.compile( m_type:0,(.*?),username, re.S)itemsre.findall(pattern2,html)foritem initems:item { item }itemjson.loads(item)write_to_file(item)print(item)save_to_mongo(item)#皮皮哥告诉了我他的独家正则匹配方法可以匹配出来这样的确获得的item没有编码问题defparse_one_page(html):pattern content:.*?itemsre.findall(pattern,html)foritem initems:item eval(item.split( :, 1)[ 1])write_to_file(item)print(item)save_to_mongo(item)#对一般正则写法获得的item进行的方法这是从皮皮哥那里得知的亲测有效defparse_one_page(html):pattern re.compile( rsion_name.*?content:(.*?),username, re.S)itemsre.findall(pattern,html)#print(items)foritem initems:item item.encode( utf-8).decode( unicode_escape)write_to_file(item)print(item)save_to_mongo(item)三、代码#config.pyMONGO_URL localhostMONGO_DB meituanMONGO_TABLE meituanimportrequestsfromrequests.exceptions importRequestExceptionimportjsonimportrefromday31.config import*importpymongoclientpymongo.MongoClient(MONGO_URL)dbclient[MONGO_DB]base_url http://comment.mobilem.360.cn/comment/getComments?callbackjQuery17209056727722758744_1502991196139baike%E7%BE%8E%E5%9B%A2%E5%A4%96%E5%8D%96Android_com.sankuai.meituan.takeoutnewstartdefthe_url(url):try:response requests.get(url)ifresponse.status_code 200:response.encoding utf-8returnresponse.textreturnNoneexceptRequestException:print( 请求出错)returnNonedefthe_total():htmlthe_url(base_url)pattern1 re.compile( total:(.*?),messages, re.S)Total re.findall(pattern1, html)Totalint( :.join(Total))#print(type(Total))show 总计评论%d条%Totalprint(show)write_to_file(show)returnTotaldefparse_one_page(html):pattern2 re.compile( m_type:0,(.*?),username, re.S)itemsre.findall(pattern2,html)foritem initems:item { item }itemjson.loads(item)write_to_file(item)print(item)save_to_mongo(item)defsave_to_mongo(result):try:ifdb[MONGO_TABLE].insert(result):print( 储存到MongoDB成功,result)exceptException:print( 储存到MongoDB失败,result)defwrite_to_file(content):withopen( meituan_result.text, a,encoding utf-8) asf:f.write(json.dumps(content,ensure_ascii False) n)f.close()defmain():Totalthe_total()Totalint(Total/ 10) 2fori inrange(Total):url base_url str(i* 10)ifthe_url(url)! None:htmlthe_url(url)parse_one_page(html)else:print( 输完啦)ps PS因为有些评论空所以实际评论比抓取的少#这是我瞎猜的write_to_file(ps)print(ps)if__name__ __main__:main()四、最后得到的数据视图和文件五、总结1.程序报错很正常不要一报错就问别人先自己思考、百度2.在数据类型处理方面的知识还要加强3.感谢皮皮哥、感谢姚文峰前辈作者1想得美链接http://www.jianshu.com/p/25c8b4cfda1a作者1想得美链接http://www.jianshu.com/p/25c8b4cfda1a