个人网站盈利,太原seo排名收费,Wordpress获取自定义分类,夹娃娃网站如何做文章目录一.要求二.代码示例一.要求
以腾讯社招页面来做演示#xff1a;http://hr.tencent.com/position.php?start10#a
使用BeautifuSoup4解析器#xff0c;将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间#xff0c;以及每个职位详情的点击链接…
文章目录一.要求二.代码示例一.要求
以腾讯社招页面来做演示http://hr.tencent.com/position.php?start10#a
使用BeautifuSoup4解析器将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间以及每个职位详情的点击链接存储出来。 二.代码示例
from bs4 import BeautifulSoup
import urllib
import json # 使用了json格式存储def tencent():url http://hr.tencent.com/request urllib.request.Request(url position.php?start10#a)response urllib.request.urlopen(request)resHtml response.read()output open(tencent.json,w)html BeautifulSoup(resHtml,lxml)# 创建CSS选择器result html.select(tr[classeven])result2 html.select(tr[classodd])result result2items []for site in result:item {}name site.select(td a)[0].get_text()detailLink site.select(td a)[0].attrs[href]catalog site.select(td)[1].get_text()recruitNumber site.select(td)[2].get_text()workLocation site.select(td)[3].get_text()publishTime site.select(td)[4].get_text()item[name] nameitem[detailLink] url detailLinkitem[catalog] catalogitem[recruitNumber] recruitNumberitem[publishTime] publishTimeitems.append(item)# 禁用ascii编码按utf-8编码line json.dumps(items,ensure_asciiFalse)output.write(line.encode(utf-8))output.close()if __name__ __main__:tencent()