低价网站建设哪个好,免费服务器领取,公司自有网站工信备案,wordpress前台多语言1、环境配置 你需要一个pycharm和requests第三方库#xff0c;在安装完成之后即可继续浏览。
2、操作流程 #xff08;1#xff09;打开豆瓣电影网站#xff0c;点击排行榜#xff0c;点击喜剧#xff0c;检查 #xff08;2#xff09;可以看到鼠标每次下移#xff0…1、环境配置 你需要一个pycharm和requests第三方库在安装完成之后即可继续浏览。
2、操作流程 1打开豆瓣电影网站点击排行榜点击喜剧检查 2可以看到鼠标每次下移都会出现新的电影所以该页面属于局部刷新返回数据为json格式数据得到url并且得到type参数 如何查看此处不演示主要是不敢 3编写代码
import json
import requests
if __name__ __main__:get_url https://movie.douban.com/j/chart/top_listget_param {type: 24,interval_id: 100:90,action: ,# start代表从豆瓣电影库中第120部电影获取start: 1,# 每次请求去除的数量是limitlimit: 20,}get_headers {User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Mobile Safari/537.36}# 响应response requests.get(urlget_url, paramsget_param, headersget_headers)# 获取响应数据list_data response.json()# 持久化存储fp open(./html/douban.json, w, encodingUTF-8)json.dump(list_data, fpfp, ensure_asciiFalse)print(over)
3、爬取结果 在运行成功之后会得到一个json格式文件文件目录为 ./爬虫/html/douban.json