影楼微网站建设,企业个人网站,四川冠辰科技,网页制作员工作厂家电话今日内容: 爬虫课程: 一爬虫基本原理 二requests请求库 一爬虫基本原理 1、什么是爬虫? 爬虫就是爬取数据。 2、什么是互联网? 由一堆网络设备#xff0c;把一台台的计算机互联到一起称之为互联网。 3、互联网建立的目的 数据的传递与数据的共享。 4、什么是数据? 例如: 电…今日内容: 爬虫课程: 一爬虫基本原理 二requests请求库 一爬虫基本原理 1、什么是爬虫? 爬虫就是爬取数据。 2、什么是互联网? 由一堆网络设备把一台台的计算机互联到一起称之为互联网。 3、互联网建立的目的 数据的传递与数据的共享。 4、什么是数据? 例如: 电商平台的商品信息(淘宝、京东、亚马逊)链家、自如租房平台的房源信息 股票证券投资信息(东方财富、雪球网) ■. 12306,票务信息(抢票) 5、什么是上网? 普通用户: 打开浏览器 一-- 输入网址 ..-.- 往目标主机发送请求一--- 返回响应数据 ---把数据渲染到浏览器中 爬虫程序: 模拟浏览器 ---..- 往目标主机发送请求一.-..- 返回响应数据 --- 解析并提取有价值的数据--- 保存数据(文件写入本地、持久化到数据库中) 6、爬虫的全过程 1.发送请求(请求库: Requests/Selenium) 2.获取响应数据 3.解析数据(解析库: BeautifulSoup4 ) 4.保存数据(存储库:文件保存/MongoDB) 总结:我们可以把互联网中的数据比喻成- -座宝藏, 爬虫其实就是在挖取宝藏。 import time
import requests
def get_page(url):response requests.get(url)return responseimport re
def parse_index(html):detail_urlsre.findall(div classitemsa classimglink href(.*?),html,re.S)print(detail_urls)return detail_urlsdef parse_detail(html):movie_urlre.findall(source src(.*?),html,re.S)if movie_url:return movie_url[0]import uuid
def save_video(content):with open(f{uuid.uuid4()}.mp4,wb) as f:f.write(content)print(下载完毕)if __name__ __main__:for line in range(6):urlfhttp://www.xiaohuar.com/list-3-{line}.htmlresponseget_page(url)detail_urlsparse_index(response.text)for detail_url in detail_urls:print(detail_url)detail_resget_page(detail_url)movie_urlparse_detail(detail_res.text)if movie_url:print(movie_url)movie_resget_page(movie_url)save_video(movie_res.content) 转载于:https://www.cnblogs.com/zhoujie333/p/11114076.html