flash网站怎么做音乐停止,网站设计的提案,自己如何做网站教程,软件前端开发需要学什么概述 爬虫是合法的吗? 是的,它是一个计算机的学科!一个工具 什么是爬虫? 通过编写程序,模拟浏览器上网,然后让其去互联网上爬取/获取数据的过程.爬虫爬取的也就是服务端的响应数据 爬虫使用场景的分类 - 通用爬虫 : 爬取一整张页面数据.抓取系统 - 聚焦爬虫 : 爬… 概述 爬虫是合法的吗? 是的,它是一个计算机的学科!一个工具 什么是爬虫? 通过编写程序,模拟浏览器上网,然后让其去互联网上爬取/获取数据的过程.爬虫爬取的也就是服务端的响应数据 爬虫使用场景的分类 - 通用爬虫 : 爬取一整张页面数据.抓取系统 - 聚焦爬虫 : 爬取页面中指定的内容,建立在通用爬虫的基础上,爬到数据后,进行局部数据解析筛选 - 增量式爬虫 : 用来检测网站数据更新的情况.只爬取网站最新更新的数据. 反扒机制 网站指定了相关的技术手段或者策略阻止爬虫程序进行网页数据的爬取 - 机制一 : robots协议:一个文本协议,防君子不防小人的协议(哈哈),只是让你主观遵从,但也可以忽略直接爬取! - 机制二 : UA检测,检测请求载体是否基于某一款浏览器 反反扒策略 爬虫破解网站指定的反扒策略 机制一 : 直接忽略 机制二 : UA伪装 http/https协议 客户端和服务器端进行数据交互的一种形式 - 请求头信息 : - User-Agent : 请求载体身份标识 - Connection : close (请求成功后马上断开) - 响应头信息 -Content-Type : json... - https : 安全 - 加密方式 : - 对称秘钥加密 : 浏览器将秘钥和密文一起发送给服务器,极度不安全 - 非对称秘钥加密 : 客户端没有保障秘钥是服务器发送的,可能被拦截替换,也不安全 - 证书秘钥加密 : 安全 Jupyter 编写爬虫程序的环境 编写程序 什么是动态加载的数据? 页面加载的时候,通过ajax提交的post数据. 相关模块 -urllib #比较古老,用法繁琐被requests模块代替requests:网络请求的一个模块.requests的作用: 模拟浏览器发请求。进而实现爬虫requests的编码流程: - 1.指定url - 2.发起请求 - 3.获取响应数据 - 4.持久化存储 示例1 搜狗首页页面数据 #简单通用爬虫
import requests
#指定url
url https://www.sougou.com/
#发起请求:get的返回值就是一个响应对象
response requests.get(urlurl)
#获取响应数据,返回字符串形式的响应数据
page_text response.text
#持久化存储
with open(./sougou.html,w,encodingutf-8) as fp:fp.write(page_text) 示例2 爬取搜狗自定词条搜索后的页面数据 import requestsurl https://www.sogou.com/web
content input( ).strip()
param {query:content}
headers {User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36
}response requests.get(urlurl,paramsparam,headers headers)
response.encoding utf-8
page_text response.text
name content .html
with open(name,w,encodingutf-8) as f:f.write(page_text)print(爬取成功) 示例3 破解百度翻译 #破解百度翻译爬取想要的信息 动态加载数据,
import requests
content input(输入一个单词: )
url https://fanyi.baidu.com/sug
headers {User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36
}
data {kw:content}
response requests.post(urlurl,headersheaders,datadata)
obj_json response.json()
print(obj_json) 示例4 爬取豆瓣电影中的电影详情数据 #爬取豆瓣上的电影,注意,页面上可能存在动态页面
import requests,json
url https://movie.douban.com/j/chart/top_list
headers {User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36
}
param {type: 5,interval_id: 100:90,action: ,start: 0,limit: 200
}
response requests.get(urlurl,paramsparam,headersheaders)
movie_json response.json()
name dz_movie.json
print(len(movie_json))
with open(name,w,encodingutf-8) as f:json.dump(movie_json,f)print(爬取写入完成) 示例5 爬取任意城市肯德基的餐厅位置信息 import requests,json
all_data []
url http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?opkeyword
content input(请输入城市名称: ).strip()
headers {User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36
}
for i in range(1,8):data {cname:,pid: ,keyword: content,pageIndex: str(i),pageSize: 10}json_obj requests.post(urlurl,headersheaders,datadata).json()for i in json_obj[Table1]:all_data.append(i)
name KFC.json
with open (name,w,encodingutf-8)as f:json.dump(all_data,f)print(KFC data is ok) 爬取KFC门店 示例6.化妆品企业 #查看国家药监总局中基于中华人民共和国化妆品生产许可证相关数据
import requests,json
id_lst [] #获取所有企业UUID
all_data [] #存储所有企业的详情信息
post_url http://125.35.6.84:81/xk/itownet/portalAction.do?methodgetXkzsListheaders {User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36
}
for i in range(1,10):data {on: true,page: str(i),pageSize: 15,productName: ,conditionType: 1,applyname: ,applysn: }json_obj requests.post(urlpost_url,headersheaders,datadata).json()for dic in json_obj[list]:ID dic[ID]id_lst.append(ID)
for id in id_lst:detail_post_url http://125.35.6.84:81/xk/itownet/portalAction.do?methodgetXkzsByIddata {id:id}detail_dic requests.post(urldetail_post_url,datadata).json()all_data.append(detail_dic)
name hzpqy.json
with open(name,w,encodingutf-8) as fb:json.dump(all_data,fb)print(data is ok!) 爬取化妆品企业信息 ... 转载于:https://www.cnblogs.com/CrazySheldon1/p/10788588.html