北京电商购物网站,网站开发项目怎么接,竹溪县网站集约化建设,怎么做购物网站到1 HTTP 协议整理
HTTP#xff08;Hyper Text Transfer Protocol#xff09;即超文本传输协议#xff0c;是用于从万维网#xff08;WWW#xff09;服务器传输超文本到本地浏览器的传送协议#xff0c;直白点儿#xff0c;就是浏览器和服务器之间的数据交互就是通过 HTT…1 HTTP 协议整理
HTTPHyper Text Transfer Protocol即超文本传输协议是用于从万维网WWW服务器传输超文本到本地浏览器的传送协议直白点儿就是浏览器和服务器之间的数据交互就是通过 HTTP 协议进行的。 HTTP 协议把一条消息分为三大块内容无论是请求还是响应都包含这三块内容
1.请求Request
请求行Request Line包含请求方式、请求 URL 地址和协议。请求头Request Header放置一些服务器要使用的附加信息。请求体Request Body一般放置一些请求参数。
2. 响应Response
状态行Status Line包含协议和状态码。响应头Response Header放置一些客户端要使用的附加信息。响应体Response Body服务器返回的真正客户端要用的内容如 HTML、json
等。
二、网络爬虫需要的请求头和响应头内容
1.请求头Request Header中网络爬虫可能需要的内容 User - Agent 这个字段用于标识客户端的类型网络爬虫需要设置一个合适的 User - Agent 来模拟浏览器避免被服务器识别为爬虫而拒绝访问。例如User - Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Referer 这个字段用于表示当前请求的来源页面。有些网站会根据 Referer 来判断请求是否合法网络爬虫可能需要设置合适的 Referer 来模拟正常的用户访问路径。例如Referer: https://www.example.com/previous - page Cookie 如果网站需要用户登录或者使用了基于 Cookie 的会话管理网络爬虫可能需要获取并传递合适的 Cookie 来维持会话。例如Cookie: sessionid 1234567890abcdef; userid 123
2.响应头Response Header中网络爬虫可能需要的内容 Content - Type 这个字段用于表示响应体的内容类型例如Content - Type: text/html; charset UTF - 8表示响应体是 HTML 格式字符集是 UTF - 8。网络爬虫可以根据 Content - Type 来判断如何处理响应体内容。 Content - Length 这个字段表示响应体的长度网络爬虫可以根据这个字段来判断是否已经完整地接收了响应体内容。例如Content - Length: 12345 Set - Cookie 如果服务器在响应头中设置了新的 Cookie网络爬虫需要获取并保存这些 Cookie以便在后续的请求中传递。例如Set - Cookie: newsessionid 0987654321fedcba; expires Fri, 31 Dec 9999 23:59:59 GMT; path /