南海营销网站建设,网站轮播广告代码,新建网站怎么做关键词,网络推广内容包括什么前言之前学习北京理工嵩天老师的《Python网络爬虫与信息提取》时#xff0c;爬取亚马逊的一款图书的详细信息时出现以下错误#xff1a;![Upload 亚马逊爬虫.PNG failed. Please try again.]查看请求信息#xff0c;发现我们一般写的爬虫会默认告诉服务器自己发送了一个Pyth…前言之前学习北京理工嵩天老师的《Python网络爬虫与信息提取》时爬取亚马逊的一款图书的详细信息时出现以下错误![Upload 亚马逊爬虫.PNG failed. Please try again.]查看请求信息发现我们一般写的爬虫会默认告诉服务器自己发送了一个Python爬取请求而一般网站是不允许被爬虫访问的估计是因为会涉及到商业问题。最后通过更改User-Agent字段就可以轻易骗过该网站。那么User-Agent到底是什么呢User-Agent会告诉网站服务器访问者是通过什么工具来请求的如果是爬虫请求一般会拒绝如果是用户浏览器就会应答。又该如何使用呢调试工具最简单的方法就是按照下面步骤进行打开你要爬虫的网页按键盘的F12或手动去浏览器右上角的“更多工具”选项选择开发者工具按键盘的F5刷新网页点击Network再点击Doc点击Headers查看Request Headers的User-Agent字段直接复制将刚才复制的User-Agent字段构造成字典形式什么你想搞懂这个User-Agent字段然后自己构建。User-Agent字段解释简要版解释我用的Chrome浏览器查看User-Agent的结果Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3100.0 Safari/537.36User-Agent通常格式Mozilla/5.0 (平台) 引擎版本 浏览器版本号第一部分Mozilla/5.0由于历史上的浏览器大战当时想获得图文并茂的网页就必须宣称自己是 Mozilla 浏览器。此事导致如今User-Agent里通常都带有Mozilla字样出于对历史的尊重大家都会默认填写该部分。第二部分平台这部分可由多个字符串组成用英文半角分号分开Windows NT 10.0是指我使用的操作系统的版本比如我使用的win10对应的就是Windows NT 10.0如果我使用win7对应的就是Windows NT 6.1。Win64; x64是指我的操作系统是64位的Windows系统下Windows NT 5.0 // 如 Windows 2000Windows NT 5.1 // 如 Windows XPWindows NT 6.0 // 如 Windows VistaWindows NT 6.1 // 如 Windows 7Windows NT 6.2 // 如 Windows 8Windows NT 6.3 // 如 Windows 8.1Windows NT 10.0 // 如 Windows 10Win64; x64 // Win64 on x64WOW64 // Win32 on x64Linux系统下X11; Linux i686; // Linux 桌面i686 版本X11; Linux x86_64; // Linux 桌面x86_64 版本X11; Linux i686 on x86_64 // Linux 桌面运行在 x86_64 的 i686 版本macOS系统下Macintosh; Intel Mac OS X 10_9_0 // Intel x86 或者 x86_64Macintosh; PPC Mac OS X 10_9_0 // PowerPCMacintosh; Intel Mac OS X 10.12; // 不用下划线用点第三部分引擎版本AppleWebKit/537.36 (KHTML, like Gecko)...Safari/537.36历史上苹果依靠了WebKit内核开发出Safari浏览器WebKit包含了WebCore引擎而WebCore又从KHTML衍生而来。由于历史原因KHTML引擎需要声明自己是“类似Gecko”的因此引擎部分这么写。再后来Google开发Chrome也是用了WebKit内核于是也跟着这么写。借用Littern的一句话“Chrome 希望能得到为Safari编写的网页于是决定装成SafariSafari使用了WebKit渲染引擎而WebKit呢又伪装自己是KHTMLKHTML呢又是伪装成Gecko的。同时所有的浏览器又都宣称自己是Mozilla。”。不过后来Chrome 28某个版本改用了blink内核但还是保留了这些字符串。而且最近的几十个版本中这部分已经固定没再变过第四部分浏览器版本本人用的是Chrome浏览器其中60.0 是大版本3100是持续增大的一个数字而0则是修补漏洞的小版本。最后居然有大佬封装了不同操作系统不同浏览器的User-AgentUser-Agent封装使用教程