网站建设实训总结及体会,自媒体还是做网站,wordpress 备份外链图片,企业所得税税率是多少2024年定制网页RSS源主要有FEED43和Huginn两种方法。FEED43#xff1a;简单免费#xff0c;六小时抓取一次#xff0c;每次抓取20条静态页面。使用攻略- RSS 入门篇#xff1a;FEED43FeedEx-为静态网页定制 RSS 源2. Huginn#xff1a;自由度高#xff0c;可设定抓取频率、…定制网页RSS源主要有FEED43和Huginn两种方法。FEED43简单免费六小时抓取一次每次抓取20条静态页面。使用攻略- RSS 入门篇FEED43FeedEx-为静态网页定制 RSS 源2. Huginn自由度高可设定抓取频率、内容结构、js结果、输出样式等需要搭建服务器学习Huginn抓取规则。不愿意搭建或有其他需求可以1v1咨询。Huginn 准备工作准备一台 Debian/Ubuntu 环境的服务器按Qi大的攻略搭建Huginn也可以直接看Huginn 官方搭建攻略准备工作完成后我们已经可以使用 Huginn 抓取页面了。但很多网站都是用 JS 加载动态内容需要通过 PhantomJs Cloud 抓取页面 JS 缓存。————————Huginn PhantomJs Cloud 全网页抓取一、Phantom Js Cloud API key 获取注册 PhantomJs Cloud ,然后将 API key 保存在 Huginn 的 Credentials 中。 新建 Huginn 任务组 Scenario 「国内应急新闻」抓取链接 http://www.cneb.gov.cn/guoneinews/二、Phantom Js Cloud Agent 抓取页面缓存Name: 国内应急新闻 #1 获取 JS 缓存 Schedule: Every 1h 三、WebsiteAgent 获取页面详情Name: 国内应急新闻 #2 抓取全页 Sources: 国内应急新闻 #1 获取 JS 缓存Schedule: Every 1h 四、css path 路径获取使用火狐浏览器打开抓取页面按下F12, 然后点击 Developer Tools 左上角的检查指针 3. 选中要抓取的部分 4. 回到 Developer Tools 窗口右键选中的蓝色部分获取 css path、Xpath。这里以 css path 为例。 5. 处理 css path 路径html body div.area.areabg1 div.area-half.right div.tabBox div.tabContents.active table tbody tr td.red acss path 原始路径过长删去不带 . 或 # 的节点节点间以空格“ ”分割并删去每个节点在 . 或 #前的第一个标签得到.area.areabg1 .area-half.right .tabBox .tabContents.active .red a前半部分对节点定位无用继续省略比如中国上海省略掉中国大家也知道上海在哪.tabContents.active .red a非常规情况处理 a. 有些路径中的节点带空格如div classpackery-item article,路径中的空格由.代替截取为.packery-item.article b. 当抓取多种 css path 规则时用逗号,分割css: .focus-title .current a , .stress h2 a,五、DataOutputAgent 导出 RSSName: 国内应急新闻 #3 排序生成RSS Propagate immediately: Yes回到Scenarios, 点击最后一步的 Actions - Show 复制导出的xml链接 http://xxx.xxxxxx/users/1/web_requests/xxx/xxxx.xml 详细设置的使用文件-百度网盘下载其他问题查看官方说明-PhantomJs Cloud 英文使用攻略