网站建设怎么做?,wordpress 主题 更换,wordpress 推送到微信,免费视频制作app目录 下载编译部署官网地址编译部署启动 简单使用输出文件方式可以正常执行的任务 自定义任务获取小说名 总结 下载编译部署
官网地址 修改端口、数据库、存放地址、执行文件等配置#xff08;前后端不分离#xff0c;配置文件端口即页面登录端口#xff09; spider-flow-w… 目录 下载编译部署官网地址编译部署启动 简单使用输出文件方式可以正常执行的任务 自定义任务获取小说名 总结 下载编译部署
官网地址 修改端口、数据库、存放地址、执行文件等配置前后端不分离配置文件端口即页面登录端口 spider-flow-web/src/main/resources/application.properties 初始化数据库执行db/spiderflow.sql
编译 mvn clean install 编译好的部署包位置 部署 启动
nohup java -jar spider-flow.jar /dev/null 21 简单使用
输出文件方式
项目中自动初始化四个任务任务输出可以输出到表数据源管理或者csv文件中不指定文件后缀及路径默认就是文本文件位置就在项目部署更目录下 执行任务 查看日志 爬取到数据日志中会打印出来下图即未爬取到数据也没有输出 创建输出表选择输出到表依然没有输出
测试了半天看不到输出文件难道是因为没下载驱动
下载驱动丢到对应目录下重启再次尝试依然没有输出文件
可以正常执行的任务 爬取码云GVP 每日菜价 还乱码了改成UTF-8也乱码
自定义任务
参照可以正常输出的任务尝试自定义爬虫任务放弃吧一点也不简单感觉毫无章法可言
获取小说名
获取该页面的小说名称 找到关键字 定义各节点 定义循环节点不然是所有的小说名输出到一条记录中 遍历输出小说名 输出 测试结果 测试输出文件
总结
可视化给人的感觉就是简单易操作小白都可以轻易上手在爬虫方面算是小白但是作为一名程序员这一套流程走下来我觉得一点也不简单更别说纯小白了主要是没有帮助文档网站已经禁用了只能参照执行成功的任务在那一点一点调试具体一些语法也不清楚所以感觉还是有难度的我也是好奇看了别人分享的文章感觉好像很简单结果发现网上一堆一样的文章全是从官网下载的几个gif图片没了简直可耻没有亲自实验过就乱发 最后都放弃了结果参照这篇博客超详细spiderflow实践教程又试了一把勉强跑成功了吧以后应该不会碰了毕竟这玩意不安全一不小心端上铁饭碗了