网站建设前规划,技术支持 桂林网站建设,天津低价网站建设,深圳外贸公司获客流程#xff1a;1.DrissionPageSelenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库#xff1b; 2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等#xff0c;转为.csv文件上传hadoop的hdfs集群#xff1b; 3.hive建库建表导入.csv动漫…流程1.DrissionPageSelenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库 2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等转为.csv文件上传hadoop的hdfs集群 3.hive建库建表导入.csv动漫数据 4.一半指标使用hive_sql分析得出一半指标使用Spark之Scala完成 5.sqoop对分析结果导入mysql数据库 6.Flaskecharts搭建可视化大屏 创新点Python全新DrissionPageSelenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive实时Spark双实现