当前位置: 首页 > news >正文

环境文化建设方案网站新手如何建站

环境文化建设方案网站,新手如何建站,wordpress 取消响应式,湘潭seo 上词多湘潭磐石网络文章目录 一、实战概述二、提出任务三、完成任务#xff08;一#xff09;准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录 #xff08;二#xff09;实现步骤1、启动Hive Metastore服务2、启动Hive客户端3、基于HDFS数据文件创建Hive外部表4、利用Hive SQL实… 文章目录 一、实战概述二、提出任务三、完成任务一准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录 二实现步骤1、启动Hive Metastore服务2、启动Hive客户端3、基于HDFS数据文件创建Hive外部表4、利用Hive SQL实现去重5、检查是否实现去重 一、实战概述 在本次实战任务中我们利用Hive大数据处理框架对三个文本文件ips01.txt、ips02.txt、ips03.txt中的IP地址进行了整合与去重。首先在虚拟机上创建了这三个文本文件并将它们上传至HDFS的/deduplicate/input目录下作为原始数据源。接着启动了Hive Metastore服务和客户端以管理和访问元数据信息。 通过Hive SQL语句创建了一个外部表unique_ips该表的每一行存储一个IP地址字段间采用换行符\n进行分隔这样便能正确读取到HDFS上的原始IP列表数据。为了实现去重目标进一步创建了新的内部表deduplicated_ips并使用DISTINCT关键字从unique_ips表中提取出不重复的IP地址记录。 最后执行SQL查询语句查看deduplicated_ips表的内容如果输出结果中不存在重复IP则表示去重过程顺利完成。整个过程展示了Hive在处理大规模文本数据时能够高效地进行数据加载、表结构定义、数据清洗以及数据去重等操作充分体现了其在大数据处理领域的强大功能与便捷性。 二、提出任务 ips01.txt 192.168.1.1 172.16.0.1 10.0.0.1 192.168.1.2 192.168.1.3 172.16.0.2 10.0.0.2 192.168.1.1 172.16.0.1 10.0.0.3ips02.txt 192.168.1.4 172.16.0.3 10.0.0.4 192.168.1.5 192.168.2.1 172.16.0.4 10.0.1.1 192.168.1.1 172.16.0.1 10.0.0.1 ips03.txt 192.168.1.6 172.16.1.1 10.0.2.1 192.168.1.7 192.168.3.1 172.16.0.5 10.0.0.5 192.168.1.1 172.16.0.1 10.0.0.3目标是将这三个文本文件中的IP地址整合并去除重复项最终得到一个仅包含唯一IP地址的结果集。 192.168.1.1 172.16.0.1 10.0.0.1 192.168.1.2 192.168.1.3 172.16.0.2 10.0.0.2 192.168.1.4 172.16.0.3 10.0.0.3 192.168.1.5 192.168.2.1 172.16.0.4 10.0.1.1 192.168.1.6 172.16.1.1 10.0.2.1 192.168.1.7 192.168.3.1 172.16.0.5 10.0.0.5三、完成任务 一准备数据 1、在虚拟机上创建文本文件 在master虚拟机上使用文本编辑器创建三个文件ips01.txt, ips02.txt, ips03.txt并确保每个文件内存储的是纯文本格式的IP地址列表。 2、上传文件到HDFS指定目录 在master虚拟机上创建HDFS上的/deduplicate/input目录用于存放待处理的原始数据文件。hdfs dfs -mkdir -p /deduplicate/input将本地创建的三个文本文件上传至HDFS的/deduplicate/input目录hdfs dfs -put ips01.txt /deduplicate/input/ hdfs dfs -put ips02.txt /deduplicate/input/ hdfs dfs -put ips03.txt /deduplicate/input/二实现步骤 1、启动Hive Metastore服务 启动Hive Metastore服务确保Hive可以正确管理和访问元数据信息 2、启动Hive客户端 打开Hive客户端连接到Hive服务 3、基于HDFS数据文件创建Hive外部表 基于HDFS数据文件创建Hive外部表执行语句CREATE EXTERNAL TABLE unique_ips (ip STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY \n LOCATION /deduplicate/input;这里创建了一个名为unique_ips的外部表字段为单列ip每一行代表一个IP地址。由于我们的数据文件中每个IP地址占一行所以字段间用换行符\n分隔。 4、利用Hive SQL实现去重 CREATE TABLE deduplicated_ips AS SELECT DISTINCT ip FROM unique_ips;通过上述SQL语句我们在Hive内部创建了一个新的表deduplicated_ips其中存储了从unique_ips表中提取的所有不重复的IP地址。 5、检查是否实现去重 最后检查deduplicated_ips表的内容以确认去重是否成功执行 SELECT * FROM deduplicated_ips;若输出结果中没有重复的IP地址则说明去重任务已经顺利完成。 通过以上步骤我们成功地利用Hive框架完成了对多个文本文件中的IP地址进行去重的任务展示了Hive在大数据处理中的强大能力和便捷性。
http://www.zqtcl.cn/news/576736/

相关文章:

  • 做游戏特效的网站网站开发中安全性的防范
  • 阿里云网站建设好用吗齐诺网站建设
  • 中小企业网站建设行情嘉兴公司的网站设计
  • 做服装有哪些好的网站台州网站建设多少钱
  • 任县网站建设公司北京网站开发网站开发公司
  • 重庆seo网站策划网站的tdk指的是什么
  • 自做刷赞网站山东东成建设咨询有限公司网站
  • 泉州网站制作推广网站建设一年多少
  • 超大型网站建设公司网站打开显示建设中
  • 惠东县网站建设建设方案
  • 怎么把做的网站发布长春建网站
  • 织梦网站手机端郑州网站制作公司名单
  • 如何建设网站安全网站桥页也叫
  • 南浔网站建设昆山智能网站开发
  • 阿里云可以做电商网站吗杭州网站建设浙江
  • 查询网站备案进度网站建设推广
  • 怎么做公司网站需要什么科目高端网站建设教学
  • 资讯平台网站模板中企中立做的网站好吗
  • 网站开发人员配备山西省吕梁市简介
  • 网站注销主体注销中国建设教育协会培训报名网站
  • 电商网站设计思想建设化妆品网站的成本
  • 做房产网站能赚钱吗深圳龙华区邮政编码
  • 网站开发素材代码手机网站 win8风格
  • 免费推广网站软件班级网站怎么做ppt模板
  • 在线做任务的网站有哪些wordpress ui 插件
  • 竣工验收备案表查询网站优化大师win10能用吗
  • php 网站管理系统做生鲜管理系统的网站
  • 昆山建设工程招聘信息网站业绩显示屏 东莞网站建设技术支持
  • 百度我的网站广东广州网站建设
  • 怎么提高网站流量沈阳有资质做网站的公司有哪些