新闻类网站备案,门户网站建设的平台搭建,大型旅游网站源码 织梦 2016,wordpress微信公众平台文章目录 1. 创建CSV文件2. 上传CSV文件3. 读取CSV文件生成RDD4. 去掉标题行生成新RDD5. 查看新生成的RDD 1. 创建CSV文件
执行命令#xff1a;vim scores.csv 在WPS里查看CSV文件
2. 上传CSV文件
执行命令#xff1a;hdfs dfs -put scores.csv /park
3. 读取CSV文件生… 文章目录 1. 创建CSV文件2. 上传CSV文件3. 读取CSV文件生成RDD4. 去掉标题行生成新RDD5. 查看新生成的RDD 1. 创建CSV文件
执行命令vim scores.csv 在WPS里查看CSV文件
2. 上传CSV文件
执行命令hdfs dfs -put scores.csv /park
3. 读取CSV文件生成RDD
执行命令val lines sc.textFile(hdfs://master:9000/park/scores.csv)
4. 去掉标题行生成新RDD 执行命令val firstLine lines.first() 执行命令val secondToLastLines lines.filter(_ ! firstLine)
5. 查看新生成的RDD
执行命令secondToLastLines.collect.foreach(println)
通过上述步骤我们能够成功地从 HDFS 读取 CSV 文件去除标题行并查看剩余的数据行。这为进一步的数据处理和分析打下了基础。