当前位置: 首页 > news >正文

上海网站建设模板线上少儿编程课哪个机构最好

上海网站建设模板,线上少儿编程课哪个机构最好,浪漫网站建设,wordpress手机端底部按钮目录 1. 简述Spark SQL与HIVE的对比 2. Spark SQL是什么? 3.代码题 需求1 直接基于DataFrame来处理#xff0c;完成SparkSQL版的WordCount词频统计。DSL和SQL两种方式都要实现 4.创建Spark DataFrame的几种方式? 5. 创建得到DataFrame的方式有哪些,各自适用场景是怎么…目录 1. 简述Spark  SQL与HIVE的对比 2. Spark SQL是什么? 3.代码题 需求1 直接基于DataFrame来处理完成SparkSQL版的WordCount词频统计。DSL和SQL两种方式都要实现 4.创建Spark DataFrame的几种方式? 5.  创建得到DataFrame的方式有哪些,各自适用场景是怎么样的? 3.1 text方式读取: 3.2  CSV方式读取: 3.3 JSON读取数据: 1. 简述Spark  SQL与HIVE的对比 相同点:  1.都是分布式SQL计算引擎 2.都可以处理大规模的结构化数据 3.都可以建立在YARN集群之上运行 不同点: 1. Sparksql是基于内存计算 , Hivesql底层是运行在Mr上,也就是基于磁盘进行计算 2. sparksql没有元数据管理服务, hivesql是有metastore元数据管理服务的 3. Sparksql底层执行RDD程序 , HIVEsql底层执行MapReduce 4. Sparksql可以编写sql也可以编写代码, HIVEsql只能编写sql 2. Spark SQL是什么? SparkSQL是建立在Spark上的一个工具模块,用于处理结构化的数据 3.代码题 需求1 直接基于DataFrame来处理完成SparkSQL版的WordCount词频统计。DSL和SQL两种方式都要实现 测试数据 hello spark hadoop hive oozie sqoop hello hive hadoop java java python hadoop hive hadoop import os from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession import pyspark.sql.functions as F# 绑定指定的Python解释器 os.environ[SPARK_HOME] /export/server/spark os.environ[PYSPARK_PYTHON] /root/anaconda3/bin/python3 os.environ[PYSPARK_DRIVER_PYTHON] /root/anaconda3/bin/python3 # 绑定指定的Python解释器 from pyspark.sql.types import StructType, IntegerType, StringType, StructFieldif __name__ __main__: # 1- 创建SparkSession对象spark SparkSession.builder\.appName(需求1词频统计)\.master(local[*])\.getOrCreate() # 2- 数据输入init_df spark.read.text(pathshdfs://node1:8020/input/day05_home_work.txt)# 创建侧视图init_df.createTempView(words) # 3- 数据处理print(SQL方式进行词频统计)spark.sql(select word,count(1)as cnt from(select explode(split(value, )) as word from words)group by wordorder by cnt desc ).show() --------- | word|cnt| --------- |hadoop| 4| | hive| 3| | hello| 2| | java| 2| | spark| 1| | oozie| 1| | sqoop| 1| |python| 1| --------- print(DSL方式实现词频统计)init_df.select(F.explode(F.split(value, )).alias(word)).groupby(word).agg(F.count(word).alias(cnt),).orderBy(cnt,ascendingFalse).show()---------| word|cnt|---------|hadoop| 4|| hive| 3|| java| 2|| hello| 2|| sqoop| 1|| spark| 1||python| 1|| oozie| 1|---------# 4- 数据输出# 5- 释放资源spark.stop() 4.创建Spark DataFrame的几种方式? 1 . 通过RDD得到DataFrame 2. 内部初始化数据得到DataFrame 3.  读取外部文件得到DataFrame 5.  创建得到DataFrame的方式有哪些,各自适用场景是怎么样的? 1 . RDD转DataFrame , 场景 : RDD可以存储任意结构的数据类型,而DataFrame只能存储二维表结构化数据, 在使用Spark处理数据的初期,可能输入进来的数据是半结构化或者非结构化的,那么可以先通过RDD对数据进行ETL处理成结构化数据,再使用开发高效率的SparkSQL进行后续数据处理; 2.  内部初始化数据得到DataFrame ,  通过createDataFrame创建DataFrame , 一般用在开发和测试中.因为只能处理少量的数据 3.  读取外部文件得到DataFrame , Text方式\CSV方式\JSON方式 ;  3.1 text方式读取: 不管文件内容如何,会将所有内容放到一个列中; 默认生成的列名叫做value,数据类型String;并且只能修改value的名称,其他内容无法修改; 3.2  CSV方式读取: 常设置的参数 path:指定文件路径,本地或者hdfs schema手动指定元数据信息                                 sep指定字段间的分隔符                                 encoding指定文件的编码方式                                 header指定文件中的第一行是否是字段名称                                 inferSchema根据数据内容自动推断数据类型。但是推断结果可能不精确 3.3 JSON读取数据: 需要手动指定schema信息.如果手动指定的时候,名称字段与json中的key名称不一致,会解析不成功, 以null值填充 csv/json中schema的结构,如果是字符串类型,那么字段名称和字段数据类型间,只能以空格分隔
http://www.zqtcl.cn/news/369355/

相关文章:

  • 买域名做网站推广都是些什么湘潭什么网站做c1题目
  • 鲜花网站建设图片昆明网站建站平台
  • 密云网站制作案例昆明小程序开发
  • 网站紧急维护商丘手机网站制作
  • 什么专业会制作网站罗湖做网站的公司哪家好
  • 永久免费ppt下载网站有没有跟一起做网店一样的网站
  • 百川网站石家庄物流网站建设
  • 广州外贸网站设计外贸seo外贸推广外贸网站建设外贸网站建设
  • 网站 栏目建设银行网站用户名是什么
  • 服装类的网站建设中原免费网站建设
  • 网站开发培训班多少报名费安徽省建设工程信息网站
  • 旅游网站规划设计余姚网站公司
  • 广州市地铁站地图dede增加手机网站
  • dede 网站名称 空的网站开发行业新闻
  • 网站开发费用做账升级系统
  • 外贸公司网站制作价格网络公司的经营范围有哪些
  • 东莞三合一网站制作海南省生态文明村建设促进会网站
  • 邯郸做企业网站设计的公司福田祥菱m2
  • 手表拍卖网站动漫做暧视频网站
  • 福州网站定制公司如何做p2p网站
  • 微信外链网站开发嘉兴市城市建设门户网站
  • 在手机上如何制作网站qq注册网页入口
  • asp.net程序做的网站安全吗国内什么网站用asp.net
  • 凡科网做网站网站编辑知识
  • c#做交易网站taxonomy wordpress
  • 统一门户网站开发员给我用织梦做的网站
  • 网站上有声的文章是怎么做的深圳市住房和建设局网站和市住宅租赁管理服务中心
  • 如何对网站进行爬虫页面设计存在的问题
  • 知名网站建设加盟合作企业邮箱如何登录
  • asp net mvc做网站软文推广是什么