北京优化网站推广,如何网站seo,c 写网站建设框架,自己的网站怎么做美工文章目录 show#xff1a;数据显示distinct#xff1a;数据行数去重count#xff1a;看行数select#xff1a;查看具体列数据toDF#xff1a;对字段命名(搭配常用与groupby--agg--toDF)withColumn#xff1a;新增列名printSchema: 打印列名信息dropDuplicates#xff1a… 文章目录 show数据显示distinct数据行数去重count看行数select查看具体列数据toDF对字段命名(搭配常用与groupby--agg--toDF)withColumn新增列名printSchema: 打印列名信息dropDuplicates数据列数去重limit数据看前N条collect所有数据收集到数组headtake查看前N行数据sample随机采样fraction按比例采样selectExpr选择列名字段更改列名调整小数位unionByName: 两两之间相同列名进行合并describe查看数据个数、均值、标准差、最小、最大值summary查看数据个数、均值、标准差、最小、25%、50%、75%、最大值 在工作中用spark对数据查询所使用的常用语法进行整理归纳如下
show数据显示
data spark.sql(select * from temp.tables)
data.show(3)# 转成pandas方式
# df data.toPandas()
# df.head(3)distinct数据行数去重
data spark.sql(select * from temp.tables).distinct()
data.show(3)#ordata spark.sql(select * from temp.tables)
data data.distinct()
data.show(3)count看行数
data spark.sql(select * from temp.tables)
data.count()select查看具体列数据
data data.select(dt, order_money)
data.show(3)toDF对字段命名(搭配常用与groupby–agg–toDF)
data spark.sql(select * from temp.tables)
df data.group(dt).agg(fn.countDistinct(user_id), fn.sum(order_money)).toDF(dt, user_uv_count, order_money_sum)
df.show(3)withColumn新增列名
df df.withColumn(avg_money, (df.order_money_sum / df.user_uv_count).cast(decimal(14,4)))
df.show(3)printSchema: 打印列名信息
df.printSchema()dropDuplicates数据列数去重
data spark.sql(select * from temp.tables)
data.dropDuplicates([city]).show()limit数据看前N条
data spark.sql(select * from temp.tables).limit(10)
data.show(3)collect所有数据收集到数组
data spark.sql(select * from temp.tables)
data.collect().show(3)headtake查看前N行数据
data spark.sql(select * from temp.tables).head(5)
data.show(3)data spark.sql(select * from temp.tables).take(5)
data.show(3)sample随机采样fraction按比例采样
data spark.sql(select * from temp.tables)
data data.sample(fraction0.5)
data.show(3)selectExpr选择列名字段更改列名调整小数位
data spark.sql(select * from temp.tables)
data data.select(dt, order_money)
data.selectExpr(dt as date, coalesce(order_money, 4))
data.show(3)unionByName: 两两之间相同列名进行合并
data spark.sql(select * from temp.tables)
data2 spark.sql(select * from temp.tables2)
union_data data.unionByName(data2)
union_data.show(6)describe查看数据个数、均值、标准差、最小、最大值
data spark.sql(select * from temp.tables)
data.describe().show()summary查看数据个数、均值、标准差、最小、25%、50%、75%、最大值
比describe多个四分位数(25%、50%、75%)
data spark.sql(select * from temp.tables)
data.summary().show()