当前位置: 首页 > news >正文

网站开发主框架一般用什么布局网上营销是干什么的

网站开发主框架一般用什么布局,网上营销是干什么的,郑州企业网站托管公司,小程序和网站开发难度目录 一、文件格式 1.1 列式存储和行式存储 1.1.1 行存储的特点 1.1.2 列存储的特点 1.2 TextFile 1.3 SequenceFile 1.4 Parquet 1.5 ORC 二、数据压缩 2.1 数据压缩-概述 2.1.1 压缩的优点 2.1.2 压缩的缺点 2.2 Hive中压缩配置 2.2.1 开启Map输出阶段压缩MR 引擎 2.2.2 开启Reduce输出阶段压缩 2.3 Hive中压缩测试 一、文件格式 Hive数据存储的本质还是HDFS所有的数据读写都基于HDFS的文件来实现。为了提高对HDFS文件读写的性能Hive提供了多种文件存储格式TextFile、SequenceFile、ORC、Parquet等。不同的文件存储格式具有不同的存储特点有的可以降低存储空间列式存储有的可以提高查询性能行式存储。Hive的文件格式在建表时指定默认是TextFile。 1.1 列式存储和行式存储 1.1.1 行存储的特点 查询满足条件的一整行数据的时候行存储只需要找到其中一个值其余的值都在相邻地方所以此时行存储查询的速度更快。 1.1.2 列存储的特点 每个字段的数据类型一定是相同的列式存储可以针对性的设计更好的设计压缩算法。TextFile和 SequenceFile的存储格式都是基于行存储的ORC和Parquet是基于列式存储的。 1.2 TextFile TextFile是Hive中默认的文件格式也是最常见的数据文件格式存储形式为按行存储。Hive设计时考虑到为了避免各种编码及数据错乱的问题选用了TextFile作为默认的格式。建表时不指定存储格式即为TextFile导入数据时把数据文件拷贝至HDFS不进行处理。 1.3 SequenceFile SequenceFile是Hadoop里用来存储序列化的键值对即二进制的一种文件格式。SequenceFile文件也可以作为MapReduce作业的输入和输出hive也支持这种格式。 --sequencefile表 create table tb_sogou_seq(stime string,userid string,keyword string,clickorder string,url string ) row format delimited fields terminated by \t stored as sequencefile;insert into table tb_sogou_seq select * from tb_sogou_source; -- tb_sogou_source表 是txt文件格式 下图是插入原始txt文件tb_sogou_source大概有1.07G1260万条数据存储成SequenceFile的文件大小。  1.4  Parquet Parquet是一种支持嵌套结构的列式存储文件格式。作为大数据系统中OLAP查询的优化方案它已经被多种查询引擎原生支持并且部分高性能引擎将其作为默认的文件存储格式。 --Parquet格式 create table tb_sogou_parquet(stime string,userid string,keyword string,clickorder string,url string ) row format delimited fields terminated by \t stored as parquet;insert into table tb_sogou_parquet select * from tb_sogou_source; -- tb_sogou_source表 是txt文件格式 下面图示是插入原始txt文件tb_sogou_source大概有1.07G1260万条数据存储成Parquet的文件大小。 1.5 ORC ORCOptimizedRC File文件格式也是一种Hadoop生态圈中的列式存储格式它最初产生自Apache Hive用于降低Hadoop数据存储空间和加速Hive查询速度。 --ORC格式 create table tb_sogou_orc(stime string,userid string,keyword string,clickorder string,url string ) row format delimited fields terminated by \t stored as orc;insert into table tb_sogou_orc select * from tb_sogou_source; 下面图示是插入原始txt文件tb_sogou_source大概有1.07G1260万条数据存储成ORC的文件大小。 二、数据压缩  2.1 数据压缩-概述 Hive压缩实际上说的就是MapReduce的压缩。Hive底层运行MapReduce程序时磁盘I/O操作、网络数据传输、shuffle清洗和merge合并要花大量的时间尤其是数据规模很大和工作负载密集的情况下。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。MR 支持的压缩算法如下 2.1.1 压缩的优点 减小文件存储所占空间加快文件传输效率从而提高系统的处理速度降低IO读写的次数 2.1.2 压缩的缺点 使用数据时需要先对文件解压加重CPU负荷压缩算法越复杂解压时间越长Hive中的压缩就是使用了Hadoop中的压缩实现的所以Hadoop中支持的压缩在Hive中都可以直接使用。 2.2 Hive中压缩配置 2.2.1 开启Map输出阶段压缩MR 引擎 开启map输出阶段的压缩可以减少map和Reduce task间数据传输量。具体参数有 --开启hive中间传输数据压缩功能 set hive.exec.compress.intermediatetrue; --开启mapreduce中map输出端的压缩功能 set mapreduce.map.output.compresstrue; --设置mapreduce中map输出端的数据的压缩方式 set mapreduce.map.output.compress.codec org.apache.hadoop.io.compress.SnappyCodec; 2.2.2 开启Reduce输出阶段压缩 当 Hive将执行结果写入到表中时输出内容同样可以进行压缩。其余参数如下 #当Hive将输出内容写入到表中时输出内容同样可以进行压缩。属性hive.exec.compress.output控制着这个功能 --开启hive执行结果的输出压缩功能 set hive.exec.compress.outputtrue;---开启mapreduce最终输出数据压缩 set mapreduce.output.fileoutputformat.compresstrue;---设置mapreduce最终数据输出压缩方式 set mapreduce.output.fileoutputformat.compress.codec org.apache.hadoop.io.compress.SnappyCodec;---设置mapreduce最终数据输出压缩为块压缩 set mapreduce.output.fileoutputformat.compress.typeBLOCK;2.3 Hive中压缩测试 textfile格式snappy压缩 --创建表指定为textfile格式并使用snappy压缩 create table log_orc_snappy( track_time string, url string, session_id string, referer string, ip string, end_user_id string, city_id string ) row format delimited fields terminated by \t stored as textfile tblproperties(orc.compressSNAPPY);orc格式snappy压缩 --创建表指定为orc格式并使用snappy压缩 create table log_orc_snappy( track_time string, url string, session_id string, referer string, ip string, end_user_id string, city_id string ) row format delimited fields terminated by \t stored as orc tblproperties(orc.compressSNAPPY);orc格式不使用压缩 --创建表指定为orc格式并使用snappy压缩 create table log_orc_snappy( track_time string, url string, session_id string, referer string, ip string, end_user_id string, city_id string ) row format delimited fields terminated by \t stored as orc tblproperties(orc.compressNONE);
http://www.zqtcl.cn/news/694569/

相关文章:

  • 网站开发前后端分离湘潭seo磐石网络
  • 上海做网站找谁京东网站建设分析
  • 叶榭做网站青岛做网站建设价格
  • 有什么可以在线做奥数题的网站中国建设网官网下载
  • 网站加载特效代码网站建设5000费用
  • 网站切图谁来完成wordpress 谷歌登陆
  • 租房网站建设网站怎么黑
  • 文成做网站搜索引擎优化工具深圳
  • 网站源码下载平台小程序云开发费用
  • 网站建设的数字化和互联网化网站作品
  • 南京专业网站制作公司有哪些亚马逊网网站建设规划报告
  • app免费制作网站模板网站打开速度进行检测
  • 进下加强新闻宣传网站建设wordpress做论坛网站
  • 朝阳网站搭建公司淘宝导购网站备案
  • 京润珍珠企业网站优化洛阳做网站
  • 嘉定网站开发中山市区做网站公司
  • 可信赖的武进网站建设上海中小企业服务中心
  • 应用网站品牌官方网站
  • 网站建设综合训练的实验目的漳州网站建设网站运营
  • 网页设计免费网站推荐我的世界做壁纸的网站
  • 黄岩做网站的公司网站栏目相关内容在哪采集啊
  • 邯郸市城市建设局网站快速建站平台
  • 华为官方手表网站wordpress文章图片链接
  • 做个网站需要多久腾讯云云服务器官网
  • 松江企业做网站一个阿里云怎么做两个网站
  • 网站制作+app+公众号app制作定制外包88
  • 企业网站建设有哪些好处制作网页之前必须先建立什么
  • 盐亭县建设局网站网站建设基本技术
  • 优化seo网站高质量的邯郸网站建设
  • 网站开发 合同范本软件设计专业介绍