当前位置: 首页 > news >正文

最专业的礼品网站案例参考重庆专业网站推广时间

最专业的礼品网站案例参考,重庆专业网站推广时间,wordpress修改端口,wordpress登录才能浏览1.Hadoop Hadoop是大数据开发的重要框架#xff0c;是一个由Apache基金会所开发的分布式系统基础架构#xff0c;其核心是HDFS和MapReduce#xff0c;HDFS为海量的数据提供了存储#xff0c;MapReduce为海量的数据提供了计算#xff0c;在Hadoop2.x时 代#xff0c;增加…1.Hadoop Hadoop是大数据开发的重要框架是一个由Apache基金会所开发的分布式系统基础架构其核心是HDFS和MapReduceHDFS为海量的数据提供了存储MapReduce为海量的数据提供了计算在Hadoop2.x时 代增加 了YarnYarn只负责资 源 的 调 度。 目前hadoop包括hdfs、mapreduce、yarn、核心组件。hdfs用于存储mapreduce用于计算,yarn用于资源管理。 2 HDFS HDFS是什么 Hadoop Distributed File System分步式文件系统 源自于Google的GFS论文发表于2003年10月HDFS是GFS克隆版 HDFS是Hadoop体系中数据存储管理的基础 通过流式数据访问提供高吞吐量应用程序数据访问功能适合带有大型数据集的应用程序 提供一次写入多次读取的机制数据以块的形式同时分布在集群不同物理机器上 高度容错性的系统能检测和应对硬件故障用于在低成本的通用硬件上运行 3.Hive hive是基于Hadoop的一个数据仓库工具用来进行数据提取、转化、加载这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具计算基于MapReduce或Spark能将结构化的数据文件映射为一张数据库表并提供SQL查询功能能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低可以通过类似SQL语句实现快速MapReduce统计使MapReduce变得更加简单而不必开发专门的MapReduce应用程序。 4 HBase HBase 是一个面向列式存储的分布式数据库其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现集群的管理基于 ZooKeeper 实现。HBase良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能基于数据副本机制和分区机制可以轻松实现在线扩容、缩容和数据容灾是大数据领域中 Key-Value 数据结构存储最常用的数据库方案。 一句话HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统. 5 Spark Spark是一个分布式计算框架是由Scala语言编写完成的是apache基金会下的顶级开源项目 和Mapresuce的作用一样可以完成对数据的计算。 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架Spark拥有Hadoop MapReduce所具有的优点但不同于MapReduce的是——Job中间输出结果可以保存在内存中从而不再需要读写HDFS因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法,可用来构建大型的、低延迟的数据分析应用程序。。 Spark 是一种与 Hadoop 相似的开源集群计算环境但是两者之间还存在一些不同之处这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越换句话说Spark 启用了内存分布数据集除了能够提供交互式查询外它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的它将 Scala 用作其应用程序框架。与 Hadoop 不同Spark 和 Scala 能够紧密集成其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 尽管创建 Spark 是为了支持分布式数据集上的迭代作业但是实际上它是对 Hadoop 的补充可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。 综上Spark是专为大规模数据处理而设计的快速通用的计算引擎其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求涉及的知识点有SparkJob、Spark RDD、spark job部署与资源分配、Spark shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等。 总结spark包括spark sql、saprk mllib、spark streaming、spark 图计算。saprk的这些组件都是进行计算的。spark sql离线计算spark streaming 流计算spark mllib机器学习。mpi高性能计算。 以下是Spark与MapReduce的区别 1、Spark是基于内存计算的会将中间结果存放在内存方便后续计算的使用而MR会将中间结果存储在磁盘中。 2、内存数据的读写速度要比磁盘快很多所以Spark的计算速度比MR快。 3、Spark的计算任务是由线程完成的。MR的计算任务是由进程完成的。线程切换计算任务的速度比进程切换计算任务速度快。 以下是Spark与Hahoop的区别 Hahoop只有mapreduce是和spark一样用来计算要比较的话只能比较mapreduce与spark区别。mapreduce叠代计算中间结果放在磁盘适合大数据离线计算。spark技术先进统一使用rdd,结果可放在内存pipeline计算速度比mapreduce快。 建议大数据存储使用hadoop的hdfs,资源管理用hadoop的yarn,计算使用spark或mpi 6.Flume Flume 是一个cloudera提供的高可用高可靠分布式的海量日志收集聚合传输系统。原名是 Flume OG (original generation)受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OGoriginal generation属于 cloudera。但随着 FLume 功能的扩展Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来尤其是在 Flume OG 的最后一个发行版本 0.9.4. 中日志传输不稳定的现象尤为严重为了解决这些问题2011 年 10 月 22 号cloudera 完成了 Flume-728对 Flume 进行了里程碑式的改动重构核心组件、核心配置以及代码架构重构后的版本统称为 Flume NGnext generation改动的另一原因是将 Flume 纳入 apache 旗下cloudera Flume 改名为 Apache Flume。 Flume是Apache的顶级项目官方网站http://flume.apache.org/ Flume支持在日志系统中定制各类数据发送方用于收集数据;同时Flume提供对数据进行简单处理并写到各种数据接受方(可定制)的能力。 Flume有三个重要的组成部份Source、Channel、Sink。 其它数据采集工具还有:dataX、kettle、Logstash、Scribe、sqoop。 dataX是阿里开源软件异构数据源离线同步工具。实现包括关系型数据库(MySQL、 Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的 数据同步功能。 7 Kafka Kafka是由Apache软件基金会开发的一个开源流处理平台由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统它可以处理消费者在网站中的所有动作流数据。 这种动作网页浏览搜索和其他用户的行动是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统但又要求实时处理的限制这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理也是为了通过集群来提供实时的消息。 kafka是一款分布式、支持分区的、多副本基于zookeeper协调的分布式消息系统。最大的特性就是可以实时处理大量数据来满足需求。 kafka使用场景 1)日志收集可以用kafka收集各种服务的日志 通过已统一接口的形式开放给各种消费者。 2)消息系统解耦生产和消费者缓存消息。 3)用户活动追踪kafka可以记录webapp或app用户的各种活动如浏览网页点击等活动这些活动可以发送到kafka然后订阅者通过订阅这些消息来做监控。 4)运营指标可以用于监控各种数据。 8 Storm Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架具有最高的摄取率。在Storm中需要先设计一个实时计算结构我们称之为拓扑topology。之后这个拓扑结构会被提交给集群其中主节点master node负责给工作节点worker node分配代码工作节点负责执行代码。在一个拓扑结构中包含spout和bolt两种角色。数据在spouts之间传递这些spouts将数据流以tuple元组的形式发送而bolt则负责转换数据流。Jstorm则是阿里巴巴使用Java语言复刻的Apache Storm号称性能四倍于Apache Storm于2016年停止更新。 Storm是内存级计算数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。 storm的网络直传、内存计算其时延必然比hadoop的通过hdfs传输低得多当计算模型比较适合流式时storm的流式处理省去了批处理的收集数据的时间因为storm是服务型的作业也省去了作业调度的时延。所以从时延上来看storm要快于hadoop。 Storm 基于ZeroMQ这个高性能的消息通讯库不持久化数据。 9 SparkStreaming SparkStreaming 是Spark API的扩展不像Storm那样一次处理一个数据流。相反它在处理数据流之前会按照时间间隔对数据流进行分段切分。Spark针对连续数据流的抽象我们称为DStreamDiscretized Stream。DStream是小批处理的RDD弹性分布式数据集RDD则是分布式数据集可以通过任意函数和滑动数据窗口窗口计算进行转换实现并行操作。 10 Sqoop Apache SqoopSQL-to-Hadoop项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。 Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具结构化数据可以是MySQL、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载MapReduce天生的特性保证了并行化和高容错率而且相比Kettle等传统ETL工具任务跑在Hadoop集群上减少了ETL服务器资源的使用情况。在特定场景下抽取过程会有很大的性能提升。 如果要用Sqoop必须正确安装并配置Hadoop因依赖于本地的Hadoop环境启动MR程序MySQL、Oracle等数据库的JDBC驱动也要放到Sqoop的lib目录下。 sqoop是连接关系型数据库和hadoop的桥梁主要有两个方面(导入和导出): A.将关系型数据库的数据导入到Hadoop及其相关的系统中如Hive和HBase B.将数据从Hadoop系统里抽取并导出到关系型数据库。 11 Flink Apache Flink是针对流数据批数据的计算框架。把批数据看作流数据的一种特例延迟性较低毫秒级且能够保证消息传输不丢失不重复。Flink创造性地统一了流处理和批处理作为流处理看待时输入数据流是无界的而批处理被作为一种特殊的流处理只是它的输入数据流被定义为有界的。Flink程序由Stream和Transformation这两个基本构建块组成其中Stream是一个中间结果数据而Transformation是一个操作它对一个或多个输入Stream进行计算处理输出一个或多个结果Stream。 12 ELK ELK是三个开源软件的缩写分别表示Elasticsearch , Logstash, Kibana , 它们都是开源软件。新增了一个FileBeat它是一个轻量级的日志收集处理工具(Agent)Filebeat占用资源少适合于在各个服务器上搜集日志后传输给Logstash官方也推荐此工具。 Elasticsearch是个开源分布式搜索引擎提供搜集、分析、存储数据三大功能。它的特点有分布式零配置自动发现索引自动分片索引副本机制restful风格接口多数据源自动搜索负载等。主要负责将日志索引并存储起来方便业务方检索查询。 Logstash 主要是用来日志的搜集、分析、过滤日志的工具支持大量的数据获取方式。一般工作方式为c/s架构client端安装在需要收集日志的主机上server端负责将收到的各节点日志进行过滤、修改等操作在一并发往elasticsearch上去。是一个日志收集、过滤、转发的中间件主要负责将各条业务线的各类日志统一收集、过滤后转发给 Elasticsearch 进行下一步处理。 Kibana 也是一个开源和免费的工具Kibana可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面可以帮助汇总、分析和搜索重要数据日志。 Filebeat隶属于Beats。目前Beats包含四种工具 Packetbeat搜集网络流量数据 Topbeat搜集系统、进程和文件系统级别的 CPU 和内存使用情况等数据 Filebeat搜集文件数据 Winlogbeat搜集 Windows 事件日志数据 13 kettle Kettle最早是一个开源的ETL工具全称为KDE Extraction, Transportation, Transformation and Loading Environment。在2006年Pentaho公司收购了Kettle项目原Kettle项目发起人Matt Casters加入了Pentaho团队成为Pentaho套件数据集成架构师 [1] 从此Kettle成为企业级数据集成及商业智能套件Pentaho的主要组成部分Kettle亦重命名为Pentaho Data Integration [1-2] 。Pentaho公司于2015年被Hitachi Data Systems收购。 [3] Hitachi Data Systems于2017年改名为Hitachi Vantara [4] Pentaho Data Integration以Java开发支持跨平台运行其特性包括支持100%无编码、拖拽方式开发ETL数据管道可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源支持ETL数据管道加入机器学习算法。 Pentaho Data Integration分为商业版与开源版开源版的截止2021年1月的累计下载量达836万其中19%来自中国 [5] 。在中国一般人仍习惯把Pentaho Data Integration的开源版称为Kettle。 kettle 是纯 java 开发开源的 ETL工具用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面也有命令脚本还可以二次开发。 kettle 的官网是 https://community.hitachivantara.com/docs/DOC-1009855github 地址是 GitHub - pentaho/pentaho-kettle: Pentaho Data Integration ( ETL ) a.k.a Kettle。 14 Zookeeper zookeeper是一个分布式协调服务。所谓分布式协调主要是来解决分布式系统中多个进程之间的同步限制防止出现脏读例如我们常说的分布式锁。 zookeeper中的数据是存储在内存当中的因此它的效率十分高效。它内部的存储方式十分类似于文件存储结构采用了分层存储结构。但是它和文件存储结构的区别是它的各个节点中是允许存储数据的需要注意的是zk的每个节点存储数据不能超过1M。 更详细了解zookeeper,请见zookeeper详解(https://blog.csdn.net/weixin_38612401/article/details/125216821) Zookeeper简介及核心概念https://blog.csdn.net/mxk4869/article/details/125866276 15 RDD RDDResilient Distributed Dataset叫做分布式数据集是Spark中最基本的数据抽象它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中后续的查询能够重用工作集这极大地提升了查询速度。 16 .phoenix phoenix是用Java编写的基于JDBC API操作HBase的开源SQL引擎其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二级索引、命名空间映射、数据收集、行时间戳列、分页查询、跳跃查询、视图以及多租户的特性大数据开发需掌握其原理和使用方法。
http://www.zqtcl.cn/news/80101/

相关文章:

  • 湖南省住房和城乡建设厅官方网站南充市住房和城乡建设局考试网站
  • 银川做网站腾讯云cdn配置wordpress
  • 咨询公司网站模板威海做网站
  • 海南住建部建设网站的网站聚名网注册
  • 自己搭建服务器做视频网站花坛设计平面图
  • 高端品牌网站建设方案如何开发wordpress主题
  • 网站备案更换内江建网站
  • 广西网站推广优化自助业务网站系统
  • 汕头如何建设网站设计wordpress单页调用标题
  • 网站的组成东莞东城网站建设
  • 沈阳网站建设优秀公司杭州正规企业网站建设
  • 贵州建网站报价linux部署wordpress
  • 建设银行网站不能登录密码错误网站开发合同编号如何编写
  • 网站建设重点htp免费域名注册网站
  • 软件优化网站爱范儿 wordpress 主题
  • 我国有哪些企业网站网站后台和移动开发
  • 六安市网站制作华为荣耀手机最新款
  • 深圳做网站便宜app怎么查网站备案
  • 怎么做触屏版网站一键建站模板
  • 学做美食的网站网站官网建设
  • 珠海网站建设费用医疗网站建设哪家好
  • 二手书交易网站策划书2017设计工作室做网站
  • 网站建设策划包括哪些内容诚信网站建设
  • 做网站推广邢台wordpress写代码
  • 支付宝网站开发流程安徽省水利厅j建设网站
  • 北京海淀网站建设临沂网站建设培训学校
  • 网站后台怎么添加栏目纳雍网站建设公司
  • 河南省住房与城乡建设厅网站首页wordpress 移植
  • 合肥设计网站睢宁做网站公司
  • 网站设计规划说明书做游戏网站需要多少钱