建设隔离变压器移动网站,合肥网站推广优化,东莞网站关键词优化哪家好,校园网站建设规划书大数据一词最早指的是传统数据处理应用软件无法处理的过于庞大或过于复杂的数据集。
现在#xff0c;对“大数据”一词的使用倾向于使用预测分析、用户行为分析或者其他一些从大数据中提取价值的高级数据分析方法#xff0c;很少用于表示特定规模的数据集。
定义
大数据是…大数据一词最早指的是传统数据处理应用软件无法处理的过于庞大或过于复杂的数据集。
现在对“大数据”一词的使用倾向于使用预测分析、用户行为分析或者其他一些从大数据中提取价值的高级数据分析方法很少用于表示特定规模的数据集。
定义
大数据是指规模巨大、种类繁多、产生速度快的数据集合通常超出了传统数据处理软件工具的处理能力范围。
大数据的特点主要可以归纳为以下几个方面
Volume数据量大通常在 TB、PB 甚至 EB 级别。Velocity数据的产生速度非常快需要被实时处理。Variety数据类型多包含结构化数据、非结构化数据和半结构化数据。Veracity数据的可靠性高。Value数据包含的价值大。
大数据生态 数据采集
日志数据采集 Apache Flume支持的场景更多半结构化和非结构化数据采集LogstashELK 场景推荐使用 Logstash可以和 Elastic、Kibana 无缝集成Filebeat性能更高 关系型数据库数据采集Sqoop、DataX、Canal、Maxwell、Debezium、FlinkCDC
数据存储
分布式文件存储系统Hadoop HDFS数据库系统Mongodb、HBase消息队列中间件Kafka
数据计算
离线计算Hadoop MapReduce、Spark实时计算Storm、Spark Streaming、Flink
数据分析
离线数据分析Hive、Impala、Kylin实时数据分析ClickHouse、Druid、Doris
任务调度框架
Apache Oozie
分布式资源管理
Hadoop YARNKubernatesMesos
管理和协调
Zookeeper分布式协调服务Apache Ambari安装、部署、配置和管理工具
学习路线
大数据生态的工具和技术组件虽然多但是每类只需要重点学习一个就可以了。 可以按照下面的学习路线
学习 Hadoop包括 HDFS、MapReduce、YARN 三个主要组件了解 Hive了解 Kafka学习 Spark 用于离线数据计算学习 Spark Streaming 或者 Flink 用于实时数据计算了解 Oozie、Zookeeper、Ambari 的用法