网站视频背景怎么做,关于网站项目建设的申请,wordpress怎么二次开,wordpress的时间文章目录1. 大数据启蒙1.1 意义1.1.1 查找元素1.1.2 单机处理大数据问题1.2 历史1.3 hadoop1. 大数据启蒙
学习视频 大数据多#xff0c;复杂度很重要#xff0c;
内存不够#xff0c;分治处理IO仍成为瓶颈#xff0c;多机器并行多机器间通信也可以并行#xff0c;但仍是…
文章目录1. 大数据启蒙1.1 意义1.1.1 查找元素1.1.2 单机处理大数据问题1.2 历史1.3 hadoop1. 大数据启蒙
学习视频 大数据多复杂度很重要
内存不够分治处理IO仍成为瓶颈多机器并行多机器间通信也可以并行但仍是个问题 分发上传累计计算的话多台同时跑通信也比一台快
总结大数据的重点
分而治之并行计算计算向数据移动数据移动化成本高数据本地化读取
1.1 意义
1.1.1 查找元素
1w个元素中查找X 线性查找O(N) 想要O(4)呢hash
1.1.2 单机处理大数据问题 大文本仅两行一样想要找出。 单机内存小几十兆 2. 如果文件中全是数字做排序呢 桶排序外部有序内部无序 先分到不同桶里再给桶内排序
归并一次读50M排序第二次在读50M对这个50M排序–外部无序内部无序
单机IO瓶颈所以多机器并行 多台机器并行操作处理速度快但不同机器间网络通信?
1.2 历史
Hadoop NDFS一开始的文件系统 hadoop.apache.org:顶级项目
1.3 hadoop
hadoop项目包含 1.x: hadoop common hdfs(hadoop distributed file system hadoop mapreduce 2.x: 新增yarnjob管理、资源分配
其他相关项目生态圈 Hbase Hivesql、数仓 Spark用内存更快是hadoop的十倍 Zookeeper:协调服务 … 网站www.cloudera.com ducumentation:选择版本 目前企业版本5.16.X–可靠hadoop2.6 原来batch批量计算 flink/spark:全栈的
flink:阿里用的多流式计算来一个搞一个/5min跑一次 可以实时 spark:伪实时