专业重庆房产网站建设,六安网红水坝,广东企业微信网站建设,推动高质量发展的必要性一、Hadoop入门
1、常用端口号
hadoop3.x HDFS NameNode 内部通常端口#xff1a;8020/9000/9820 HDFS NameNode 对用户的查询端口#xff1a;9870 Yarn查看任务运行情况的#xff1a;8088 历史服务器#xff1a;19888
hadoop2.x HDFS NameNode 内部通常端口#xf… 一、Hadoop入门
1、常用端口号
hadoop3.x HDFS NameNode 内部通常端口8020/9000/9820 HDFS NameNode 对用户的查询端口9870 Yarn查看任务运行情况的8088 历史服务器19888
hadoop2.x HDFS NameNode 内部通常端口8020/9000 HDFS NameNode 对用户的查询端口50070 Yarn查看任务运行情况的8088 历史服务器19888
2、常用的配置文件 3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers 2.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves
二、HDFS
1、HDFS文件块大小面试重点 硬盘读写速度 在企业中 一般128m中小公司 256m 大公司 2、HDFS的Shell操作开发重点 3、HDFS的读写流程面试重点
三、Map Reduce
1、InputFormat 1默认的是TextInputformat kv key偏移量v :一行内容 2处理小文件CombineTextInputFormat 把多个文件合并到一起统一切片
2、Mapper setup()初始化 map()用户的业务逻辑 clearup() 关闭资源
3、分区 默认分区HashPartitioner 默认按照key的hash值%numreducetask个数 自定义分区
4、排序 1部分排序 每个输出的文件内部有序。 2全排序 一个reduce ,对所有数据大排序。 3二次排序 自定义排序范畴 实现 writableCompare接口 重写compareTo方法
5、Combiner
前提不影响最终的业务逻辑求和 没问题 求平均值
提前聚合map 解决数据倾斜的一个方法
6、Reducer 用户的业务逻辑 setup()初始化 reduce()用户的业务逻辑 clearup() 关闭资源
7、OutputFormat 1默认TextOutputFormat 按行输出到文件 2自定义
四、Yarn 1、Yarn的工作机制面试题 2、Yarn的调度器 1FIFO/容量/公平 2apache 默认调度器 容量 CDH默认调度器 公平 3公平/容量默认一个default 需要创建多队列 4中小企业hive spark flink mr 5中大企业业务模块登录/注册/购物车/营销 6好处解耦 降低风险 11.11 6.18 降级使用 7每个调度器特点 相同点支持多队列可以借资源支持多用户 不同点 容量调度器优先满足先进来的任务执行 公平调度器在队列里面的任务公平享有队列资源 8生产环境怎么选 中小企业对并发度要求不高选择容量 中大企业对并发度要求比较高选择公平。 添加公众号「信息技术智库」 硬核资料20G8大类资料关注即可领取PPT模板、简历模板、技术资料 技术互助技术群大佬指点迷津你的问题可能不是问题求资源在群里喊一声。 面试题库由各个技术群小伙伴们共同投稿热乎的大厂面试真题持续更新中。 知识体系含编程语言、算法、大数据生态圈组件Mysql、Hive、Spark、Flink、数据仓库、前端等。 送书抽奖丨技术互助丨粉丝福利