企业网站建设案例,做电子烟外贸网站有哪些,380元网站建设,云南手机网站制作Spark 提交任务时主要可调的资源配置参数包括 Driver 资源#xff08;内存、CPU#xff09;、Executor 资源#xff08;数量、内存、CPU#xff09;以及 集群管理相关参数。配置和优化时一般结合集群硬件资源、数据规模、作业类型和作业复杂度#xff08;SQL / 机器学习内存、CPU、Executor 资源数量、内存、CPU以及 集群管理相关参数。配置和优化时一般结合集群硬件资源、数据规模、作业类型和作业复杂度SQL / 机器学习 来综合设置。
下面是提交过程参数配置实例
spark-submit --driver-memory 4g \ # 指定Driver进程的内存大小(堆内存)影响不大。
--num-executors 15 # Executor 的总数量Standalone/K8s 可直接设定Yarn默认会动态分配。
--executor-memory 8g \ # 指定每个Executor的内存大小(堆内存)一般都是Execution会出现OOM因为Storage会落盘。
--executor-cores 3 \ # 指定每个Executor核心数(真正并行数)4核心建议设成3。
--queue root.default \ # 设置Yarn的资源队列。
--conf spark.yarn.executor.memoryOverhead2048 \ # 设置堆外内存大小默认executor-memory的10%。
--conf spark.core.connection.ack.wait.timeout300 # 设置通讯等待超时时间。
# 例如集群有15台机器每台2个CPU核心则指定15个Executor每个的核心为2。总并行度 num-executors × executor-cores尽量大于等于总分区数资源优化的策略包括
内存分配
executor-memory ≈ 节点内存 ÷ 每节点 Executor 数量 - 预留空间
num-executors × executor-cores 不要超过节点总核数。并行度一般建议 总 cores ≈ 分区数 或者稍大一些。SQL 场景调节 spark.sql.shuffle.partitions默认 200 通常过大/过小都不好。动态分配在资源紧张的环境或多租户模式下建议开启可避免资源浪费。