当前位置：首页 > news >正文

在线平台教育网站开发安阳+网站建设

news 2025/11/24 20:04:19

在线平台教育网站开发,安阳+网站建设,网站建设实施流程图,西安网上注册公司戳蓝字“CSDN云计算”关注我们哦#xff01;Spark是一个针对超大数据集合的低延迟的集群分布式计算系统#xff0c;比MapReducer快40倍左右#xff0c;是hadoop的升级版本#xff0c;Hadoop作为第一代产品使用HDFS#xff0c;第二代加入了Cache来保存中间计算结果#xf… 戳蓝字“CSDN云计算”关注我们哦Spark是一个针对超大数据集合的低延迟的集群分布式计算系统比MapReducer快40倍左右是hadoop的升级版本Hadoop作为第一代产品使用HDFS第二代加入了Cache来保存中间计算结果并能适时主动推Map/Reduce任务第三代就是Spark倡导的流Streaming。今天就让我们一起来看看关于它的更加深度精华问答吧1QSpark的组建构成有哪些A 1每一个application有自己的executor的进程它们相互隔离每个executor中可以有多个task线程。这样可以很好的隔离各个applications,各个spark applications 不能分享数据除非把数据写到外部系统。 2SparkContext对象可以视为Spark应用程序的入口主程序被称为driver programSparkContext可以与不同种类的集群资源管理器(Cluster Manager例如Hadoop Yarn、Mesos等进行通信从而分配到程序运行所需的资源获取到集群运行所需的资源后SparkContext将得到集群中其它工作节点Worker Node 上对应的Executors 不同的Spark应用程序有不同的Executor它们之间也是独立的进程Executor为应用程序提供分布式计算及数据存储功能之后SparkContext将应用程序代码分发到各Executors最后将任务Task分配给executors执行。2QSpark算子内能不能引用SparkSessionASpark的算子是在executor上执行的数据也是放在executor上。executor和driver并不在同一个jvmlocal[*]除外所以算子是不能访问在driver上的SparkSession对象。好好品味一下这个图如果一定要“在算子里访问SparkSession”那只能把数据collect回Driver然后用Scala 集合的算子去做。这种情况下只能适用于数据量不大多大取决于分配给Driver的内存。另外建议是通过join的方式获取关联数据并进行处理。3Q一个使用Sparksql查询Hbase数据的功能只取结果的1000条数据用的limit算子最后用foreachPartition算子将数据插入数据库中但是Hbase那张表的数据量很大有3000多个region查看sparkui发现竟然是要把所有的数据都要加载一遍取出对应的数据所以Sparksql计算的时候是要把所有的数据都要加载一遍计算吗A如果数据量巨大而集群计算资源吃不消的话就建议不要用HBase存储数据HBase并不留存任何结构化信息同时也没有索引因此并不适合多维查询。用HiveParquet合理的分区分桶优化SparkSQL查询性能会可观得多。另外更酷炫的是SparkCarbonData满足绝大多数OLAP需求甚至详单查询的性能也很恐怖并且支持update delete insert。4Q在其他机器上部署了HDFS、HBase、Spark请问怎么在本地调试Java Spark来操作远程的HBase就像操作远程数据库一样A1. HBase是一个数据库(分布式)有自己的JDBC可以根据HBase的JDBC开发自己应用只要能连接上本地远程都可以。2. Spark集群部署好了写好Spark作业提交给Spark集群Spark cluster计算完成后可以参看结果。3. Spark相关的rest server是livy然而并不是很好用有一定的版本和环境要求很多开发者会选择避开这个坑所以你会看到网上的大部分博客。4. 推荐Linux环境下开发少爬很多坑Windows不适合大数据相关的开发。5QHDP2.4.0版本Spark SQL运行在yarn-client模式现在发现有些语句跑特别慢20个节点一千多个CPU核心8TB内存数据量不到一亿条都是类似这样的语句group by十个字段然后sum20多个值竟然要十分钟以上而把数据加载到一台oracle服务器开启多核计算同样语句只要30秒。Spark SQL设置成动态分配spark.dynamicallocation.enabledtrue设置成最大最小和初始化都是300。发现是卡在最后一个task里例如有200个任务卡在最后一个任务里最后一个任务占95%以上时间。Java调用Spark的thrift server接口直接运行SQL语句没有采用调Spark rdd方法请问是什么问题A典型的数据倾斜问题。在一个stage里每个task对应一个partition当有一个partition的数据量大于其他的就会出现这样的情况。这种情况只能用代码的方法观察问题所在的stage对应的dataset然后在执行SQL前reparation(200有文档建议是2k)。如果问题仍存在就要对group by的字段值加盐group by一轮后去盐再group by得到最终数据。小伙伴们冲鸭后台留言区等着你关于Spark今天你学到了什么还有哪些不懂的除此还对哪些话题感兴趣快来留言区打卡啦留言方式打开第XX天答……同时欢迎大家搜集更多问题投稿给我们风里雨里留言区里等你~福利1、扫描添加小编微信备注“姓名公司职位”加入【云计算学习交流群】和志同道合的朋友们共同打卡学习推荐阅读做了中台就不会死吗每年至少40%开发资源是被浪费的美女主播变大妈在bug翻车现场说测试策略漫画高手、小说家、滑板专家……解锁程序员的另一面手把手教你如何用Python模拟登录淘宝鸿蒙霸榜 GitHub从最初的 Plan B 到“取代 Android”每天超50亿推广流量、3亿商品展现阿里妈妈的推荐技术有多牛真香朕在看了

查看全文

http://www.zqtcl.cn/news/799680/