当前位置：首页 > news >正文

网站建设公司主营业务做外贸推广的网站

news 2025/11/14 22:27:44

网站建设公司主营业务,做外贸推广的网站,varnish wordpress,在线生成个人网站免费#x1f4cb; 博主简介 #x1f496; 作者简介#xff1a;大家好#xff0c;我是wux_labs。#x1f61c; 热衷于各种主流技术#xff0c;热爱数据科学、机器学习、云计算、人工智能。通过了TiDB数据库专员#xff08;PCTA#xff09;、TiDB数据库专家#xff08;PCTP… 博主简介作者简介大家好我是wux_labs。热衷于各种主流技术热爱数据科学、机器学习、云计算、人工智能。通过了TiDB数据库专员PCTA、TiDB数据库专家PCTP、TiDB数据库认证SQL开发专家PCSD认证。通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究对Databricks的使用有丰富的经验。个人主页wux_labs如果您对我还算满意请关注一下吧~ 个人社区数据科学社区如果您是数据科学爱好者一起来交流吧~ 请支持我欢迎大家点赞收藏⭐️吐槽您的支持是我持续创作的动力~ 《PySpark大数据分析实战》-04.了解Spark 《PySpark大数据分析实战》-04.了解Spark前言了解SparkSpark是什么Spark的发展历程Spark的特点Spark的生态系统Spark的部署模式Spark的运行架构结束语《PySpark大数据分析实战》-04.了解Spark 前言大家好今天为大家分享的是《PySpark大数据分析实战》第1章第4节的内容了解Spark。了解Spark 在Hadoop 1.x版本的时候采用的是MRv1版本的MapReduce编程模型包括3个部分运行时环境JobTracker和TaskTracker、编程模型MapReduce、数据处理引擎MapTask和ReduceTask。但是MRv1存在以下不足 1可扩展性差。在运行时JobTracker既负责资源管理又负责任务调度当集群繁忙时JobTracker很容易成为瓶颈最终导致它的可扩展性问题。 2可用性差。采用了单节点的Master没有备用Master及选举操作这就存在单点故障的问题一旦Master出现故障整个集群将不可用。 3资源利用率低。TaskTracker使用slot来划分节点上的CPU、内存等资源并将空闲的slot分配给Task使用一个Task只有在获得slot后才有机会进行运行。但是一些Task并不能充分利用获得的slot导致slot有空闲而其他Task又无法使用这些空闲资源。 Apache为了解决MRv1中的缺陷对Hadoop进行了升级改造及重构就有了MRv2。MRv2重构了MRv1中的运行时环境将原来的JobTracker拆分成了集群资源调度平台ResourceManager、节点资源管理者NodeManager、任务管理者ApplicationMaster这就是后来Hadoop中的YARN。除了运行时环境编程模型和数据处理引擎变成了可插拔的可以用其他框架模型来替换比如Spark。 Spark是什么官方网站表明Spark是一个用于大规模数据Large-scala Data分析的统一引擎Unified EngineUnified engine for large-scale data analytics。Apache Spark™是一个多语言引擎用于在单节点机器或集群上执行数据工程、数据科学和机器学习Apache Spark™ is a multi-language engine for executing data engineering, data science, and machine learning on single-node machines or clusters。如图所示。 Spark最早源于由加州大学柏克莱分校的Matei Zaharia等人发表的一篇论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。Spark借鉴了MapReduce的思想保留了分布式并行计算的优点并改进了其明显的缺陷对MapReduce做了大量的优化例如减少磁盘I/O、增加并行度、避免重新计算、内存计算及灵活的内存管理策略等。Spark提出了一种弹性分布式数据集Resilient Distributed DatasetsRDD的概念RDD是一种分布式内存数据抽象使得程序员能够在大规模集群中做内存运算并且有一定的容错方式而这也是整个Spark的核心数据结构Spark整个平台都围绕着RDD进行。中间数据存储在内存中提高了运行速度并且Spark提供丰富的操作数据的API提高了开发速度。 Spark是如何处理数据的Spark会将HDFS上文件的每个数据块读取为RDD的一个分区Partition每个分区会启动一个计算任务Task以实现大规模数据集的并行计算过程如图所示。 Spark是一款分布式内存计算的统一分析引擎其特点就是对任意类型的数据进行自定义计算可以计算结构化、半结构化、非结构化等各种类型的数据结构。Spark的适用面比较广所以被称为统一的分析引擎他同时支持使用Python、Java、Scala、R以及SQL语言去开发应用程序处理数据。 Spark的发展历程 Spark在2009年作为加州大学伯克利分校AMPLabAlgorithms Machines and People Lab的一个研究项目而问世。Spark的目标是打造一个全新的针对快速迭代处理如机器学习和交互式数据分析进行过优化的框架与此同时保留Hadoop MapReduce的可扩展性和容错能力。2010年6月发表了第一篇论文Spark: Cluster Computing with Working Sets并且通过BSD许可协议正式对外开源发布Spark。2013年6月Spark在Apache Software Foundation ASF进入孵化状态并于2014年2月被确定作为Apache顶级项目之一。Spark的主要发展历程 2009年Spark由加州大学伯克利分校AMPLab实验室的研究人员开发出来。最初它是为了解决Hadoop的内存不足和磁盘IO等问题而开发的。2010年Spark第一篇论文发布Spark通过BSD许可协议正式对外开源发布。2012年Spark 0.6版本发布。2014年Spark 1.0版本发布成为Apache顶级项目包括Spark Core、Spark SQL、Spark Streaming和MLlib等。2015年Spark 1.3版本发布引入了DataFrame和SparkR等新特性。2016年Spark 2.0版本发布引入了Datasets和SparkSession等新特性。2017年Spark 2.2版本发布引入了Structured Streaming流处理。2018年Spark 2.4版本发布成为全球最大的开源项目。2019年Spark 3.0版本发布支持Python 3和Scala 2.12。2020年Spark 3.1版本发布引入了Delta Lake提供了事务性的数据湖功能并支持ACID事务和版本控制。2022年Spark 3.3版本发布获得SIGMOD系统奖。2023年Spark 3.4版本发布。 Spark的特点 Spark具有运行速度快、易用性好、通用性强和随处运行等特点 1速度快。由于Apache Spark支持内存计算并且通过有向无环图DAG执行引擎支持无环数据流所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍在硬盘中要快10倍。Spark处理数据与MapReduce处理数据相比有两个不同点其一Spark处理数据时可以将中间处理结果数据存储到内存中其二Spark提供了非常丰富的算子API可以做到复杂任务在一个Spark程序中完成。 2易用性好。Spark的版本已经更新到3.4.0截止日期2023.04.13支持了包括 Java、Scala、Python、R和SQL语言在内的多种语言。为了兼容Spark 2.x企业级应用场景Spark仍然持续更新Spark 2.x版本。 3通用性强。在Spark核心基础上Spark还提供了包括Spark SQL、Spark Streaming、MLlib 及GraphX在内的多个工具库可以在一个应用中无缝地使用这些工具库。 4随处运行。Spark支持多种运行方式包括在YARN和Mesos上也支持独立集群运行模式同时也可以运行在云KubernetesSpark 2.3开始支持和云环境上。 5批处理/流数据。使用您的首选语言Python、SQL、Scala、Java或R以批处理和实时流的方式统一数据处理。 6SQL分析。执行快速、分布式的ANSI SQL查询用于仪表板和即席报告。运行速度比大多数数据仓库都快。 7大规模数据科学。对PB级数据执行探索性数据分析EDA而无需采用缩减采样。 8机器学习。在笔记本电脑上训练机器学习算法并使用相同的代码扩展到数千台计算机的容错群集。 Spark的生态系统 Spark有一套自己的生态体系以Spark为核心Spark Core并提供了支持SQL语句操作的Spark SQL模块、支持流式计算的Spark Streaming模块、支持机器学习的MLlib模块、支持图计算的GraphX模块。在资源调度方面Spark支持自身独立集群的资源调度、YARN及Mesos等资源调度框架。Spark的体系架构如图所示。 1Spark Core。包含Spark的基本功能包含任务调度、内存管理、容错机制等内部采用RDD数据抽象并提供了很多API来创建和操作这些RDD。为其他组件提供底层的服务。 2Spark SQL。用来操作结构化数据的核心组件通过Spark SQL可以直接查询Hive、 HBase等多种外部数据源中的数据。Spark SQL能够统一处理关系表在处理结构化数据时开发人员无须编写MapReduce程序直接使用SQL命令就能完成更复杂的数据查询操作。 3Spark Streaming。Spark提供的流式计算框架支持高吞吐量、可容错处理的实时流式数据处理其核心原理是将流式数据分解成一系列微小的批处理作业每个微小的批处理作业都可以使用Spark Core进行快速处理。Spark Streaming支持多种数据来源如文件、Socket、Kafka、Kinesis等。 4MLlib。Spark提供的关于机器学习功能的算法程序库包括分类、回归、聚类、协同过滤算法等还提供了模型评估、数据导入等额外的功能开发人员只需了解一定的机器学习算法知识就能进行机器学习方面的开发降低了学习成本。 5GraphX。Spark提供的分布式图处理框架拥有图计算和图挖掘算法的API接口以及丰富的功能和运算符极大地方便了对分布式图的处理需求能在海量数据上运行复杂的图算法。 Spark的部署模式 Spark提供多种部署模式包括 1本地模式单机模式。本地模式就是以一个独立的进程通过其内部的多个线程来模拟整个Spark运行时环境。本地模式不适合用于生产环境仅用于本地程序开发、代码验证等。 2独立集群模式集群模式。Spark中的各个角色以独立进程的形式存在并组成Spark集群环境这种模式下Spark自己独立管理集群的资源。 3Spark on YARN模式集群模式。Spark中的各个角色运行在YARN的容器内部并组成Spark集群环境这种模式下Spark不再管理集群的资源而是交给YARN进行集群资源管理。 4Kubernetes模式容器集群。Spark中的各个角色运行在Kubernetes的容器内部并组成Spark集群环境。 5云服务模式运行在云平台上。Spark的商业版本Databricks就运行在谷歌、微软、亚马逊云服务提供商的云平台上。 Spark的运行架构从物理部署层面上看如果是独立集群模式部署的集群则Spark主要包含两种类型的节点Master节点和Worker节点。Master节点负责管理集群资源分配Application到Worker节点维护Worker节点、Driver和Application的状态。Worker节点负责具体的任务运行。如果是运行在YARN环境下则不需要Master节点和Worker节点。从程序运行层面上看Spark主要有Driver和Executor。Driver充当单个Spark任务运行过程中的管理者Executor充当单个Spark任务运行过程中的执行者。 Spark中的4类角色组成了Spark的整个运行时Runtime环境。这些角色与YARN中的各个角色有类似的地方。在集群资源管理层面整个集群的管理者在YARN中是ResourceManager在Spark中是Master单个节点的管理者在YARN中是NodeManager在Spark中是Worker。在任务执行层面单个任务的管理者在YARN中是ApplicationMaster在Spark中是Driver单个任务的执行者在YARN中是Task在Spark中是Executor。Spark官方提供的运行结构如图所示。在Spark的运行结构中涉及到一些关键概念 1Master Node。集群中的主节点负责集群的资源管理。 2Worker Node。可以在集群中运行应用程序代码的任何节点。 3Application。基于Spark构建的用户应用程序。由集群上Driver Program和Executor执行。 4Driver Program。运行应用程序的main()函数并创建SparkContext的过程。 5Executor。为Worker节点上的应用程序启动的进程用于运行任务并将数据保存在内存中或跨磁盘存储。每个Application都分配有自己的Executor。 6Cluster Manager。用于获取、管理集群上的资源如果是独立集群模式部署的集群则是Standalone Manager否则就是外部服务例如Mesos、YARN、Kubernetes。 7Job。Spark的数据抽象是RDDRDD提供了很多算子API这些算子被划分为两种类型Transformation和Action算子。Transformation算子只构建程序的执行计划但并不会执行Action算子的作用是触发Spark程序的真正执行。为了响应Action算子当程序中遇到一个Action算子时Spark会提交一个Job用来真正执行前面的一系列操作。通常一个Application会包含多个JobJob之间按串行方式依次执行。 8Stage。每个Job会根据Shuffle依赖划分为更小的任务集称为Stage阶段Stage之间具有依赖关系及执行的先后顺序比如MapReduce中的map stage和reduce stage。 9Task。Stage再细分就是TaskTask是发送给一个Executor的最细执行单元RDD的每个Partition都会启一个Task因此每个Stage中Task的数量就是当前Stage的并行度。结束语好了感谢大家的关注今天就分享到这里了更多详细内容请阅读原书或持续关注专栏。

查看全文

http://www.zqtcl.cn/news/607479/