长宁区公司网站建设,中企动力手机邮箱,桂林网站制作推荐,如何设计好的网页来源#xff1a;内容由半导体行业观察#xff08;icbank#xff09;编译自「nextplatform」#xff0c;作者#xff1a;Timothy Prickett Morgan#xff0c;谢谢。我们现在进入了一个时代#xff0c;那就是IT行业的计算引擎将需要比以往任何时候都更需要更低的价格… 来源内容由半导体行业观察icbank编译自「nextplatform」作者Timothy Prickett Morgan谢谢。我们现在进入了一个时代那就是IT行业的计算引擎将需要比以往任何时候都更需要更低的价格更好的性能以及更好的散热特性。这将需要一种在更大范围的工作负载和设备上进行协同设计系统co-designing systems 的进化方法。让我们从显而易见的地方开始。越来越清楚的是尽管世界上所有软件工程师都可能使您相信但通用计算的美好时代是一个简单的X86指令集和操作系统内核是他们唯一需要的画布。绘制他们的代码。X86计算生态系统的兴起使我们在分布式计算和各种运行时中实现了出色的寒武纪爆炸式增长以执行可跨X86变体以及Arm和Power等其他体系结构移植的高级代码。数据存储、数据库应用程序框架虚拟机和运行时的数量惊人多样化且美观。如果确实发生了寒武纪大爆炸那就是分布式计算模型和计算硬件的多样性过去十年中一直在增长确实是通用X86引擎的功能后者可以完成所有工作或者有时很多虽然他们不是支持各种工作负载的最佳方法。当工作负载框架和硬件都对齐时这是一件很美的事情。2012年就是这种情况大约在HPC开始过渡到将代码的并行组件卸载到GPU加速器的五年之后机器学习算法最终找到了足够的数据并具有足够的并行处理能力以采用数学上早在1980年代就听起来不错的算法并将它们用于图像识别语音识别语音到文本翻译视频识别和其他工作负载的测试。而且lo和hehold他们工作了。现在AI的机器学习版本已经彻底改变了我们思考软件编写以及管理业务和个人生活许多方面的方式。HPC和AI统一对供应商和用户而言都非常方便因为可以执行一组工作负载的相同系统也可以完成另一组工作在某些情况下它们可以串行或并行地交织以创建AI增强的HPC。但是正如我们之前指出的那样HPC和AI之间这种谐波收敛harmonic convergence的便利并不一定要保持而只有在软件和经济朝着相同的方向推动时才如此。在2020年的这一点上很难说它是否会成立但是很明显的是橡树岭国家实验室的1.5 exaflops的“Frontier” 系统将于2021年到期劳伦斯·利弗莫尔国家实验室的2 exaflops的“ El Capitan”系统定于2022年问世。相关资料显示这个系统混合了CPU-GPU两者之间具有紧密耦合的计算和一致的内存。他们指出将AMD Epyc CPU和Radeon Instinct GPU加速器混合使用是正确的选择这对新贵X86和GPU芯片制造商来说是福音。话虽如此劳伦斯·利弗莫尔Lawrence Livermore绝对清楚El Capitan主要是一台HPC机器具有一些相对较小的AI职责。现代的单片CPU或使用单个插槽中的小芯片chiplets之间的互连创建虚拟CPU的插槽确实是一个奇迹。当我们看这些芯片中的一种时我们正在看的是仅仅几十年前的超级计算机它们将需要如此多的单个芯片来构建以至于让人难以置信。让我们花点时间看一下这些艺术品从英特尔的28核“ Skylake” Xeon SP 裸片开始甚至西摩·克雷Seymour Cray都会拿出放大镜花几个小时观察这种美丽。克雷Cray将花费我们预期的等量时间研究IBM的24核“ Nimbus” Power9处理器我们还没有Ampere的“ Quicksilver” Altra或Marvell的“ Triton” ThunderX3 这些Arm服务器CPU的裸片图但是就组件数量而言毫无疑问它们将同样复杂。我们也没有构成AMD“罗马” Epyc 7002系列的九中芯片的集合但是我们稍后将在此查看一些Rome原理图。如果您细心看你会发现现代服务器CPU就像二十年前的大型iron NUMA的外观只是所有组件都缩减为一个裸片他不仅包含CPU今天称为内核还包括L3缓存PCI- Express和以太网控制器以及用于加密、数据压缩、内存压缩、矢量数学和十进制数学的各种加速器IBM Power和System z都有。如果您已经像我们一样从事了很长时间的行业那么从大型NUMA服务器缩减到单个插槽的缩影确实是一个了不起的旅程。AMD Rome会是你的目标吗有几件事很清楚。一方面AMD在Rome方面的成功提供了一种设计良好的小芯片体系结构即使从单片芯片迁移到小芯片设计时即使对延迟产生影响也可以提供性能和性价比方面的优势。在罗马走一走看看Rome使用的Zen2内核的所有功能都优于Naples首次推出的Zen1内核并且通过创建围绕单个I / O和内存控制器中枢的专用内核模块大大改善了小芯片的互连体系结构。AMD这样做的所有意图和目的都是在单个14纳米管芯上混合了I / O和存储器控制器的NUMA控制器该管芯由Globalfoundries制造具有83.4亿个晶体管。据了解核心小芯片在单个裸片上具有两个四核核心复合体其中八个裸片骰子构成了总共64个核心这些I / O核心都包裹在其中。每个核心小芯片都有39亿个晶体管这些晶体管是由台积电在其7纳米工艺中蚀刻的总共有322亿个晶体管用于计算。全部加进去 Rome Epyc 7002小芯片工厂总共拥有395.4亿个晶体管这肯定会超出任何代工厂的标线限制而且要获得如此大芯片的良率也将变得更加疯狂。封装小芯片的麻烦成本和风险不如制造标线片破坏单片服务器芯片的麻烦成本和风险大至少对于拥有附属PC芯片业务的AMD而言无论如何它都需要制造更小的芯片。所有服务器CPU制造商迟早都将使用小芯片但我们希望更加激进。我们希望将CPU分解为核心串行整数处理要点并撕裂所有已放置在芯片上的矢量引擎和加速器这些整数引擎现在或在其旁边或在环形或网状互连中。它们位于其他芯片中它们属于一个世界该世界将具有一致的系统间CXL和系统内Gen-Z一致协议集以将计算元素捆绑在一起以便它们可以以非对称方式共享内存或存储或symmetric fashion。如果GPU加速器可以在64位或32位浮点处理上提供最佳的每瓦性能和每美元性能那就可以了。将向量单元从CPU中取出然后有两种选择使芯片更小更便宜添加更多内核或提高时钟频率以创建性能更高或成本更低的串行整数计算引擎。如果客户需要混合精度或更高精度的数据流引擎以及仅少量串行数据主机计算则可以将精简的CPU与FPGA紧密连接。并且假设至少要进行一些服务器虚拟化尤其是在云和企业中则应尽可能从服务器CPU上卸载这项工作。这意味着我们绝对假设每台服务器中都将有一个SmartNIC可以像基板管理控制器尚未发生的融合服务器虚拟化或容器平台主机以及可以运行虚拟网络和虚拟存储的地方一样工作,就像Amazon Web Services和Microsoft Azure一样。加密解密数据压缩和其他功能也可以从主机CPU中提取出来并放入SmartNIC中它们可以归为SmartNIC并且可以用更少的钱完成。最终我们要优化专用芯片上的所有芯片性能使其具有各种尺寸和容量并具有互连功能从而允许系统设计师以比超规模化者和云构建者所拥有的以太网更细粒度更低的层次来混合它们。试图做到这一点。这可能意味着socket的协议标准化,这可能将引致一些芯片制造商的抵制。但是有了这样的标准系统架构师和芯片实际上是socket制造商可以拥有更广泛的计算选项板用它们来绘制他们的许多工作负载无论是在socket还是跨系统或是它们的某种混合。诚然仍然会有那些想要通用服务器CPU的人瑞士军刀可以完成所有工作。但是我们谈论的是拥有一把剑一把非常好的剪刀和一把无用的手锯而是一系列微型版本的集合这些版本最终并没有看上去有用。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”