当前位置: 首页 > news >正文

黑五手表网站广州公司注册流程及费用

黑五手表网站,广州公司注册流程及费用,成都网站建设qghl,企业网站宣传引言 近期#xff0c;AIGC 相关产品如同雨后春笋一般不断涌现。但在技术层面#xff0c;大家普遍的关注点更多集中在性能方面#xff0c;却经常忽略了存储对推理和训练效率的影响#xff0c;以及 AIGC 内容可能带来的合规风险。我们特邀腾讯云存储的产品负责人 崔剑老师和…引言 近期AIGC 相关产品如同雨后春笋一般不断涌现。但在技术层面大家普遍的关注点更多集中在性能方面却经常忽略了存储对推理和训练效率的影响以及 AIGC 内容可能带来的合规风险。我们特邀腾讯云存储的产品负责人 崔剑老师和益企研究院创始人、腾讯云 TVP 张广彬老师狒哥围绕以上话题展开讨论。 AIGC 大模型需要经过多年的积累和海量数据训练才能达到目前的阶段。它是一个非常复杂的技术工程涉及到顶层的训练框架中间的管控调度以及底层的计算存储网络等各个层面的资源支持。 下面从存储的角度来探讨为了让 AIGC 成长得更快我们需要做哪些具体的工作。 存储方案是AIGC模型业务落地的重要支撑 崔剑 想请教一下狒哥你从事存储领域这么多年应该接触过不少业界应用 AIGC 技术的团队。您能分析一下存储方案对于整体 AIGC 模型的实际应用和商业化到底有多大的影响力呢 张广彬 现在大家都在讨论大模型的参数量大小和 GPU 算力、网络等方面而我们作为存储领域的从业者会很容易地考虑到海量数据的存储访问。在 ChatGPT 刚兴起的时候我也看到一些存储厂商试图通过吸引人的标题来讨论大模型然而阅读文章后却发现只是蹭热度的内容让我感到失望。 如果我们真正深入探究会发现大模型对存储的性能要求非常高。举例来说像英伟达的参考架构中就提到了要有专门的存储网络而且存储网络最好为 GPU 服务器提供 40 GB 的单节点读带宽。当然这个要求还因应用类型而有所不同。以自然语言处理NLP为例一个节点需要 4 GB/s的读取性能写入则需要 2 GB/s。如果是压缩图像处理比如 ImageNet要求可能会高一倍而如果处理的是高清视频或无压缩图像则最好是 10 倍即读40 GB/s 和写20 GB/s。这是非常高的性能要求如果应用到单个计算节点上会给系统带来非常大的压力。即使深度学习任务中主要以读取为主但这种压力也非常巨大。我认为这是一个物理集群级别的问题当然你也可以在云上构建但我认为这样的性能级别和要求在云上也是一样的。 崔剑 是的站在云解决方案的角度来看腾讯云及其存储团队今年上半年收到了许多中国初创公司和大公司的需求希望建立基于云资源的大型模型训练平台。我们作为云服务商也为他们提供了很好的资源储备和解决方案。 例如我们为国内一些领先的文生文和文生图平台提供存储服务。这些平台层级很高这里的“高”并不仅仅指数据量的大小还包括高质量的半结构化数据因为他要训练模型的话素材物料的准确性和精度很重要这里的数据来源分两种。他们会从欧洲、北美一些成熟资源提供方获取一些已经训练好的半结构化数据让自己的大模型平台完成从 0~1 的冷启动。之后会再根据业务垂直的场景基于自己这些场景下的积累产出一些新的素材来喂给大模型。整体的这些半结构化数据素材量其实是很大的针对这些海量数据我们的第一步是帮助用户解决原始素材的集中和传递的问题因为这些素材可能来自不同的资源口例如海外网站或本地 IDC。在这一步我们提供了完善的腾讯云存储迁移服务通过离线、在线、增量和全量等方式帮助开发者们将训练素材集中在一起。 资源汇集过来以后我们比较推荐将素材存储到腾讯云的对象存储 COS 中素材存储到 COS 存储桶之后会进行一些前置的清洗和标注工作类似于自动驾驶中的数据筛选然后选择出高质量和准确的数据进一步传输到之前提到的 GPU 节点中。此外因为读取大量训练素材对带宽的需求很高所以我们还在 COS 存储桶和 GPU 计算之间提供了完善的加速缓存层。其实在 AIGC 大模型训练中先不说后面的工程环节在第一步素材的收集整理就已经是一项相当具有挑战性的任务好在我们通过集团内部积累以及对外服务 to B 客户的经验总结已经沉淀了成熟的解决方案也希望后续能帮助更多客户解决类似的问题。 大模型对存储带来了全新挑战 大模型训练过程中集群内的 GPU 成千上万过程旷日持久服务器或 GPU 等环节发生故障难以避免故障恢复面临两难回滚时间段过长会影响项目工期过短又对存储系统的写入性能提出了很高的要求…… 张广彬 以前大家经常说高性能计算是计算机皇冠上的明珠AI、云计算和大数据都从中受益。我也有个惯性思维会把它套到一些大的科学计算里面去认为大模型训练把数据装进去以后中间生成中间结果会不断地就往回写的并且觉得它的频率相对来说在它整个任务期间比例并不是很高。但是我前段时间与一些从事大模型训练的朋友聊了聊之后有了新的认识他们告诉我我的想法不对。像 ChatGPT 这样的模型就用了 1 万个 GPU并且在高负载下连续工作数十天甚至更长时间进行训练。在如此庞大的规模下每天可能会有 GPU 卡或 GPU 服务器发生故障。为了应对故障就要设置 Checkpoint。以前大家可能每天设置一个检查点但在大模型训练的场景下万一故障可能需要回滚 24 小时这样的时间损失是无法承受的。 因此现在倾向于把 Checkpoint 设得更短。比如腾讯可能是每 15 分钟写一个检查点听说文件大小可达到 TB 级别。虽然不是频繁写入但仍需要同步写入。如果写入时间过长会影响训练工作的正常进行因此对写入的性能要求非常高。某个厂商提供的方案显示一个检查点的写入需要 65 GB/s 的写入性能。尽管不是频繁发生但每一次写入的峰值会越来越高这是非常庞大的工作量。 崔剑 从 to B 服务方的角度看我和狒哥了解得完全一致。 大模型训练确实需要进行 Checkpoint 回滚的过程原因狒哥已经很透彻地解释了因为在训练过程中可能会出现废单或需要回退到某个阶段回退并非为了退步而是为了前进。只有保留 Checkpoint 这种备份机制当出现问题时我才能快速回退到之前的状态然后基于回退点继续进行新的训练和分析。如果停下来的话会浪费宝贵的 GPU 时间因为 GPU 卡很昂贵我们希望充分利用它们。为了提高利用率我们需要提前创建一系列 Checkpoint 备份机制以备不时之需。所以这个环节对于国内外各家平台都是必要的但是也给基础设施层面提出了挑战。 狒哥提供的数据非常有参考价值特别是 Checkpoint 回写的频率。从每天一次回写到几小时一次甚至一小时多次回写我看到的是客户回写速度越来越快这也代表着他们的算力和卡的数量越来越高。因为在相同的训练框架下如果 GPU 算力高、卡多或者上层训练框架调优得好就能更快地达到下一个阶段需要更频繁地进行 Checkpoint 回写。我们很高兴看到客户在上层调优方面越来越完善回写速度越来越快这代表着共同的发展。 尽管回写得越来越快对于云服务来说是一个挑战但我们愿意接受这个挑战。其实这也是云的优势之一云能提供较大的写入带宽无论是几十 MB 还是几十 GB 都能做到。相比之下本地 IDC 搭建环境为了存储资源的 IO 速度与底层资源的能力去“堆硬盘”从成本角度来看很难做到很高的天花板。而我们的云服务背后是整个腾讯云的集群具备很大的弹性释放能力。所以我很乐意见证开发者朋友们的平台成长同时我们团队也在不断地优化底层能力与解决方案以匹配大家对底层存储越来越高的弹性和资源诉求。希望通过我们的努力以及我们腾讯云团队、计算网络各个团队的共同作用下能让大家做大模型训练的效率越来越高。 高并发带来存储资源不足“症”多级加速弹性方案是良药 COS 是开发者非常熟悉的底层对象存储服务然而实际情况可能需要我们进一步探讨原生对象存储的可行性。例如当面临大数据集超出显存限制、大型模型频繁进行数据交换导致 IO 瓶颈等问题时我们需要寻找更多的解决方案。 张广彬 我们会更关注硬件方面就是 IaaS 层以下的部分当然也包括云存储。以英伟达提供的参考架构为例子它实际上是分为三层即分级存储或缓存策略。本地 GPU俗称显卡服务器内部的内存一般是 TB 级别的比如可以配备 2TB 内存带宽可以超过 200GB/s。这是除 GPU 显存以外性能最好的存储它在性能上表现优秀但容量较小适合存放一些不是特别庞大的自然语言处理模型的数据集。 那么对于更大的数据集应该如何处理呢GPU 服务器本地配备了 NVMe 存储俗称固态盘即 SSDNVMe 是其中较不错的通讯协议容量一般为几十 TB 级别带宽大约为五六十 GB/s。虽然容量大了一个数量级但性能和带宽相对较低它非常适用于一些压缩图像处理任务比如 ImageNet 等应用的数据集可以存放在本地缓存中从而避免频繁访问外部存储。 但如果数据集非常大比如像 4K 视频或未压缩的高清图片或者一些离线推理任务本地缓存无法容纳那可能仍需访问外部存储无论是 COS 还是其他存储方式。这可能是数据集读取一次的情况。根据我了解的情况如果按照这个数量级数据集可能在几十 TB 以上单个节点超过几十 TB 以上就不再适合本地缓存了。不知道在云上这种情况是否能得到一些改善或加强 崔剑 腾讯云的用户往往是大规模的考虑云的原因是因为他们有大量的资源消耗。因此腾讯云需要提供解决大规模存储、吞吐和加速的方案。展开说一下腾讯云对象存储 COS 是腾讯云存储的底层服务海量数据全部都存储在 COS 里面它承载全量数据作为一个源站。 在模型训练过程中我们对 GPU 进行了模型训练GPU 位于算力集群的前端而  COS 则在其后。通常情况下我们需要将一批数据例如三天为一批一次性从  COS 中加载到算力集群的本地然后再在本地进行一些向量化的 AI 训练。首先一次性的拉取动作其实消耗蛮大的同时数据到了本地或者本地的某个环境后又会进行多次的数据交换。因此我们充分考虑了客户的痛点提供了整体的数据库存储三级加速解决方案。第一级加速是在机房级别预热数据确保用户的训练数据提前加载到 GPU 算力所在的机房第二级加速是通过类似 HDFS 的命名空间来处理大数据批处理清洗的工作避免直接在对象存储上进行操作第三级加速是通过 GooseFS 文件系统将数据部署到用户的 GPU 集群本地以提升 IO 性能。这三级加速方案帮助用户解决了大数据处理和 AI 训练中的痛点并显著提升了吞吐能力。腾讯云成功地帮助了许多 AIGC 平台实现高带宽读取需求。如果您对这些方案感兴趣可以试用使用相关产品。 GooseFS 可以灵活地部署到用户的本地GPU集群。如果通过上层的算力去读一个远端的 COS 的话尽管 COS 弹性资源很多但由于各家云都会有一个单通道带宽限制腾讯云是每个 Bucket 会给您 15GB/s 的读带宽听起来可能是不太够的。所以说如果选用近计算端的这套文件系统缓存的方案以后把您 GPU节点本地的 NVMe 的盘全部用起来充分地释放本地盘的性能整体的吞吐能力可以从 15GB/s 的带宽涨到 TB 级别的吞吐能力直接提升一个数量级帮助了 AIGC 的平台更好地去承接住海量高带宽要求。这里也是简单地做一个分享如果大家有一些兴趣的话也可以去了解一下我们相关的产品。 另外在数据管理方面腾讯云提供了多级存储解决方案包括从“热到冷的标准存储、低频存储、归档存储和深度归档存储共涉及 56 档存储。腾讯云根据不同档位的存储需求匹配性能和容量同时在硬件和软件层面进行创新。软件层经过多个版本的迭代从三副本到现在的 EC 技术腾讯云在应对数据冗余方面积累了丰富经验。例如 QQ 空间海量的图片小文件腾讯云采用的 Block EC 技术在小文件写入时先写副本副本状态下能让用户以比较快的速度去读。多个小文件副本停留一段时间以后通过引擎把它拼成个大文件然后大文件再一点一点地刷新版本。通过这样的办法把海量小文件的管理成本降下去。在海量数据管理这块我们腾讯云深耕了很多年也愿意把这些技术红利释放出来让更多的用户体验到技术创新带来的价值与便利。 数据多方交互成倍的内容合规风险如何治理? 在 AIGC 领域除了成本管理和容量性能外推理产物的管理也是一个关键考虑因素。用户在使用过程会沉积出庞大的内容库这里里面难免会滋生一些涉黄、涉政、恐怖主义等不良内容针对这个问题我们该如何解决 张广彬 以前是用户去产生内容即 UGC现在变成了 AIGC。AI 只要它响应了就可以不断地生成内容未来它的内容量可能会超过 UGC。此外AIGC 有时候也会受到人为引导的影响人们会有意诱导机器回答一些问题甚至问一些敏感的问题。当越来越多人使用 AIGC其内容库将更容易产出危险内容如色情、恐怖主义等等。 另外我认为保密也是风险方面要考虑的因素。比如之前三星的某位工程师向 ChatGPT 提问结果导致一些机密泄露。无论是保护机器、AIGC 平台还是用户方都需要强有力的措施否则使用 AIGC 技术所带来的风险可能会超过收益。可以分享一下腾讯云在这方面的一些经验吗 崔剑 腾讯云存储团队在 AIGC 浪潮之前已经在数据处理和审核领域积累了多年经验。我们服务的腾讯内外部的业务中在搭配 CDN 分发之前就进行了相关的预处理包括基础处理和数据审核。腾讯云提供的产品——数据万象就是提供这方面的服务它能够处理和审核存储在腾讯云上的数据为用户提供多样化的处理能力。比如压缩图片体积、调整视频和图片的尺寸、格式转换、添加水印等都可以轻松实现。国内对数据的审核环节非常的严格特别是对于涉黄涉暴和政治敏感等违规内容的审查腾讯云的解决方案建议用户将推理产物经过数据万象的审核和绿化处理。 腾讯云给 AIGC 平台企业提供服务时发现下游的用户不仅包括个人还包括企业这意味着需要为 B 端用户提供闭环解决方案以管理为下游企业的客户提供的推理产物。对此腾讯云企业网盘可能是一个合适的解决方案它可以处理企业内部协同编辑、分发和备份的需求。 腾讯云企业网盘是一个企业级的产品与个人网盘不同它可以满足企业的需求。企业使用网盘可以解决三个痛点协同编辑、分发和备份。协同编辑可以通过类似腾讯文档的功能实现多人同时编辑一个文档。分发方面通过网盘生成外链可以安全地将文件分发给团队成员并可配置安全码、密码和有效期等参数。备份方面企业可以在网盘中同步员工电脑上的数据使核心资料统一备份并避免信息泄露的风险。 观众提问环节 可实现国内的训练数据资源统一或者单纯进行大规模训练吗 崔剑 从辩证的角度来看我认为这位观众的想法是有道理的。他想通过整合全球可获得的非计划和半计划训练数据通过强大的训练来提升模型的效果使其变得更加智能。 如果我们国内有这样一个平台并且希望不断改进和发展我们需要统一各类训练数据资源。这是一个发展方向。当前看各方面都在迅速发展但我认为未来可能会涌现出一些强势的领导者通过合作、行业合作或政府合作方式获取获取更多高质量的训练素材成为领域的引领者为我们的用户提供更好、更高质量的推理结果。 另一方面我们也看到一些特定领域的玩家比如气象、娱乐、生物医疗等垂直领域他们在垂直领域中运营。他们首先不需要这个领域之外的信息这些信息只会干扰他们。他们首先需要大量素材但在我个人看来当垂直应用出现时除了素材堆积外追求素材的质量也很重要。 这些领域的厂商需要在质量上下功夫并且需要在原始素材的筛选上下工夫。在之前的一次分享中我与开发者朋友们讨论过一些相关问题例如他们认为如何进一步提高训练效果除了计算能力和更好的模型调优之外原始素材的质量也很重要这取决于标注的准确性。在 AIGC 领域的标注与传统的自动驾驶或生物计算领域的标注不完全相同。因此我认为我们需要提出更专业、直接的问题并通过问答的方式获得一组问题和答案以更好地训练我们的大脑使之更聪明。 所以我们需要同时关注资源和素材的堆积并重视素材的质量这是我的观点。 张广彬 大数据时代中的那句进来的是垃圾出去的也是垃圾在这里还是确实适用。 AIGC技术在其它场景的性能和效果如何是否受到特定因素限制 崔剑 对于 AIGC 技术在其他场景中的性能和效果如何评估我们关注一些量化指标。比如运行一轮物料所需的时间整体带宽等。更通俗些讲我们考虑一个问题在相同的任务下它能在 8 小时内完成还是 6 小时内完成 对于两小时的差距可能是背后花了 2000 个小时或者经过长时间的思考才将性能提升。这里的提升可能是多方面的前面我们讨论了存储层面的优化选择更好的云存储和多级加速以确保存储不耽误计算时间。此外高性能网络涉及各种协议、容器技术、高性能 GPU 服务器也都是重要的因素。 另外训练框架是一方面我们通常使用开源框架。其中有许多参数和技巧打开某个参数可能会受到其他参数的影响这与数据库调优类似需要经验的积累所以我认为这是一项复合性的工作。 张广彬 是的所以相比数据库调优这可能更加复杂否则怎么叫炼丹呢甚至 OpenAI  也承认存在一定偶然性。 不同类型的数据对存储和计算资源的需求是否不同 张广彬 前面我们有提到过原则上来说数据越大所需资源性能越高。 崔剑 理解文字实际上就是将其切分为问与答的形式将问题和答案中的词语进行分词。然后将这些关键词转化为向量并在训练过程中存储到向量数据库中等等。 文生图要更难一点需要我们先去帮助 GPU “大脑”去理解这张图其实前期做的标注工作很重要我们先需要去通过一些前置的 AI 处理去把这个图片里面的关键元素提取出来“告诉它”这张图里各元素具体的含义。视频相当于把每一帧看做一个图片所以视频相比图片难度又提升了一个量级。从这个逻辑来看文本、图像、视频难度是递增的。 如何评估存储技术在训练大型模型的性能表现是否有参考标准 崔剑 我主要从可用性、成本和性能三个方面来评估 可用性在选择存储解决方案时首要关注的是其稳定性和数据保护能力。云上的对象存储服务如腾讯云的对象存储COS提供了高于 99.995% 的可用性和 12 个 9 的可靠性。确保存储底座的可用性和可靠性水平是核心。 成本商业化的存储解决方案需要考虑关注的是——单位存储的成本例如每 GB 每月或每 GB 每天的费用。我们官网上有对应的报价可以通过横向对比来评估云上对象存储的价格水平。腾讯云多年来专注于降低底层成本并将成本优势传递给客户综合商业化评估来看我们价格和性能表现还是不错的。 性能存储解决方案的性能表现直接影响计算效率和体验。关注的指标包括 IO 带宽、延迟和读写性能。特别是对于大规模的 AI 模型工程训练平台例如 GPU 集群对存储的访问性能要求高。衡量存储对计算效率的影响存储速度快则计算效率高带宽和 IOPS 等指标可用于评估性能是否达到预期。 计算资源受限时如何合理分配利用资源实现最佳训练效果 崔剑 AIGC 训练的计算部分非常重要其中核心是使用 GPU 训练大型模型。在 GPU 之前还有数据清洗和标注等环节可以采用弹性化的算力方案来避免计算资源成为瓶颈。对于训练环节来说GPU 卡目前比较稀缺所以主要取决于您可用的卡片数量。如果卡片更多计算能力可能更高但如果卡片有限您需要合理规划和安排。首先要测试每张卡的性能并根据测试结果合理安排任务以避免达不到预期并影响结果输出。总体而言调度合理和资源利用率是主要方向。 结语 AIGC 领域的存储方案在推理和训练效率中起着重要支撑作用。我们必须关注存储资源对大模型、高并发和多方交互带来的挑战并妥善处理内容合规风险。 未来多级加速和弹性方案将成为解决存储资源不足的关键同时需要考虑特定因素限制和不同数据类型的需求差异。通过建立评估标准和合理分配资源推动存储技术创新为 AIGC 领域带来更高效、可靠和可持续的发展推动人工智能的边界不断拓展。
http://www.zqtcl.cn/news/190240/

相关文章:

  • wordpress用户列表南宁百度seo排名优化
  • 做网站时如何写接口文档上海网站设计建设公司
  • 网站小图标怎么制作平面设计素材网站推荐
  • 多元网络兰州网站建设惠州网页建站模板
  • 网站建设中首页模板下载网页制作模板保存
  • 宁夏做网站的江苏网站建设的案例展示
  • 网站功能需求文档如何免费域名注册
  • 推广网站的软件包头移动的网站建设
  • 自己制作音乐的软件免费上海seo怎么优化
  • 学vue可以做pc网站网站站长统计怎么弄
  • 做物流的可以在那些网站找客户大淘客网站建设app
  • 石家庄兼职做网站dedecms做视频网站
  • 优化公司怎么优化网站的网站 意义
  • 唯品会一家专门做特卖的网站手机版招聘网站开发技术维护
  • 做短租哪个网站wordpress 4.7
  • 网站换空间 site网站域没到期不能续费吗
  • 找别人做网站要考虑哪些网站导航条设计欣赏
  • mvc网站开发实例wordpress雪人主题2.0
  • 红色好看的网站中山网站建设工作室
  • 如何做喊单网站flask公司网站开发
  • 简单个人网站制作流程自己怎么做卖服装的网站
  • 网站开发公司创业做洁净的网站
  • 要建一个优惠卷网站怎么做企业开发小程序公司
  • 汕尾英文网站建设企业qq手机版
  • 重庆医院门户网站建设做百度网站电话号码
  • windows网站建设教程网站建设落地页
  • 新加坡做网站的价格网站正则表达式怎么做
  • 三门峡市住房的城乡建设局网站百度指数分析官网
  • 新网站外链怎么做陕西省煤炭建设第一中学官方网站
  • 学校网站建设方面汇报php网站开发和部署