英伟达竞品来了，训练比h100速70%，英特尔发最新ai加速卡

李扬 2024-04-12 02:23 176

"英伟达竞品来了，训练比h100速70%，英特尔发最新ai加速卡,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。新闻的写作风格流畅，文笔优秀，让人容易理解。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)企服城市最新创投汽车(Car)AI创新直播视频专题活动搜索寻求报道我要入驻城市合作英伟达竞品来了，训练比H100快70%，英特尔发最新AI加速卡机器之心·2024-04-10 16:03关注Gaudi 3 AI 加速器即将在第三季度出货。

性能有优势，可扩展性也更好。

英伟达的 AI 加速卡，现在有了旗鼓相当的对手。

今天(Today)凌晨，英特尔在 Vision 2024 大会上展示了 Gaudi 3，这是其子公司 Habana Labs 的最新一代高性能人工智能加速器。

‍

Gaudi 3 将于 2024 年第三季度推出，英特尔现已开始向客户提供样品。凭借 1835 TFLOPS 的 FP8 计算吞吐量，英特尔相信它足以在广阔的（且昂贵的）AI 计算领域中分得一杯羹。

根据内部基准测试，英特尔估计 Gaudi 3 性能部分超过了英伟达的 H100，并且具有更好的能耗比。在一些关键的大型语言模型中，Gaudi 3 能够击败英伟达的旗舰 H100/H200 Hopper 架构 GPU。

在当前这个科技(Technology)领域抢购英伟达 GPU 的时刻，Gaudi 3 可能许能为英特尔在 AI 加速器市场打开一扇门。

Gaudi 3 的发布也正值英特尔对其 AI 加速器产品的定位发生变化之际：当前，Gaudi 系列已升级为英特尔旗舰 AI 加速器。

Gaudi 3 是 Gaudi 2 硬件的直接演变。Habana Labs 在这一代没有对架构进行(Carry Out)大规模修改（这将在 Falcon Shores 中进行(Carry Out)）。

上一代 Gaudi 2 加速器基于台积电 7nm 工艺打造，在 Gaudi 3 上 Habana 引入了更先进的 5nm 工艺。Gaudi 3 芯片又添加了适量的计算硬件，从 2 个矩阵数学引擎和 24 个张量核心扩展到 4 个矩阵数学引擎和 32 个张量核心。鉴于 Gaudi 3 的架构变化有限，我们(We)可能许可以假设这些张量核心仍然是 256 字节宽的 VLIW SIMD 单元。

图片来自 Anandtech

Habana 团队罕见地公开了 Gaudi 3 芯片 FP8 精度的总吞吐量：1835 TFLOPS，这让 Gaudi 3 使用 8 位浮点计算产生的 AI 算力是 Gaudi 2 的两倍，BFloat 16 格式的算力提升则达到了四倍。

在大语言模型的实际处理上，英特尔预计用 Gaudi 3 训练 GPT-3 175B 大型语言模型的时间比 H100 要快 40%，Llama2 的 70 亿和 80 亿参数版本的训练结果(Result)甚至比这个数字还要好。

在推理方面，两者性能各有胜负，新芯片为两个版本的 Llama 提供了 H100 95% 至 170% 的性能。而对于 Falcon 180B 型号来说，Gaudi 3 却取得了四倍的优势。不出所料，与 Nvidia H200 相比，英特尔芯片的优势较小 ——Llama 为 80% 至 110%，Falcon 为 3.8 倍。

英特尔声称在测量能效时获得了更引人注目的结果(Result)，预计 H100 在 Llama 上的优势高达 220%，在 Falcon 上的数字则是 230%。

虽然英特尔没有透露 Gaudi 3 芯片的晶体管总数，但新硬件的面积足够小，以至于英特尔能够将两个 die 封装到单个芯片上，从而使完整的 Gaudi 3 加速器成为双芯配置。与英伟达最近发布的 Blackwell 类似，两块相同的芯片被封装在一起，并通过高带宽链路连接，以便为芯片提供统一的内存地址空间。

据英特尔称，组合后的芯片将像单个芯片一样工作，但英伟达没有透露连接链路的任何重要细节。

奇怪的是，与芯片匹配的是有点「过时」的 HBM2e 内存控制器，与 Gaudi 2 支持的内存类型相同。由于坚持使用 HBM2e，可用的最高容量堆栈为 16GB，为加速器提供了总共 128GB 的内存。其时钟频率为 3.7Gbps/pin，总内存带宽为 3.7TB / 秒。每块 Gaudi 3 芯片均提供 4 个 HBM2e PHY，使芯片总数达到 8 个内存堆栈。

同时，每个 Gaudi 3 芯片都具有 48MB 板载 SRAM，为整个芯片提供 96MB SRAM。英特尔称，SRAM 总带宽为 12.8TB / 秒。英特尔没有透露 Gaudi 3 加速器的时钟速度。鉴于现有硬件数量增加了一倍多，这里可能许会考虑整体较低的时钟速度。

在这一点上，基本风冷式 Gaudi 3 加速器的 TDP 为 900 瓦，比其前身的 600 瓦限制高出 50%。英特尔在这里使用 OAM 2.0 外形尺寸，它提供比 OAM 1.x (700W) 更高的功率限制。不过，英特尔还在开发并验证 Gaudi 3 的液冷版本，它将提供更高的性能，以换取更高的 TDP。所有形式的 Gaudi 3 都将使用 PCIe 连接其主机 CPU。

网站连接

除了 Gaudi 3 的核心架构之外，Habana 对 Gaudi 3 的另一项重大技术升级是在 I/O 方面。回到 Gaudi 的早期，Habana 的芯片就依赖于全以太网架构，使用以太网进行(Carry Out)节点内芯片到芯片连接和横向扩展节点到节点连接。它本质上与英伟达所做的相反 —— 是将以太网扩展到芯片级别，而不是将 NVLink 扩展到机架级别。

上一代的 Gaudi 2 每块芯片提供 24 个 100Gb 以太网链路，Gaudi 3 将这些链路的带宽增加了一倍，达到 200Gb / 秒，使芯片的外部以太网 I/O 总带宽达到 8.4TB / 秒。

与此同时，每块芯片的剩余 3 个链路将用于为六组 800Gb 八路小型可插拔 (OSFP) 以太网链路提供信号。通过使用重定时器，端口将被分成两个块，然后在 5 个加速器上进行(Carry Out)平衡。

最终，英特尔希望(Hope)提升 Gaudi 3 的可扩展性。由于先进大语言模型需要将许多节点链接在一起形成一个集群，以提供训练所需的内存和计算性能，一直以来，英特尔都希望(Hope)通过采用纯以太网配置来赢得那些不想投资 InfiniBand 等专有 / 替代互连技术的客户。

英特尔已经开发了多达 512 个节点的网站拓扑，使用 48 个主干交换机连接多达 32 个集群，每个集群包含 16 个节点。据英特尔称，Gaudi 3 还可以进一步扩展，达到数千个节点。

性能对比

英特尔表示，与目前(Currently)业内先进的 AI 加速器英伟达 H100 相比，Gaudi 3 在 16 个加速器集群中以 FP8 精度训练 Llama2-13B 时，性能比 H100 快 70%。尽管 H100 已经问世 2 年，但如果 Gaudi 3 成功(Success)的话，在任何训练方面都大幅击败 H100 对于英特尔来说将是一个巨大的胜利。

与此同时，英特尔预计采用 Gaudi 3 的 H200/H100 的推理性能将提高 1.3 倍至 1.5 倍，也许最值得注意的是，功耗比将提高多至 2.3 倍。

当然，在这些推理工作负载中，英特尔有时仍然会输给 H100，尤其是那些没有 2K 输出的工作负载，因此 Gaudi 3 还远未横扫一切。

不过值得赞扬的是，英特尔是迄今为止唯一一家提供 MLPerf 结果(Result)的主要硬件制造商。因此，无论 Gaudi 3 的表现如何（以及 Gaudi 2 目前(Currently)的表现），他们(They)在发布行业标准测试结果(Result)方面比大多数人都光明正大得多。

样品第二季度出货

总而言之，英特尔将在下个季度发布首款 Gaudi 3 产品。该公司已经在其实验室中拥有风冷版本的 OEAM 加速器以进行(Carry Out)资格认证，并向客户提供样品，同时液冷版本将于本季度提供样品。

最后，对于 Gaudi 团队来说，英特尔还将首次提供采用更传统 PCIe 外形规格的 Gaudi 3 版本。HL-338 卡是一款 10.5 英寸全高双槽 PCIe 卡。它提供与 OAM Gaudi 3 相同的所有硬件，甚至可达到 1835 TFLOPS FP8 的峰值性能。然而，它将配备对 PCIe 插槽更友好的 600 瓦 TDP，比 OAM 卡低 300 瓦，因此持续性能应该会明显降低。

尽管英特尔 Keynote 中未有展示，但 PCIe 卡提供了两个 400Gb 以太网端口，用于横向扩展配置。与此同时，英特尔将为 PCIe 卡提供一个「顶板」，类似于英伟达的 NVLink 桥，可以连接最多 4 个 PCIe 卡以进行(Carry Out)卡间通信。OAM 外形尺寸仍将是达成每个加速器最高性能和最大化横向扩展潜力的途径，但对于需要在传统 PCIe 插槽中即插即用的客户来说，现在也有了一个选择。

PCIe 版本的 Gaudi 3 将于今年(This Year)第四季度推出，同时推出液冷版本的 OAM 模块。

参考内容：

https://www.intel.com/content/www/us/en/newsroom/news/vision-2024-keynote-livestream-replay.html#gs.7pzjdw

https://spectrum.ieee.org/intel-gaudi-3

https://www.anandtech.com/show/21342/intel-introduces-gaudi-3-accelerator-going-bigger-and-aiming-higher

本文来自微信公众号“机器之心”（ID:almosthuman2014），编辑：泽南，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+15

好文章，需要你的鼓励

机器之心特邀作者3收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章通过港交所聆讯，出门问问还在“大炼模型”？超越GPT-4V，苹果多模态大模型上新「视觉版」GPT-4 Turbo重磅升级，ChatGPT 40条消息限制可能取消刚刚，Mistral AI最新磁力链放出，8x22B MoE模型，281GB解禁文旅行业迎来“泼天”富贵，这些岗位机会来了“AI电话”先行，操作系统准备好了吗？智能机器的来临意味着人类的终结吗？谷歌最强大模型免费开放了，长音频理解功能独一份，100万上下文敞开用开源模型首胜GPT-4，竞技场最新战报引热议，Karpathy：这是我唯二信任的榜单最新文章推荐小米汽车(Car)被市场“捶打”的时间还有很多中达新材披露北交所一轮问询回复：被问外销收入是否稳定可持续马云反思阿里这五年：改掉我们(We)最喜欢的坏习惯抖音(Tik Tok)：搜索一响，黄金万两晓谈数据工程2-数据存储努力(Effort)的人已经通过海选出道了暴雪与网易复合，今夏国服回归，漂泊的玩家账号能复原吗？北交一季度总结：个股赚钱效应低迷，题材股成唯一赢家看云计算如何赋能人工智能通过港交所聆讯，出门问问还在“大炼模型”？

机器之心特邀作者

专业的人工智能媒体和产业服务平台

发表文章501篇最近内容全面突围，谷歌昨晚更新了一大波大模型产品1小时前英伟达竞品来了，训练比H100快70%，英特尔发最新AI加速卡1小时前不牺牲算法，不挑剔芯片，这个来自中科院的团队正在加速国产AI芯片破局昨天(Yesterday)阅读更多内容，狠戳这里下一篇智能机器的来临意味着人类的终结吗？

保罗·若里翁探讨AI对人类将来的深远影响。

2小时前

热门标签泡泡英语福特t型车我国新型城镇化规划财务软件金蝶云企业平台沙滩车市场准入负面清单方辉云电脑(Computer)马路牙子长城皮卡坦途皮卡五十铃皮卡半衰期爱莉杨宁非虚构文学都市女孩李滨金融大数据蒋韬钢球防弹玻璃高中(High School)物理艾莎安娜闪聊品骏快递普萘洛尔ptsd关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴