AI半导体技术、市场与未来
过去两年,英伟达崛起是科技领域的一个经典案例。通过CUDA系统,他们创建了一个使用GPU进行机器学习的开发者生态系统;通过Mellanox,他们成为了数据中心网络的领导者。然后,他们将所有硬件集成到服务器中,提供垂直集成的算力一体机。凭借这一系列组合性技术优势,英伟达在“AI淘金热”中提供的铲子占据行业核心地位,这导致它成为有史以来最成功的公司之一。随之而来的是,不少挑战者入局以求从英伟达主导的市
过去两年,英伟达崛起是科技领域的一个经典案例。通过CUDA系统,他们创建了一个使用GPU进行机器学习的开发者生态系统;通过Mellanox,他们成为了数据中心网络的领导者。然后,他们将所有硬件集成到服务器中,提供垂直集成的算力一体机。
凭借这一系列组合性技术优势,英伟达在“AI淘金热”中提供的铲子占据行业核心地位,这导致它成为有史以来最成功的公司之一。随之而来的是,不少挑战者入局以求从英伟达主导的市场分一杯羹。半导体行业的竞争愈加热烈。
在此背景下,AI半导体研究专家Austin Lyons与Eric Flaningam从AI与GPU行业的背景知识切入,结合当前AI半导体生态系统,通过行业关键数据,对未来发展趋势进行了深入分析。
(本文由OneFlow编译发布,转载请联系授权。原文:https://www.generativevalue.com/p/the-ai-semiconductor-landscape)
来源 | Eric Flaningam、Austin Lyons
翻译|张雪聃、林心宇
OneFlow编译
题图由SiliconCloud平台生成
1
AI加速器的背景知识
从一个非常宏观的角度看,所有逻辑半导体都包含以下组成部分:
1. 计算核心——执行实际的计算操作。
2. 存储器——存储要传递给计算核心的数据。
3. 缓存——临时存储可快速检索的数据。
4. 控制单元——控制并管理其他组件的操作顺序。
传统情况下,CPU是一种通用计算机,设计用于执行任何计算任务,包括复杂的多步流程。如下图所示,CPU具有更多的缓存、更强大的控制单元以及更小的计算核心(即CPU中的算术逻辑单元,ALU)。
另一方面,GPU专为处理大量小型计算任务或并行计算而设计。最初,GPU用于图形处理,需要同时进行大量的小型计算以生成显示内容。这种基础架构非常适合AI的工作负载。英伟达率先通过早期的GPU引入可编程着色器,并推出CUDA,使所有GPU都能成为可编程计算机。
为何GPU如此适合AI?
大多数AI模型的基本单元是神经网络,其结构由多层节点组成。这些节点通过加权处理,尽可能准确地表示训练数据的特性。
当模型完成训练后,可以输入新的数据,模型则会预测输出结果(即推理)。
这种“数据传递”涉及大量的小型计算,主要以矩阵乘法的形式实现:(某一层的节点与权重)×(另一层的节点与权重)。
矩阵乘法是GPU的强项,因其具备出色的并行处理能力。
(Stephen Wolfram撰写了一篇详细解析ChatGPT工作原理的文章:https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/)
当今的GPU
GPU的规模不断扩大,计算能力和内存也在持续增强,并且更加专注于适配矩阵乘法等工作负载。
以英伟达的H100为例。它由CUDA和Tensor核心(基本处理器)、处理集群(由多个核心组成)以及高带宽内存组成。H100的设计目标是以尽可能高的数据流量处理尽可能多的计算。
提升性能的目标不仅限于芯片本身,而是聚焦于整个系统的优化。在芯片之外,通过连接GPU构建计算集群(https://www.nvidia.com/en-us/data-center/dgx-superpod/),将服务器设计为一体化的计算设备(https://www.nvidia.com/en-gb/data-center/dgx-h100/),甚至从系统层面优化数据中心的设计(https://www.fabricatedknowledge.com/p/the-data-center-is-the-new-compute)。
1
训练与推理的背景知识
要理解AI半导体的格局,需要先回顾一下AI架构的基础知识。
训练指的是通过大规模数据集进行迭代,创建能够表示复杂场景的模型;而推理则是向该模型提供新的数据以生成预测。
以下是推理的几个关键特性:
1. 时延和位置至关重要——推理为终端用户运行工作负载,因此响应速度至关重要。这使得在边缘设备或边缘云环境中进行推理更具优势,而训练则可以在任何位置完成。
2. 可靠性稍显次要——训练最前沿的模型可能需要数月时间,并需要庞大的训练集群。由于集群内部高度依赖,一个环节出错可能拖慢整个训练进程。而推理的工作负载更小且相互独立,即使发生错误,仅会影响单个请求,并能快速重新运行。
3. 硬件扩展性的重要性较低——英伟达的核心优势之一是其通过软件和网络实现大规模系统扩展的能力。然而在推理中,这种扩展性的重要性较低。
以上原因解释了为什么许多新兴半导体公司将重心放在推理上。与训练相比,推理的进入门槛更低。
英伟达的网络和软件能够支持其构建更大、更高性能和更可靠的训练集群。英伟达在AI训练方面的竞争壁垒非常牢固,其他竞争者难以企及。
接下来,我们来谈谈竞争格局。
3
AI半导体行业概览
AI半导体行业可以大致分为三个主要领域:
-
数据中心训练芯片
-
数据中心推理芯片
-
边缘推理芯片
下图是相关公司展示:
(AI半导体价值链的思维模型图;该图并未展示所有公司和细分领域)
数据中心半导体市场
简单来说,英伟达主导了数据中心半导体市场,而AMD是唯一具有竞争力的通用替代方案。超大规模云公司(Hyperscalers)倾向于开发自研芯片,而大部分初创公司专注于推理或特定架构的专用硬件。
预计英伟达将在2024年销售超过1000亿美元的AI系统,而AMD紧随其后,预计实现50亿美元的收入。
以下是截至2023年底,数据中心处理器市场份额的分布:
(数据来源:https://www.crn.com/news/components-peripherals/2024/google-was-third-biggest-data-center-processor-supplier-last-year-research)
在超大规模云公司中,Google提供了最先进的加速器,其TPU备受关注。据TechInsights估计,Google去年出货了200万个TPU,仅次于英伟达的AI加速器。
亚马逊则开发了自研神经网络芯片(Nitro)、CPU(Graviton)、推理芯片(Inferentia)和训练芯片(Trainium)。TechInsights估计,亚马逊在2023年向客户“出租”了230万个此类芯片。
微软最近推出了CPU(Cobalt)和GPU(Maia),但由于产品较新,目前尚无法评估其市场表现。
最后值得一提的是,英特尔原本预计今年销售约5亿美元的Gaudi 3芯片,但在最近的财报中表示这一目标无法实现。
尽管英伟达凭借其软件和网络功能在训练领域占据主导地位,但推理领域由于架构差异,竞争格局更加多样化。
推理领域:更具吸引力的市场!
RunPod最近对Nvidia H100和AMD MI300X进行了有趣的对比研究,结果表明,MI300X在超大批处理和极小批处理的推理任务中更具成本优势。
(数据来源:https://blog.runpod.io/amd-mi300x-vs-nvidia-h100-sxm-performance-comparison-on-mixtral-8x7b-inference/)
同时,许多硬件初创公司筹集了大量资金,试图抢占这一市场的一席之地:
(数据来源:https://www.chipstrat.com/p/etched-silicon-valleys-speedrun)
一个有趣的趋势是,这些初创公司正向软件领域扩展。例如,Groq、Cerebras和SambaNova三家领先的初创公司都在提供推理软件服务。理论上,这种垂直整合能够为终端用户提供成本和性能上的双重优势。
AI半导体市场的最后一块拼图是边缘AI,这也是业内广泛关注的热点话题。
4
边缘AI?
训练最庞大且功能最强的AI模型需要高昂的成本,甚至可能需要整个数据中心的GPU资源支持。然而,模型训练完成后,可以运行在性能相对较低的硬件上。实际上,AI模型甚至可以在智能手机或笔记本电脑等“边缘”设备上运行。边缘设备通常由SoC(系统级芯片)提供支持,这种芯片包含CPU、GPU、内存,通常还集成了NPU(神经网络处理单元)。
例如,一个运行在智能手机上的AI模型必须足够小,以适应手机内存的限制。因此,与大型云端模型相比,边缘模型通常更小、更简单。然而,模型在本地运行能够安全地访问用户特定数据(如位置、短信),而无需将数据传输到云端。
尽管AI模型可以技术上运行在手机的CPU上,但矩阵乘法更适合由GPU这样支持并行处理的硬件来完成。由于CPU优化用于顺序处理,在推理任务中可能表现较慢,即使是处理小型模型也是如此。作为一种替代方案,AI模型可以运行在手机的GPU上。
然而,智能手机的GPU主要为图形处理而设计。在玩游戏时,用户期望GPU能全力支持平滑的画面效果。如果同时分配GPU资源给AI模型,可能会显著影响游戏体验。
因此,NPU成为边缘设备AI推理的理想选择。智能手机可以利用NPU来运行AI任务,而不会增加GPU或CPU的负担。由于电池寿命对边缘设备至关重要,NPU经过优化以降低功耗。与GPU相比,NPU在执行AI任务时的功耗可能低至其1/5到1/10,大大延长了设备的电池续航时间。
边缘推理不仅应用于消费类设备,还广泛用于工业和汽车领域。例如,自动驾驶汽车依靠边缘推理实时处理传感器数据,从而做出快速决策以确保行车安全。而在工业物联网中,传感器和摄像头数据的本地推理可以支持主动维护等措施。
工业和汽车领域的设备通常具备比消费类设备更高的功率支持,因此可以部署高性能计算平台。例如,Nvidia的Orin平台就内置了与数据中心GPU类似的功能(详见https://www.nvidia.com/en-us/edge-computing/products/igx/)。需要远程硬件可编程性的场景,则可以使用例如Altera的FPGA(详见:https://www.intel.com/content/www/us/en/content-details/765466/altera-fpgas-and-socs-with-fpga-ai-suite-and-openvino-toolkit-drive-embedded-edge-ai-machine-learning-applications-white-paper.html)。
5
对市场的一些思考
最后,我想分享几个我认为在AI半导体领域中最有趣的问题:
1. 英伟达的优势壁垒有多深厚?
多年来,英伟达在数据中心GPU市场上维持了90%以上的市场份额。作为一家极具前瞻性的公司,其在过去二十年内做出了正确的技术和战略决策。在这个领域中,经常有人问我有关英伟达的壁垒的问题。
对此,我有两个看似矛盾的观点:首先,我认为英伟达在不断扩展自己的优势,从AI软件、基础设施到模型和云服务都在积极布局。他们还在投资网络和垂直整合。这家公司持续高效执行其战略,令人惊叹。
其次,在收入上,每家公司都想与英伟达分一杯羹。如今,全球企业正投入数千亿美元争相开发通用人工智能(AGI)。英伟达最大的客户们正在斥资数十亿美元减少对其依赖,同时投资者也向竞争对手注入巨额资金,希望能瓜分英伟达的市场份额。
总结来说:英伟达是目前全球AI领域最有优势的公司,同时也面临来自竞争者、客户和投资者的数百亿美元投入的挑战。
2. 初创公司的机会在哪里?
半导体初创公司面临着极其艰难的挑战,要建立可持续的商业模式难度很大。而当竞争对手是英伟达时,这种挑战更显艰巨。不过,市场总是在通用性与专业性之间进行权衡。如果公司能够有效地专注于足够大的细分市场,就有机会成长为一家规模庞大的企业。这包括专为推理设计的硬件和特定模型优化的硬件。
我尤其对能够加速专用芯片开发的方案感兴趣。这类方法能够降低芯片开发的门槛,同时利用专业化带来性能优势。
然而,半导体行业极其复杂,这类产品需要经过时间和多代技术的积累才能成熟。这些公司需要持续的资金支持,才能完成多个产品代际的研发。
3. 边缘AI会成为现实吗?
从历史来看,技术的颠覆往往发生在一种新产品以更低价格提供了较少的功能时,而现有企业难以与之竞争。例如,大型主机让位于小型计算机,小型计算机又被PC取代,PC之后是智能手机。
这些颠覆的关键变量在于性能的“过剩供应”。顶级解决方案常常解决了大多数人非必需的问题。许多计算领域的颠覆来自于计算能力的去中心化,因为消费者并不需要额外的性能。
在AI领域,我认为这种“性能过剩”还没有出现。ChatGPT很强大,但还称不上完美。一旦它变得足够优秀,边缘AI的时代才会到来。小型语言模型和NPU将推动这一时代的到来。届时,问题将不再是“AI是否会进入边缘设备”,而是“什么时候进入”。
其他人都在看
让超级产品开发者实现“Token自由”
邀好友用SiliconCloud,狂送2000万Token/人
即刻体验QwQ-32B-Preview
siliconflow.cn/zh-cn/siliconcloud
更多推荐
所有评论(0)