H100 GPU 的租赁价格正在经历前所未有的下降,每年降幅达到或超过 40%。这一趋势尤其明显地体现在小型集群上。NVIDIA 曾预计在 4 年内保持每 GPU 每小时 4 美元的价格,但这一预测价格在短短 1.5 年内就已经达到。
开放权重模型的崛起正在引发 AI 市场的根本性转变。这些模型在性能上已经可以与闭源模型相媲美,同时提供了更高的灵活性和可控性。这一趋势正在重塑企业和开发者对 AI 模型的选择和使用方式。
小型和中型模型创建者市场正在经历显著萎缩,主要是因为微调现有模型比从头训练新模型更加经济实惠。这一变化导致了对 H100 GPU 需求的三重打击:减少了大规模训练的需求,降低了新模型创建的投资,并推动了更多企业转向微调现有模型。
H100 GPU 的价格正在快速商品化,甚至出现了以亏损价格出租的情况。这种趋势引发了业界对 GPU 投资回报率的担忧,同时也为 AI 开发者和研究人员提供了更经济的计算资源选择。
在过去的一年里,如果你有机会租到 H100,它的价格是一小时 8 美元。而现在,已经有 7 家零售市场以低于 2 美元每小时的价格销售它。发生什么了?
最近英伟达为 OpenAI 提供的最新 Blackwell 系列芯片引发了许多关注。该公司表示,未来一年的预售产品已经售罄。而黄仁勋宣称,该产品或可成为“工业史上最成功的产品”。随着 Lisa Su(ZP注:苏姿丰,AMD 公司董事长兼 CEO)紧随其后宣布为 MI3 25 X 和 Cerebras 申请 IPO 上市,是时候对 GPU 市场进行深入分析了。
我们对这个 6000 亿美元的问题有答案吗?现在人们一致认为,基础模型训练的资本支出是“历史上贬值最快的资产;但对 GPU 基础设施支出的评价尚未有定论,“GPU Rich Wars”激战正酣。与此同时,我们现在知道,前端实验室在“训练+推理”上的支出超过了收入,在有史以来最大的风险投资轮中融到了 66 亿美元,同时预计 2026 年将亏损 140 亿美元。其中的金融逻辑需要 AGI 来解析。
如果你能比其他人更快地提高 H100 的使用量,你也可以构建更大、更好的模型,甚至可能超越 OpenAI 成为 AGI——前提是你的有足够的资金支持它烧钱。出于这种愿望,百亿至千亿美元级别的资金被投资到拥有大量 GPU 的 AI 初创公司,以构建下一场革命。这导致的以下结果:
H100 需求突然激增,H100 最初的租金起价约为每小时 4.70 美元,但后来涨到了 8 美元以上。急于训练模型的创始人们只能说服投资者进行下一个 1 亿美元的融资轮新利体育app下载。
对于 GPU 供应商来说,如果这些创始人能以每小时 4.70 美元或更高的价格租用 H100 SXMGPU,甚至让他们预先付款,这简直就是在白送钱。投资回收期为 1.5 年,在这之后每个 GPU 每年的自由现金流超过 10 万美元。由于对 GPU 需求看不到尽头,投资者同意了,并进行了更大规模的投资。
与数字商品不同,H100 这样的实体商品存在滞后时间——特别是当出现多个环节运输延误时。在 2023 年的大部分时间里,除非支付巨额预付款,H100 的价格一直在每小时 4.70 美元之上。然而,2024 年初多家提供商的 H100 价格达到约 2.85 美元。
2024 年 8 月,如果你愿意拍卖买下一小部分 H100 时间(几天到几周),你可以开始以每小时 1 到 2 美元的价格寻找 H100 GPU。Eugene Cheah 预计每年价格下降 = 40% ,特别是对于小型集群。英伟达的营销预测是 4 年内每 GPU 小时 4 美元,但不到 1.5 年就达到了。这很可怕,因为这意味着有人可能会被迫承担后果——特别是如果他们刚刚购买了新的 GPU。
数据中心中的 H100 SXM GPU 的平均安装、维护和运营成本为 5 万美元或更多(也称为大部分资本支出)。不包括电力和冷却 OPEX 成本。我们现在假设 GPU 本身的使用寿命为 5 年。
对于上述投资回报率和收入预测,Eugene Cheah 引入了“混合价格”,去假设租金价格在 5 年内逐渐下降至 50%。鉴于我们现在看到的每年 = 40% 的价格下跌,这可以说是保守的估计。即使以 4.50 美元/小时的价格混合,我们也能看到英伟达数据中心提供商的宣传,他们在提供 20+% 的 IRR(内部回报率)。
然而,以 2.85 美元/小时计算,IRR 刚刚开始高于 10%。这意新利体育app下载味着,如果你今天购买一台新的 H100 ,并且市场价格低于 2.85 美元/小时,假设 100% 分配(这是一个不合理的假设),你几乎无法击败市场。任何低于这个价格的东西,作为投资,你最好选择股票市场,而不是 H100 基础设施公司。
如果价格低于 1.65 美元/小时,作为基础设施提供商,你在 5 年内注定会在 H100 上遭受损失。特别是如果你今年刚刚购买了节点和集群。
许多基础设施提供商,尤其是较老的基础设施提供商,对此早有准备。因为他们在加密货币时代经历了价格大幅上涨之后,直接面临 GPU 租金价格的大幅下跌——他们以前见过这个周期。
因此,在去年的这个周期中,他们大力推动 3-5 年的预付款承诺和/或以 4 美元以上的价格范围付款(通常预付 50% 到 100%)。如今,他们将价格范围推高至 2.85 美元以上来锁定利润。
这种情况在 2023 年人工智能高峰期间发生,各种基础模型公司,特别是在图像生成领域,间接被迫签订高价的 3-5 年合同,只是为了进入新集群的前沿,并成为第一个制作目标模型的人,以帮助完成下一轮融资。这可能不是最经济的举措,但它让他们比竞争对手更快地行动。
然而,这导致了一些有趣的市场动态——如果你为 H100 支付每小时 3 或 4 美元的费用,那么在接下来的 3 年里,你将被合同套牢。当模型创建者完成模型训练后,你就不再使用集群了。他们会做什么?他们转售并开始收回部分成本。
数据中心基础设施提供商和合作伙伴(出售长期预订、设施空间和/或 H100 节点)
风险投资基金、大型公司和初创公司:计划构建基础模型(或已经完成模型构建)
虽然堆栈中的任何一层都可以垂直整合(例如跳过基础设施),但这里的关键驱动因素是“未使用容量的经销商”以及“足够好”开放权重模型(如 Llama3)的兴起,因为它们都是当前 H100 经济压力的主要影响因素。
因为许多“开放”模型缺乏适当的“开源”许可证,但可以自由分发,并广泛使用,甚至商业化。我们在这里将它们统称为“开放权重”或“开放”模型。
一般来说,随着不同规模的多个开放权重模型的建立,对推理和微调的需求也在增长。这主要是由两个重大事件推动的
GPT4 级开放模型的到来(例如 405B LLaMA3、DeepSeek-v2)
如今,对于企业可能需要的绝大多数用例,已经有现成的开放权重模型。在某些基准测试中新利体育app下载,这可能比专有模型落后一小步。具有以下优势:
可靠性:不再有较小的模型更新,破坏用例(目前社区信任度较低,认为模型权重不会在没有公共 API 端点通知的情况下悄悄更改,从而导致无法解释的回归)
所有这些导致了开放模型的持续增长和采用,以及对推理和微调需求的增长。但这确实造成了另一个问题。
我们使用模型创建者统称从头开始创建模型的组织。对于微调者,我们称之为模型微调者。
许多企业和多个小型和中型基础模型创建者初创公司 - 特别是那些以更小、专门针对特定领域的模型为宣传点筹集资金的公司 - 都是没有长期计划/目标从头训练大型基础模型(= 70B)的群体。
对于这两个群体,他们都意识到微调现有的开放权重模型比自行训练更经济、更有效。这最终造成了 H100 需求减少的三重打击。
a.因为与从头开始训练(对于 7B 及以上模型,从 16 个节点,通常更多)相比,微调的计算要求显着减少(通常为 4 个节点或更少,通常为单个节点)。
a.2023 年,在文本和图像空间内,出现了一股中小型基础模型的巨大浪潮。
b.然而,今天,除非你绝对有信心能够超越 llama3,或者你要带来一些新的东西(例如新架构、低 100 倍的推理、100 多种语言等),否则〜不会再建立更多的基础模型从头开始。
c.一般来说,由较大参与者(Facebook 等)创建的中小型开放模型,使得较小参与者很难证明训练基础模型的合理性。除非他们有强大的差异化因素(技术或数据) ,或者有计划扩展到更大的模型。
d.最近投资者也反映了这一点,因为新基础模型创建者的资金急剧下降。绝大多数较小的团体已转向微调(这种情绪与近期多家公司的退出情况不甚理想相结合)。
▪20 大型模型创建团队(又名 70B++,也可以创建小型模型)
f.总共全球不到50 个团队会在任何时候需要 16 个节点的 H100(或更多)来进行基础模型训练。
a.对于集群所有者来说,尤其是各种基金会模式的初创公司和 VC,在 2023 年的最初“新利体育app下载抢地”中,早有保留。
b.切换到微调后,H100 的等待时间非常长(峰值为 = 6 个月),很可能这些团体中的许多人在进行更改之前就已经支付了预付款,从本质上来说,他们的预付费硬件“一到就过时”。
c.或者,那些按时到达硬件来训练他们的前几个模型的人也意识到,最好对他们的下一个模型迭代进行微调。而不是自己建设。
d.在这两种情况下,他们都会有未使用的容量,这些容量通过“计算经销商”加入市场供应而上线。
所有主要的模型创建者,如 Facebook、X.AI,以及可以说 OpenAI(如果将其算作微软的一部分),都正在离开现有的公共提供商,建立自己的数十亿美元集群,减少了现有集群所依赖的需求。此举主要出于以下原因:
现有的约 1000 个节点集群(建设成本5000 万美元)对他们来说已经不够大,无法训练更大的模型。
在十亿美元的规模上,会计人员最好购买具有账面价值(公司估值和资产的一部分)的资产(服务器、土地等),而不是纯粹的费用租赁。
如果你没有人才(他们有),你可以直接购买小型数据中心公司,他们拥有为你构建数据中心的专业知识。
2.未使用/延迟供应上线 的大规模出货延迟,长达 6 个月或更长时间吗?它们现在与 H200、B200 等一起上线。这与前面提到的现有初创公司、企业或风司的各种未使用计算资源一起上线。其中大部分是通过计算经销商完成的,例如:新利体育app下载together.ai、sfcompute、runpod、vast.ai 等。
在大多数情况下,集群所有者拥有一个未得到充分利用的小型或中型集群(通常为 8-64 个节点)。集群的资金已经花出去了。由于主要目标是收回尽可能多的成本,他们宁愿削弱市场并保证分配,而不是与主要提供商竞争,并且可能没有分配。这通常是通过固定利率、拍卖系统或自由市场上市等方式完成的。后两者会推动市场价格下跌。
另一个主要因素是,一旦你离开训练/微调领域,推理领域充满了替代选择,特别是如果你运行的是较小的模型。
H100 用于训练的溢价已经计入硬件价格。例如,英伟达自己推荐 L40S,这是一个更具价格竞争力的推理替代品。
比 H100 拥有更多的内存和计算能力,并且在单个节点上的性能优于 H100。
缺点是什么?它们在训练中存在一些小的驱动问题,在大型多节点集群训练中完全未经验证。正如我们所讨论的,这对当前的格局来说基本上无关紧要。除了50 个团队之外。H100 的市场已经转向推理和单节点或小集群微调。
所有这些 GPU 都已被证明可以胜任这些工作。对于绝大多数市场所要求的用例来说。这两个竞争对手是完全的替代品。使用现成的推理代码(例如 VLLM)或最常见模型架构的微调代码(主要是 LLaMA3,其次是其他)。所以,如果你已经解决了兼容性问题。强烈推荐大家去看看。
ASIC 主导了比特币挖矿竞赛。加密货币挖矿中的 GPU 使用量一直呈下降趋势,并且在某些情况下无利可图。此后一直涌入 GPU 公有云市场。
尽管由于硬件限制(低 PCIe 带宽、网络等),绝大多数 GPU 无法用于训练,甚至无法用于推理。该硬件已经大量涌入市场,并已被重新用于人工智能推理工作负载。在大多数情况下,如果你的模型小于 10B,你可以用这些 GPU 获得不错的开箱即用性能,价格非常低。如果你进一步优化(通过各种技巧),你甚至可以让大型 405B 模型在这种硬件的小型集群上运行,比通常使用的 H100 节点更便宜
从较高水平来看,预计大型 GPU 集群仍会收取额外费用(=2.90 美元/小时),因为那些真正需要它的人别无选择。我们开始在 Voltage Park 看到这种趋势:
2.负面影响:新的公有云 H100 集群虽然推出,但已经落后于市场,可能无法盈利——一些投资者可能会遭受损失。
与其说是负面展望,不如说是中性展望,一些未使用计算资源的基础模型创建者上线的计算资源已经付费。融资市场已经为这个集群及其模型训练定价并支付了费用。并提取了它的价值,他们用于当前和下一轮融资。大多数这些购买是在计算资源转售商流行之前进行的,成本已经计入价格。
鉴于开放权重模型已经进入 GPT-4 级别的领域。H100 价格下降将成为开放权重 AI 采用的倍增解锁因素。
对于业余爱好者、AI 开发人员和工程师来说,运行、微调和修改这些开放模型将变得更加负担得起(特别是如果 GPT5++ 没有重大飞跃)。这是非常需要的,因为目前市场是不可持续的。因为在应用层面缺乏对付费用户的价值捕获(这会传递到平台、模型和基础设施层)由于付费用户缺乏应用程序层的价值捕获(这会渗透到平台、模型和基础设施层)