手机app最新版本下载

深度｜GPU泡沫破裂H100亏本出租AI新利体育app下载行业发生了什么？

发布时间：2024-10-26 23:10:38

　　H100 GPU 的租赁价格正在经历前所未有的下降，每年降幅达到或超过 40%。这一趋势尤其明显地体现在小型集群上。NVIDIA 曾预计在 4 年内保持每 GPU 每小时 4 美元的价格，但这一预测价格在短短 1.5 年内就已经达到。

　　开放权重模型的崛起正在引发 AI 市场的根本性转变。这些模型在性能上已经可以与闭源模型相媲美，同时提供了更高的灵活性和可控性。这一趋势正在重塑企业和开发者对 AI 模型的选择和使用方式。

　　小型和中型模型创建者市场正在经历显著萎缩，主要是因为微调现有模型比从头训练新模型更加经济实惠。这一变化导致了对 H100 GPU 需求的三重打击：减少了大规模训练的需求，降低了新模型创建的投资，并推动了更多企业转向微调现有模型。

　　H100 GPU 的价格正在快速商品化，甚至出现了以亏损价格出租的情况。这种趋势引发了业界对 GPU 投资回报率的担忧，同时也为 AI 开发者和研究人员提供了更经济的计算资源选择。

　　在过去的一年里，如果你有机会租到 H100，它的价格是一小时 8 美元。而现在，已经有 7 家零售市场以低于 2 美元每小时的价格销售它。发生什么了？

　　最近英伟达为 OpenAI 提供的最新 Blackwell 系列芯片引发了许多关注。该公司表示，未来一年的预售产品已经售罄。而黄仁勋宣称，该产品或可成为“工业史上最成功的产品”。随着 Lisa Su（ZP注：苏姿丰，AMD 公司董事长兼 CEO）紧随其后宣布为 MI3 25 X 和 Cerebras 申请 IPO 上市，是时候对 GPU 市场进行深入分析了。

　　我们对这个 6000 亿美元的问题有答案吗？现在人们一致认为，基础模型训练的资本支出是“历史上贬值最快的资产；但对 GPU 基础设施支出的评价尚未有定论，“GPU Rich Wars”激战正酣。与此同时，我们现在知道，前端实验室在“训练+推理”上的支出超过了收入，在有史以来最大的风险投资轮中融到了 66 亿美元，同时预计 2026 年将亏损 140 亿美元。其中的金融逻辑需要 AGI 来解析。

　　如果你能比其他人更快地提高 H100 的使用量，你也可以构建更大、更好的模型，甚至可能超越 OpenAI 成为 AGI——前提是你的有足够的资金支持它烧钱。出于这种愿望，百亿至千亿美元级别的资金被投资到拥有大量 GPU 的 AI 初创公司，以构建下一场革命。这导致的以下结果：

　　H100 需求突然激增，H100 最初的租金起价约为每小时 4.70 美元，但后来涨到了 8 美元以上。急于训练模型的创始人们只能说服投资者进行下一个 1 亿美元的融资轮新利体育app下载。

　　对于 GPU 供应商来说，如果这些创始人能以每小时 4.70 美元或更高的价格租用 H100 SXMGPU，甚至让他们预先付款，这简直就是在白送钱。投资回收期为 1.5 年，在这之后每个 GPU 每年的自由现金流超过 10 万美元。由于对 GPU 需求看不到尽头，投资者同意了，并进行了更大规模的投资。

　　与数字商品不同，H100 这样的实体商品存在滞后时间——特别是当出现多个环节运输延误时。在 2023 年的大部分时间里，除非支付巨额预付款，H100 的价格一直在每小时 4.70 美元之上。然而，2024 年初多家提供商的 H100 价格达到约 2.85 美元。

　　2024 年 8 月，如果你愿意拍卖买下一小部分 H100 时间（几天到几周），你可以开始以每小时 1 到 2 美元的价格寻找 H100 GPU。Eugene Cheah 预计每年价格下降 = 40% ，特别是对于小型集群。英伟达的营销预测是 4 年内每 GPU 小时 4 美元，但不到 1.5 年就达到了。这很可怕，因为这意味着有人可能会被迫承担后果——特别是如果他们刚刚购买了新的 GPU。

　　数据中心中的 H100 SXM GPU 的平均安装、维护和运营成本为 5 万美元或更多（也称为大部分资本支出）。不包括电力和冷却 OPEX 成本。我们现在假设 GPU 本身的使用寿命为 5 年。

　　对于上述投资回报率和收入预测，Eugene Cheah 引入了“混合价格”，去假设租金价格在 5 年内逐渐下降至 50%。鉴于我们现在看到的每年 = 40% 的价格下跌，这可以说是保守的估计。即使以 4.50 美元/小时的价格混合，我们也能看到英伟达数据中心提供商的宣传，他们在提供 20+% 的 IRR（内部回报率）。

　　然而，以 2.85 美元/小时计算，IRR 刚刚开始高于 10%。这意新利体育app下载味着，如果你今天购买一台新的 H100 ，并且市场价格低于 2.85 美元/小时，假设 100% 分配（这是一个不合理的假设），你几乎无法击败市场。任何低于这个价格的东西，作为投资，你最好选择股票市场，而不是 H100 基础设施公司。

　　如果价格低于 1.65 美元/小时，作为基础设施提供商，你在 5 年内注定会在 H100 上遭受损失。特别是如果你今年刚刚购买了节点和集群。

　　许多基础设施提供商，尤其是较老的基础设施提供商，对此早有准备。因为他们在加密货币时代经历了价格大幅上涨之后，直接面临 GPU 租金价格的大幅下跌——他们以前见过这个周期。

　　因此，在去年的这个周期中，他们大力推动 3-5 年的预付款承诺和/或以 4 美元以上的价格范围付款（通常预付 50% 到 100%）。如今，他们将价格范围推高至 2.85 美元以上来锁定利润。

　　这种情况在 2023 年人工智能高峰期间发生，各种基础模型公司，特别是在图像生成领域，间接被迫签订高价的 3-5 年合同，只是为了进入新集群的前沿，并成为第一个制作目标模型的人，以帮助完成下一轮融资。这可能不是最经济的举措，但它让他们比竞争对手更快地行动。

　　然而，这导致了一些有趣的市场动态——如果你为 H100 支付每小时 3 或 4 美元的费用，那么在接下来的 3 年里，你将被合同套牢。当模型创建者完成模型训练后，你就不再使用集群了。他们会做什么？他们转售并开始收回部分成本。

　　数据中心基础设施提供商和合作伙伴（出售长期预订、设施空间和/或 H100 节点）

　　风险投资基金、大型公司和初创公司：计划构建基础模型（或已经完成模型构建）

　　虽然堆栈中的任何一层都可以垂直整合（例如跳过基础设施），但这里的关键驱动因素是“未使用容量的经销商”以及“足够好”开放权重模型（如 Llama3）的兴起，因为它们都是当前 H100 经济压力的主要影响因素。

　　因为许多“开放”模型缺乏适当的“开源”许可证，但可以自由分发，并广泛使用，甚至商业化。我们在这里将它们统称为“开放权重”或“开放”模型。

　　一般来说，随着不同规模的多个开放权重模型的建立，对推理和微调的需求也在增长。这主要是由两个重大事件推动的

　　GPT4 级开放模型的到来（例如 405B LLaMA3、DeepSeek-v2）

　　如今，对于企业可能需要的绝大多数用例，已经有现成的开放权重模型。在某些基准测试中新利体育app下载，这可能比专有模型落后一小步。具有以下优势：

　　可靠性：不再有较小的模型更新，破坏用例（目前社区信任度较低，认为模型权重不会在没有公共 API 端点通知的情况下悄悄更改，从而导致无法解释的回归）

　　所有这些导致了开放模型的持续增长和采用，以及对推理和微调需求的增长。但这确实造成了另一个问题。

　　我们使用模型创建者统称从头开始创建模型的组织。对于微调者，我们称之为模型微调者。

　　许多企业和多个小型和中型基础模型创建者初创公司 - 特别是那些以更小、专门针对特定领域的模型为宣传点筹集资金的公司 - 都是没有长期计划/目标从头训练大型基础模型（= 70B）的群体。

　　对于这两个群体，他们都意识到微调现有的开放权重模型比自行训练更经济、更有效。这最终造成了 H100 需求减少的三重打击。

　　a.因为与从头开始训练（对于 7B 及以上模型，从 16 个节点，通常更多）相比，微调的计算要求显着减少（通常为 4 个节点或更少，通常为单个节点）。

　　a.2023 年，在文本和图像空间内，出现了一股中小型基础模型的巨大浪潮。

　　b.然而，今天，除非你绝对有信心能够超越 llama3，或者你要带来一些新的东西（例如新架构、低 100 倍的推理、100 多种语言等），否则〜不会再建立更多的基础模型从头开始。

　　c.一般来说，由较大参与者（Facebook 等）创建的中小型开放模型，使得较小参与者很难证明训练基础模型的合理性。除非他们有强大的差异化因素（技术或数据），或者有计划扩展到更大的模型。

　　d.最近投资者也反映了这一点，因为新基础模型创建者的资金急剧下降。绝大多数较小的团体已转向微调（这种情绪与近期多家公司的退出情况不甚理想相结合）。

　　▪20 大型模型创建团队（又名 70B++，也可以创建小型模型）

　　f.总共全球不到50 个团队会在任何时候需要 16 个节点的 H100（或更多）来进行基础模型训练。

　　a.对于集群所有者来说，尤其是各种基金会模式的初创公司和 VC，在 2023 年的最初“新利体育app下载抢地”中，早有保留。

　　b.切换到微调后，H100 的等待时间非常长（峰值为 = 6 个月），很可能这些团体中的许多人在进行更改之前就已经支付了预付款，从本质上来说，他们的预付费硬件“一到就过时”。

　　c.或者，那些按时到达硬件来训练他们的前几个模型的人也意识到，最好对他们的下一个模型迭代进行微调。而不是自己建设。

　　d.在这两种情况下，他们都会有未使用的容量，这些容量通过“计算经销商”加入市场供应而上线。

　　所有主要的模型创建者，如 Facebook、X.AI，以及可以说 OpenAI（如果将其算作微软的一部分），都正在离开现有的公共提供商，建立自己的数十亿美元集群，减少了现有集群所依赖的需求。此举主要出于以下原因：

　　现有的约 1000 个节点集群（建设成本5000 万美元）对他们来说已经不够大，无法训练更大的模型。

　　在十亿美元的规模上，会计人员最好购买具有账面价值（公司估值和资产的一部分）的资产（服务器、土地等），而不是纯粹的费用租赁。

　　如果你没有人才（他们有），你可以直接购买小型数据中心公司，他们拥有为你构建数据中心的专业知识。

　　2.未使用/延迟供应上线的大规模出货延迟，长达 6 个月或更长时间吗？它们现在与 H200、B200 等一起上线。这与前面提到的现有初创公司、企业或风司的各种未使用计算资源一起上线。其中大部分是通过计算经销商完成的，例如：新利体育app下载together.ai、sfcompute、runpod、vast.ai 等。

　　在大多数情况下，集群所有者拥有一个未得到充分利用的小型或中型集群（通常为 8-64 个节点）。集群的资金已经花出去了。由于主要目标是收回尽可能多的成本，他们宁愿削弱市场并保证分配，而不是与主要提供商竞争，并且可能没有分配。这通常是通过固定利率、拍卖系统或自由市场上市等方式完成的。后两者会推动市场价格下跌。

　　另一个主要因素是，一旦你离开训练/微调领域，推理领域充满了替代选择，特别是如果你运行的是较小的模型。

　　H100 用于训练的溢价已经计入硬件价格。例如，英伟达自己推荐 L40S，这是一个更具价格竞争力的推理替代品。

　　比 H100 拥有更多的内存和计算能力，并且在单个节点上的性能优于 H100。

　　缺点是什么？它们在训练中存在一些小的驱动问题，在大型多节点集群训练中完全未经验证。正如我们所讨论的，这对当前的格局来说基本上无关紧要。除了50 个团队之外。H100 的市场已经转向推理和单节点或小集群微调。

　　所有这些 GPU 都已被证明可以胜任这些工作。对于绝大多数市场所要求的用例来说。这两个竞争对手是完全的替代品。使用现成的推理代码（例如 VLLM）或最常见模型架构的微调代码（主要是 LLaMA3，其次是其他）。所以，如果你已经解决了兼容性问题。强烈推荐大家去看看。

　　ASIC 主导了比特币挖矿竞赛。加密货币挖矿中的 GPU 使用量一直呈下降趋势，并且在某些情况下无利可图。此后一直涌入 GPU 公有云市场。

　　尽管由于硬件限制（低 PCIe 带宽、网络等），绝大多数 GPU 无法用于训练，甚至无法用于推理。该硬件已经大量涌入市场，并已被重新用于人工智能推理工作负载。在大多数情况下，如果你的模型小于 10B，你可以用这些 GPU 获得不错的开箱即用性能，价格非常低。如果你进一步优化（通过各种技巧），你甚至可以让大型 405B 模型在这种硬件的小型集群上运行，比通常使用的 H100 节点更便宜

　　从较高水平来看，预计大型 GPU 集群仍会收取额外费用（=2.90 美元/小时），因为那些真正需要它的人别无选择。我们开始在 Voltage Park 看到这种趋势：

　　2.负面影响：新的公有云 H100 集群虽然推出，但已经落后于市场，可能无法盈利——一些投资者可能会遭受损失。

　　与其说是负面展望，不如说是中性展望，一些未使用计算资源的基础模型创建者上线的计算资源已经付费。融资市场已经为这个集群及其模型训练定价并支付了费用。并提取了它的价值，他们用于当前和下一轮融资。大多数这些购买是在计算资源转售商流行之前进行的，成本已经计入价格。

　　鉴于开放权重模型已经进入 GPT-4 级别的领域。H100 价格下降将成为开放权重 AI 采用的倍增解锁因素。

　　对于业余爱好者、AI 开发人员和工程师来说，运行、微调和修改这些开放模型将变得更加负担得起（特别是如果 GPT5++ 没有重大飞跃）。这是非常需要的，因为目前市场是不可持续的。因为在应用层面缺乏对付费用户的价值捕获（这会传递到平台、模型和基础设施层）由于付费用户缺乏应用程序层的价值捕获（这会渗透到平台、模型和基础设施层）

上一篇：新利体育企业活力增强、市场需求回升多个先行指标呈现回升向好态势

下一篇：新利体育app下载行业动态丨程瑜：中国特色安宁疗护体系构建的思考与实践

友情链接 :

联系我们

0898-08980898

联系人：张三传真：000-000000000
客服QQ：123456789 邮箱：admin@fykltj.com
地址：江西省南昌市

TOP