AI Chip Supply Chain · 总览 · 2026E · Morgan Stanley Supply Chain Data
AI 算力供应链全景:GPU 主导训练,自研 ASIC 加速切入推理,台积电确定性最强
数据来源:Morgan Stanley 供应链追踪(2026.01)· 各公司公告
英伟达 CoWoS 占比 60% ASIC 阵营(博通)占比 20%,最大边际增量 台积电 2026E CoWoS 总需求 146 万片 全部芯片依赖 HBM + CoWoS 封装
01 · 供给分散化
Google 除外,主要模型厂商均在分散芯片来源
  • xAI、Meta 仍高度依赖英伟达 GPU,ASIC 自研处于早期或搁置
  • OpenAI、Anthropic 训练端英伟达主导,推理端引入 AMD / TPU / 自研 ASIC
  • Anthropic 最新轮融资引入 Nvidia 作为供应商兼股东,供应链完成四方闭环
  • Google 是唯一完全自研路线(TPU),且对外输出成为三大模型厂算力来源
02 · 自研 ASIC 是大趋势
博通 / 联发科交替承接 Google TPU,Marvell / Alchip 做 AWS
  • 博通:Google TPU v7(Sunfish)、Meta MTIA、OpenAI Nexus 均为其设计,2026E ASIC CoWoS 占比 20%
  • 联发科(MediaTek):Google TPU v8(Zebrafish,3nm)设计方,与博通交替承接 TPU 代际——Google 采用双供应商策略(v7 博通 → v8 联发科 → v9 博通 → v10 联发科),2026E 出货 40 万颗,2027E 有望 250 万颗
  • Marvell:AWS Trainium 2.5 设计合作方;Alchip:Trainium 3(3nm)主设计,2026 Q2 量产;另承接 Groq 等美国新锐客户 ASIC 项目
  • 整体格局:训练端 CUDA 生态壁垒仍在,ASIC 突破口集中在推理端 TCO 优化;各家进度分化明显,Google / AWS 进展领先,Meta / Microsoft 相对滞后
03 · 台积电:确定性最强的底层卖水人
GPU 还是 ASIC 路线博弈,最终都走台积电产线
  • 2026E 全球 CoWoS 总需求 146 万片晶圆,台积电占约 83%,Amkor/ASE 补充约 40 万片/月
  • 英伟达 + 博通合计占台积电 CoWoS 近 80%,产能极度集中
  • 全部主力 AI GPU / ASIC 均集成 HBM3e 或 HBM4,SK Hynix / Samsung / Micron 三方垄断供应
  • CoWoS 封装已引入 Amkor/ASE 作为第二供应商缓解;产业链其他材料环节如 HBM、T-Glass/ABF 基板、台积电 3nm 产能则相对紧缺,值得持续跟踪
60%
英伟达占台积电 CoWoS 份额
博通 20% · AMD 8% · 其余 12%
1A · 芯片与制造链
终端客户 芯片 / 项目 类型 设计方 制程 代工厂 封装
英伟达 Blackwell B300 GPU 英伟达4nm台积电CoWoS-L
Rubin R200 GPU 英伟达3nm台积电CoWoS-L
Feynman(下代) GPU 英伟达2nm台积电CoWoS-L
Google
博通/联发科交替
TPU v7 Ironwood ASIC 博通3nm台积电CoWoS-S
TPU v8 Zebrafish ASIC 联发科3nm台积电CoWoS-S
TPU v9 Pumafish ASIC 博通2nm台积电CoWoS-S
AWS Trainium 2.5 ASIC Marvell5nm台积电CoWoS-R
Trainium 3 ASIC Alchip3nm台积电CoWoS-R
Trainium 4 ASIC Alchip2nm台积电CoWoS-R
Meta MTIA 400 Iris(v3) ASIC 博通 / MediaTek3nm台积电CoWoS-L
Olympus(训练) ASIC 博通2nm台积电3D SoIC
OpenAI Nexus / Titan Gen 1 ASIC 博通3nm台积电CoWoS-S
Titan 2 ASIC 博通A16台积电CoWoS
Microsoft Maia 200 ASIC Microsoft 内部3nm台积电CoWoS-S
Maia 300 ASIC Microsoft 内部2nm台积电CoWoS-S
xAI 定制 ASIC ASIC GUC(创意电子)4nm台积电CoWoS-S
AMD MI350/375 GPU AMD3nm台积电CoWoS-L
MI400 GPU AMD2nm台积电CoWoS-L
1B · 存储与进度
芯片 HBM 规格 HBM 供应商 量产状态
Blackwell B300HBM3e 12hiSK Hynix(主)量产中
Rubin R200HBM4SK Hynix / 三星2026 H2
Feynman(下代)HBM4E2027+(预测)
TPU v7 IronwoodHBM3eSK Hynix / 三星量产中
TPU v8 ZebrafishHBM3e 6颗×36GBSK Hynix2026 量产
TPU v9 PumafishHBM42028(预测)
Trainium 2.5HBM3e三星(主)量产中
Trainium 3HBM3e三星 / SK Hynix2026 Q2 量产
Trainium 4HBM4tape-out 2026 · 量产 2H27
MTIA 400 IrisHBM3e三星 / SK Hynix2026 部署中
Olympus(训练)HBM4高度不确定
Nexus / Titan Gen 1HBM4三星(独供)2026 Q3 量产
Titan 2HBM4三星2027+(预测)
Maia 200HBM3三星2026 Azure 部署
Maia 300HBM4三星2027(预测)
xAI 定制 ASICHBM3e三星小量 2026
MI350/375HBM3eSK Hynix / Micron量产中
MI400HBM4SK Hynix / 三星2026 H2
客户 / 阵营 代表芯片 2026E CoWoS(千片) 2026E 隐含出货量 份额 战略意义
英伟达 B300 / Rubin R200 875 B300 ~546万颗 · Rubin ~208万颗 绝对主导;CoWoS-L 复杂封装为主
博通(ASIC 阵营) TPU v7 Sunfish · Meta MTIA · OpenAI Nexus 290 TPU v7 ~96万颗 · MTIA ~50万颗 · OpenAI ~13万颗 最大边际增量;ASIC 浪潮直接受益方
AMD MI350/375 / MI400 110 MI350/375 ~84万颗 · MI400 ~65万颗 英伟达第二供应选择
AWS / Annapurna Trainium 2.5 50 ~32万颗 AWS 自研 Trainium 系列,CoWoS-R 为主
Marvell AWS Trainium 2.5 设计 37 ~37万颗(含 ASE 外包产能) AWS 合作,CoWoS-L/R 混合
联发科(MediaTek) TPU v8 Zebrafish(3nm) 30 2026E ~40万颗 · 2027E ~250万颗 Google TPU v8 Zebrafish(3nm);与博通交替承接各代 TPU,2027E 出货量(250 万颗)取决于 T-Glass/ABF 基板供给
AWS / Alchip Trainium 3(3nm) 30 ~136万颗(17片/晶圆) 2026 Q2 量产收入;Trainium 4(2nm)2H27 量产
GUC(创意电子) xAI 定制 ASIC(4nm) 14 ~20万颗 xAI 等特定客户定制需求
Xilinx / 其他 边缘 AI 等 25 长尾定制需求
合计 含台积电 + Amkor/ASE 非台积电产能 1,461 2026E 全球 CoWoS 需求同比 +112%
注:台积电约占全球 CoWoS 产能 83%(125 万片/月),Amkor/ASE 补充约 40 万片/月。2026 真正瓶颈为 HBM 供给、T-Glass/ABF 基板与台积电 3nm 产能,CoWoS 本身已有第二供应商缓解。Google 对 TPU 设计采用双供应商策略:博通(v7 Sunfish → v9 Pumafish)与联发科(v8 Zebrafish → v10 Humufish)交替承接,两者并非竞争关系,而是 Google 降低单一供应商依赖的配置。
Chip Supply Analysis · xAI · March 2026
xAI 算力全面绑定英伟达生态,SpaceX 合并后三方联研自研芯片,远期 Terafab 垂直整合
Nvidia H100 → GB200 → Rubin · Tesla AI5/AI6(TSMC + 三星双代工)· Terafab — 截至 2026 年 3 月
Nvidia H100 → GB200 → Rubin Colossus 现有 55.5万颗 · 目标 100万颗 Tesla AI5(xAI+Tesla+SpaceX 联研) Terafab $200–250亿 · 垂直整合
01 · 短期 · 完全依赖英伟达生态
训练、推理、组网全部绑定英伟达
  • Colossus 2024 年 10 万颗 H100 起步,122 天建成,创行业纪录
  • 2026 年 1 月扩至 55.5 万颗(H100/H200/GB200 混合),总功率 2GW
  • 终极目标 100 万颗 GPU,下阶段引入 Rubin 架构
  • 组网采用 Spectrum-X 以太网,替代 InfiniBand 降低互联成本
02 · 中期 · xAI + Tesla + SpaceX 三方联研
Tesla AI5/AI6:TSMC 3nm + 三星 Taylor 2nm 双代工
  • SpaceX 收购 xAI 后三方算力需求合并,共同驱动 Tesla AI5 研发
  • TSMC 3nm + 三星 Taylor 德州厂 2nm 双线生产,软件保持一致
  • 三星获 $165 亿 AI6 长期合同(2025–2033)
  • AI5 2026 年小批量2027 年规模量产,用于 FSD / Optimus / xAI 推理
03 · 长期 · Terafab 彻底垂直整合
$200–250 亿建芯片厂,目标 1 拍瓦年算力
  • 2026 年 3 月 21 日宣布,Tesla + SpaceX + xAI 合建,选址德州 Giga Texas
  • 目标 2nm 工艺,覆盖设计→光刻→封装→测试全流程
  • 80% 产能供轨道太空数据中心(太阳能 + 真空散热)
  • 全面量产预计 2029–2031 年,Morgan Stanley 估真实成本 $350–450 亿
$20–25B
Terafab 预算 · 2nm · 1 拍瓦/年
Phase 1 · 初创融资与 H100 大规模订购(2023)
2023年3月
xAI 成立,Series A 融资 $134M
马斯克联合前 DeepMind、OpenAI 研究员创立 xAI,发布 Grok 1 早期模型;算力初期依托租用 GPU,开始向英伟达大规模订购 H100。
$134MNvidia H100 开始订购
2023年5月—12月
Series B $500M,估值达 $18B,H100 集群加速采购
年内完成多轮融资,估值从初创迅速跃升至 $18B;Grok 1 发布后用户快速增长,驱动英伟达 H100 采购量持续扩大,Colossus 集群规划成型。
Series B $500M估值 $18BH100 集群加速采购
Phase 2 · Colossus I 建成,融资加速(2024)
2024年5月
Series B 扩展轮 $6B,估值 $24B
获得包括 Sequoia Capital、阿拉伯主权基金在内的大规模融资;资金主要用于采购英伟达 GPU 与建设孟菲斯超算集群,为 Colossus I 全速推进奠定财务基础。
$6B 融资估值 $24B
2024年Q3
Colossus I 建成:10 万颗 H100,仅用 122 天
孟菲斯超算集群以创纪录速度建成,初始配备 10 万块 H100 GPU,后扩展至约 20 万块(H100/H200/GB200)。当地电网无法及时扩容,紧急调配 20 台移动燃气发电机保障供电;Grok 3 模型在此集群完成训练。
H100 ×10万(初期)Colossus I 建成122天创纪录
2024年10月
估值近 $30B,规划 $50B 巨额融资
xAI 公开披露新一轮融资计划,目标规模 $50B,意在锁定 Colossus II 全阶段建设所需 GPU 采购资金及后续算力运营成本。
估值 $30B$50B 融资规划
Phase 3 · GB200 大规模部署,自研芯片启动(2025)
2025年初
完成 $6B 融资,估值 $40B+;Colossus 扩至 20 万颗
Colossus I 完整集群共 20 万块 GPU(H100/H200/GB200)全部激活,总功率达 300MW;Spectrum-X 以太网互联全面替代 InfiniBand,降低大规模集群组网成本。
$6B 融资估值 $40B+Colossus 300MWSpectrum-X 组网
2025年Q2—Q3
Colossus II 启动,11 万颗 GB200 NVL72 已部署
GB200 相较 H100 训练性能提升 4×、推理性能提升 30×;截至 2025 年 8 月已部署 11 万颗,MACROHARDR 厂房规划中,最终目标超 55 万颗。
GB200 NVL72 ×11万Colossus II Phase 1
2025年Q4
x1 自研芯片项目正式启动;完成 $10B 融资,估值 $200B+
内部芯片团队组建,x1 定位为降低对英伟达长期依赖的核心武器,目标 2026 年量产;同轮融资由沙特阿美、科威特主权基金等中东资本主导,估值大幅跳升至 $200B 以上。
$10B 融资估值 $200B+x1 项目启动
Phase 4 · SpaceX 合并,太空算力新纪元(2026)
2026年1月
完成 $20B 融资,估值 $500B;老黄入股
黄仁勋(Jensen Huang)以个人名义参与本轮融资,进一步强化英伟达与 xAI 的战略绑定;融资所得资金主要用于 Colossus II 剩余 44 万颗 GB200 的采购与部署。
$20B 融资估值 $500B黄仁勋个人入股
2026年2月
SpaceX 以约 $250B 收购 xAI,打造"太空AI"超级实体
马斯克旗下两大公司合并,xAI 获得 SpaceX 卫星网络与火箭运载能力;规划依托太阳能供电与真空散热的太空数据中心,试图从根本上重构 AI 算力的能源与散热范式,彻底摆脱地面电力瓶颈。
SpaceX 收购 $250B太空数据中心太阳能供电
Phase 5 · Tesla AI5/AI6 联研量产,Rubin 扩容(2026–2027)
2026年下半年
Tesla AI5 小批量落地:TSMC 3nm + 三星 Taylor 2nm 双线代工
SpaceX 收购 xAI 后,xAI 算力需求并入 Tesla AI5 研发路线图,三方(xAI + Tesla + SpaceX)联合驱动芯片迭代。AI5 由 TSMC 3nm 与三星 Taylor 德州厂 2nm 双线生产,三星已获 $165 亿 AI6 长期合同(截至 2033 年)。AI5 相较 HW4 算力提升 40×,小批量样品 2026 年落地,主要用于 Tesla FSD、Optimus 机器人与 xAI Grok 推理场景。
Tesla AI5 小批量TSMC 3nm + 三星 2nm三星 $165亿 AI6 合同
2026–2027年
Colossus 向 100 万颗扩容,引入 Rubin 架构
当前 55.5 万颗(Blackwell GB200/GB300 为主)为阶段性里程碑,非最终规模。下一扩容阶段将主要采用英伟达 Vera Rubin NVL72 架构——Rubin 相较 Blackwell 能效与内存带宽大幅提升,是 Colossus 迈向 100 万颗目标的核心硬件。AI5 量产后将与 Rubin GPU 混合部署,承担推理负载分流。
Rubin NVL72 导入目标 100万颗 GPUAI5 推理分流
2027年
Tesla AI5 规模量产;AI6(性能 2×)启动生产
三星 Taylor 德州厂 2nm 全速量产 AI5,同年 AI6 进入生产(同一代工厂,性能约 AI5 的 2 倍)。xAI 借助 Tesla/SpaceX 的芯片量产能力,推理端逐步从英伟达 GPU 迁移至自研芯片,对 Nvidia CUDA 生态的依赖开始系统性下降。
AI5 规模量产AI6 启产(2× AI5)推理端自研迁移启动
Phase 6 · Terafab 彻底垂直整合(2026宣布 · 2029–2031量产)
2026年3月21日
Terafab 正式宣布:$200–250亿,Tesla+SpaceX+xAI 合建
马斯克在奥斯汀亮相宣布,Terafab 选址德州 Giga Texas 北区,目标 2nm 工艺,覆盖芯片设计→光刻→封装→测试全流程垂直整合。年产能目标 1 拍瓦算力、100–200 亿颗芯片,初期 10 万片晶圆/月、远期 100 万片/月(相当于台积电当前全球总产能 70%)。Morgan Stanley 估真实成本 $350–450 亿。
Terafab $200–250亿2nm 工艺1 拍瓦/年目标
2029–2031年(预测)
Terafab 全面量产:80% 产能供轨道太空数据中心
全面建成后,80% 芯片产能将供给 SpaceX 轨道 AI 卫星数据中心——利用太空五倍于地面的太阳辐照与真空散热,从根本上解决地面数据中心的电力与散热瓶颈;剩余 20% 供 Tesla FSD/Optimus 与 xAI 地面推理。届时 xAI/Tesla/SpaceX 三方彻底摆脱对外部代工厂的依赖。
80% 供轨道数据中心太阳能 + 真空散热完全垂直整合(预测)
Chip Supply Analysis · OpenAI · April 2026
OpenAI 训练端英伟达 GPU 通过微软、Oracle、AWS 三云部署;推理端向 GCP、AMD、Cerebras 分散;自研 Titan ASIC 博通 CoWoS 封装、三星独供 HBM4
Nvidia via Azure / Oracle Stargate / AWS · AMD 6GW · GCP TPU · Cerebras · Titan(博通 CoWoS · 三星 HBM4)— 截至 2026 年 4 月
Oracle Stargate Abilene 45万颗 GB200 AMD MI450 6GW · $90B Titan ASIC(博通CoWoS · 三星HBM4) 月收入 $2B · 估值 $852B(2026.03.31)
01 · 训练端:英伟达 GPU 三云部署
微软 Azure + Oracle Stargate + AWS 并行
  • 微软 Azure:$250B 合同,现有最大合作方,API 与产品独家云
  • Oracle Stargate Abilene:$300B/5年,德州园区已部署 45 万颗 GB200,全球最大单址训练集群之一
  • AWS:$38B/7年,数十万颗 GB200/GB300,2026 年满载
  • CoreWeave:$22.4B 独立算力合同补充弹性容量
02 · 推理端:分散供应降本
GCP TPU + AMD MI450 + Cerebras CS-3
  • GCP TPU:2025 年 6 月小规模租用,作为推理算力补充
  • AMD MI450:6GW/$90B,2026 H2 首批 1GW,AMD 发行认股权证深度绑定
  • Cerebras CS-3:推理速度 GPU 30–50%+$10B+ 订单,2028 年前 750MW
  • 2026 年 2 月首次发布 非英伟达芯片推理模型
03 · 自研芯片:Titan ASIC
博通 CoWoS 封装 + 三星 HBM4 独供
  • Titan Gen 1:台积电 3nm,博通 ASIC 设计并协调 CoWoS 先进封装产能
  • 三星独家供应 HBM4,2026 年 Q3 量产
  • Titan 2:台积电 A16 工艺,进一步提升能效
  • 核心目标:将推理成本从 GPU 水平系统性压缩
$2B/月
年化收入 ~$24B · 估值 $852B
最新融资 $122B(2026.03.31 close)
Phase 1 · 微软深度绑定,纯英伟达依赖(2019–2022)
2019年7月
微软首投 $1B,OpenAI 获 Azure 算力访问权
微软以"投资换算力协议"的模式首次入局,OpenAI 获得 Azure 上大规模 Nvidia GPU 集群的优先访问权;这一捆绑模式此后成为 AI 行业标准范式。
微软 $1BAzure Nvidia GPU
2020—2021年
GPT-3 发布;微软追加 $2B,A100 集群大规模使用
GPT-3 采用 V100/A100 完成训练,175B 参数量确立大模型时代;微软追加投资至 $3B,A100 集群成为 OpenAI 训练主力,CUDA 生态全面锁定。
微软追加 $2BA100 主力训练
2022—2023年初
GPT-4 训练:2.5 万颗 A100 GPU
GPT-4 单次训练投入 2.5 万块 A100 GPU,确立英伟达为核心训练供应商;算力规模符合大模型年增 4× 的 scaling 定律预期。
A100 ×2.5万(训练)
Phase 2 · ChatGPT 爆发,多轮融资加速(2023)
2023年1月
微软 $10B 超级融资,Azure 独家云协议确立
微软累计承诺 $13B+,获得 49% 利润分成权与 Azure 独家云算力合作协议;OpenAI 估值跃升至 $29B,算力需求进入爆发式增长阶段。
微软 $10B估值 $29BAzure H100 主力
2023年Q1—Q4
ChatGPT 月活破亿,ARR 突破 $1B;H100 大量采购
ChatGPT 成为史上增长最快的消费级应用;H100 供不应求阶段 OpenAI 优先获得大量配额,推理集群快速扩张,ARR 全年突破 $1B。
ARR $1BH100 大规模采购
Phase 3 · 多元化布局起步,推理端分拆(2024)
2024年Q3
融资 $6.6B,估值 $157B;GPT-5 训练启动
Thrive Capital 领投,a16z、Khosla Ventures 等参与;GPT-5 训练预计投入 5–10 万块 H100,算力需求创新高;同年 ARR 突破 $4B,增速超预期。
$6.6B 融资估值 $157BH100 ×5–10万(GPT-5训练)
2024年Q4
放弃 $7 万亿芯片代工计划,转向博通 ASIC 合作
与阿联酋 G42 等合作的超大规模芯片代工计划因融资与地缘问题搁浅;转而与博通深度合作开发 Orion 推理 ASIC,聚焦降低推理端成本与延迟,自研路线从宏大愿景落地为务实方案。
放弃 $7T 代工计划博通 Orion ASIC 启动
Phase 4 · 哑铃架构确立,推理端五路并行(2025)
2025年5月
正式接入谷歌 TPU 推理算力
OpenAI 开始租用谷歌 TPU 用于轻量化模型推理,TPU 推理能效是 GPU 的 2 倍以上,训练成本仅为英伟达方案的 20%;与英伟达千亿美元级合作协议因推理性能分歧陷入停滞。
谷歌 TPU 接入推理英伟达合作协议停滞
2025年10月
与 AMD 签署 6GW 采购协议;Oracle Stargate Abilene 投入训练
AMD MI450 6GW($90B)协议落地,AMD 发行认股权证深度绑定;同期 Oracle Stargate 德州 Abilene 园区前两栋楼上线,45 万颗 GB200 开始用于 GPT 系列训练,Azure 独家云协议同步解除,OpenAI 正式进入多云时代。
AMD MI450 6GW / $90BOracle Stargate 上线Azure 独家协议解除
2025年11月
AWS $38B 七年合同签订;SoftBank $41B 入股
AWS 成为第三条算力轨道,数十万颗 GB200/GB300,2026 年满载;SoftBank 完成 $41B 投资获约 11% 股权;CoreWeave $22.4B 独立合同同期确认,OpenAI 算力版图全面扩张。
AWS $38B / 7年SoftBank $41BCoreWeave $22.4B
2025年Q4
Cerebras $10B+ 大单落地;ARR 突破 $16B;月收入接近 $1.5B
Cerebras CS-3 推理速度 GPU 30–50%+,2028 年前完成 750MW 部署;算力规模突破 2GW;ARR 全年从 $4B 飞速增长至 $16B,增速持续超市场预期。
Cerebras CS-3 $10B+算力 2GW+ARR ~$16B
Phase 5 · 自研芯片量产 + 史上最大融资(2026)
2026年2月
首次发布基于非英伟达芯片的推理模型;月收入达 $2B
GPT-5.3-Codex-Spark 等轻量模型由 Cerebras CS-3 驱动上线,标志脱离英伟达推理依赖的第一步;同期月收入已达 $2B(年化 $24B),900M+ 周活用户,企业收入占比突破 40%。
Cerebras 推理模型上线月收入 $2B · 年化 $24B
2026年3月31日
融资 $122B,估值 $852B:史上最大私募融资
Amazon $50B(含 $35B AGI/IPO 条件触发)、Nvidia $30B、SoftBank $30B、微软继续参与;首次向散户开放银行渠道,募得 $3B。Amazon 投资附带 2GW Trainium 算力承诺,进一步拓宽算力来源。计划 2026 年 IPO。
$122B 融资估值 $852BAmazon 2GW Trainium
2026年Q3
Titan Gen 1 量产:台积电 3nm + 博通 CoWoS + 三星 HBM4
首代自研推理 ASIC 正式量产,三星独家供应 HBM4;推理专用芯片与英伟达通用训练 GPU 并存架构成型,推理成本系统性下降。
Titan Gen 1 量产博通 CoWoS 封装三星 HBM4 独供
2027—2028年(预测)
Titan 2(A16工艺)量产;Cerebras 750MW 全部署
Titan 2 采用台积电 A16 工艺;Cerebras 2028 年前完成 750MW 全部署。整体算力开支目标为 2026–2030 年合计 $600B(已从此前宣称的 $1.4T 下调,2026 年 2 月向投资者重新披露),与 $280B 年收入目标挂钩,不再做开放性扩张承诺。
Titan 2(A16)Cerebras 750MW算力开支目标 $600B(2026–2030)
Chip Supply Analysis · Meta · March 2026
Meta 从英伟达生态向外分散,MTIA 四代芯片专攻推理降本,Avocado 闭源旗舰模型在 Blackwell 集群上训练
Nvidia Blackwell/Rubin · AMD MI450 6GW · MTIA 300/400/450/500(博通设计 · 台积电代工)· Google TPU — 截至 2026 年 3 月
Nvidia Blackwell/Rubin 持续采购 AMD MI450 6GW ≈$1000亿 MTIA 300/400/450/500(3月11日发布) Capex 2025A $70–72B · 2026E $115–135B
01 · 训练端:从英伟达生态向外分散
Nvidia 仍是训练主力,AMD + Google TPU 快速补充
  • 英伟达 Blackwell/Rubin:CUDA 生态不可替代,承担所有旗舰模型训练,同期签署多年多代采购协议
  • AMD MI450 6GW(约 $1000 亿),联合定制 + 认股权证深度绑定,2026 H2 发货首批 1GW
  • Google TPU:2026 年初签约,补充训练端弹性容量
  • 2025 Capex $70–72B(+70% YoY);2026E $115–135B,CFO 明确表示「notably larger」
02 · MTIA:四代芯片专攻推理,每六个月迭代
3月11日官方发布路线图;主战场是 GenAI 推理而非大模型训练
  • MTIA 300:已量产,主攻 R&R 训练,2026E 出货约 40–50 万颗
  • MTIA 400(Iris):3nm CoWoS-L,完成实验室测试,部署中;72 芯片机架(类 NVL72),「与头部商业产品性能持平」,2026E 出货约 80 万颗
  • MTIA 450(Arke):2027 年初量产;MTIA 500(Astrid):其后约六个月;两者主攻 GenAI 推理(图像/视频生成等)
  • 300→500 全系算力提升 25×,HBM 带宽提升 4.5×;定位推理专用,不用于大模型训练
03 · 模型进展:Llama 4 争议后,Avocado 闭源转型
Meta Superintelligence Labs 主导下一代旗舰,在 Blackwell 集群训练
  • Llama 4(Scout/Maverick)开源,Behemoth 旗舰持续推迟,基准测试争议引发战略重构
  • Avocado(Llama 5):闭源,预训练 2026 年 1 月完成,目标对标 GPT-5/Gemini 3;发布延至 5–6 月(内测落后竞品)
  • Mango:图像 + 视频生成专项模型,与 Avocado 同期推进
  • 两者均在 英伟达 Blackwell 集群训练;Alexandr Wang(Scale AI)领衔 Meta Superintelligence Labs
$115–135B
Meta 2026E Capex(分析师估算)
2025A $70–72B · 全球 AI 资本支出最高之一
Phase 1 · Llama 开源立势,GPU 大规模建仓(2023–2024)
2023年上半年
Llama 1/2 开源发布;H100 大量建仓
以「开源换生态」战略对抗 OpenAI 闭源路线,开发者社区迅速壮大。训练全依赖 A100/H100 集群,同年宣布采购约 35 万颗 H100。MTIA v1 同期推出,面向 Facebook/Instagram 推荐系统推理验证。
Llama 1/2 开源H100 ×35万建仓MTIA v1 推出
2024年中
Llama 3 / 405B 发布;MTIA v2 量产;GPU 持仓大幅扩张
Llama 3(8B/70B/405B)发布,405B 旗舰创 Meta 训练规模纪录;MTIA v2 进入量产,承接更多 R&R 推理工作负载。Meta 全年 Capex 超预期,GPU 实际持仓规模远超外界公开估计,Blackwell 订单同步锁定。
Llama 3 / 405BMTIA v2 量产Blackwell 订单锁定
Phase 2 · Llama 4 争议 + Olympus 收缩,策略重构(2025)
2025年上半年
Llama 4(Scout/Maverick)发布;Behemoth 延迟;Olympus 路线收缩
Llama 4 Scout/Maverick 开源发布,但 Behemoth 旗舰因训练难题持续推迟,基准测试争议重创声誉。与此同时,Olympus 通用训练芯片因 SIMT 架构设计难度过高、CUDA 适配成本不可接受,自研路线收缩至推理专用 MTIA;Capex 指引上调至 $64–72B。
Llama 4 Scout/Maverick 发布Behemoth 推迟Olympus 路线收缩
2025年下半年
成立 Meta Superintelligence Labs;Avocado 预训练启动;Capex $70–72B
Llama 4 争议后,Zuckerberg 亲自主导 AI 战略重构:以 $143 亿收购 Scale AI 49% 股权,引入 Alexandr Wang 领衔新成立的 Meta Superintelligence Labs,主导下一代旗舰模型 Avocado(闭源)与 Mango(图像/视频生成)。Avocado 预训练在英伟达 Blackwell 集群上全速推进;Capex 最终落于 $70–72B。
Meta Superintelligence Labs 成立Avocado 预训练(Blackwell)Capex $70–72B
Phase 3 · 多元供应锁定 + MTIA 四代芯片发布(2026 Q1-Q2)
2026年2月
AMD 6GW 协议(~$1000 亿)+ 谷歌 TPU 签约;三轨并行确立
AMD MI450 联合定制,认股权证深度绑定,2026 H2 发货首批 1GW;同期签约谷歌 TPU 补充训练容量。英伟达 + AMD + Google TPU 三轨并行格局确立,Meta 完成全球算力供应链最多元化布局之一。
AMD MI450 6GW / ~$1000亿谷歌 TPU 训练签约三轨并行格局
2026年3月11日
官方发布 MTIA 300/400/450/500 四代芯片路线图
Meta 正式公开四代 MTIA 全路线图:MTIA 300(已量产,R&R 训练)、MTIA 400 Iris(3nm,完成测试,部署中,72 芯片机架,2026E 约 80 万颗)、MTIA 450 Arke(2027 年初)、MTIA 500 Astrid(其后约六个月)。400/450/500 均定位 GenAI 推理,不承担大模型训练。全系 RISC-V + 台积电 + 博通设计,300→500 算力 25×,HBM 4.5×。Broadcom 同月财报确认路线图「alive and well」。
MTIA 300/400/450/500 发布400(Iris)部署中Broadcom 确认顺利出货
2026年Q2(预测)
Avocado(Llama 5)闭源发布;Mango 图像/视频模型同期推出
Avocado 预训练 2026 年 1 月完成,内部测试已超越 Llama 4 Maverick 效率 10×,但落后于 Gemini 2.5/3,发布从原计划 Q1 延至约 5–6 月。闭源策略标志 Meta AI 从「开源普惠」转向「闭源竞争」;Mango 图像/视频生成模型同期推进,均在英伟达 Blackwell 集群上完成训练。
Avocado / Llama 5 闭源发布Mango 图像/视频模型Blackwell 集群训练
Phase 4 · MTIA 450/500 量产,Olympus 前途待定(2027+)
2027年及以后(预测)
MTIA 450(Arke)/500(Astrid)量产;Rubin 承接大模型训练;Olympus 高度不确定
MTIA 450/500 主攻 GenAI 推理(图像、视频生成等),按六个月节奏量产;Broadcom 预计届时 MTIA 规模扩至多个 GW。大模型训练端将迁移至英伟达 Rubin 架构。Olympus 2nm 3D SoIC 训练芯片若推进则是 Meta 对英伟达训练端的真正挑战,但 SIMT 工程难度与 CUDA 生态壁垒使其存在极高不确定性,市场评价「战略看好、战术审慎」。
MTIA 450 Arke / 500 Astrid 量产Rubin 接替 Blackwell 训练Olympus 高度不确定
Chip Supply Analysis · Anthropic · March 2026
Anthropic 是首个同时采用 TPU、Trainium、GPU 芯片供应的模型厂商,四大供应商均已成为投资人
Google · Amazon · Microsoft · Nvidia — 截至 2026 年 3 月
Google TPU v7p Ironwood ×100万 AWS Trainium2 ×100万 Nvidia Blackwell / Rubin ARR $19B → '29E $148B
01 · 芯片供给格局
AWS + Google 为现阶段算力供给主力
  • 同时运行在 AWS Trainium2Google Cloud TPU 两条百万卡轨道上,在所有前沿实验室中极为罕见
  • 训练成本 2026 年预计 $12B,AWS 与 GCP 各承担约一半
  • Broadcom 以「Ironwood Rack」整机柜形式交付 TPU v7p,$21B 分两期签约
  • 两者合计构成当前最核心算力基础设施,覆盖 Claude 全系列训练与推理
02 · 新进入者
Microsoft + Nvidia 入局,Blackwell / Rubin 跟上供应
  • 2025 年 11 月 Nvidia 投资 $10BMicrosoft 投资 $5B
  • Microsoft 承诺购买 $30B Azure 算力 及 1GW Nvidia GPU 容量
  • Grace Blackwell 现货已承诺,下代 Vera Rubin 也已预锁定
  • 将在 AWS 和 GCP 之后逐步跟上供应规模,形成四方供应闭环
03 · 收益格局
ARR 加速增长,GCP 与 AWS 短期将成核心受益方
  • ARR:$1B(2024初)→ $5B(2025初)→ $14B(2026.02)→ $19B(2026.03)
  • 增速持续超预期;TD Cowen 保守 '29E $117B,乐观情景 $148B
  • '26–'29 年累计训练与推理支出约 $400B,AWS 与 GCP 为最大受益方
  • 2026 年 3 月 Series G $30B,估值 $380B,四大供应商全部成为股东
$19B
当前 ARR(2026 年 3 月)
保守情景 '29E $117B · 乐观情景 $148B
Phase 1 · 纯 Nvidia GPU 起步(2021–2022)
2021年5月
Anthropic 成立,Series A $124M
Dario / Daniela Amodei 等 7 位前 OpenAI 研究员创立,算力完全依赖租用 AWS / GCP 上的 Nvidia A100 GPU。
Nvidia A100(租用)
2022年4月
Series B $580M,完成 Claude v1 内部训练
FTX 领投,大规模融资用于租用 GPU 集群训练第一代 Claude,同年夏完成,未对外发布。
$580MNvidia GPU(租用)
Phase 2 · Google 入局,TPU 初接触(2023年上半年)
2023年2月
Google 首投 $300M,首次接入 TPU v4
Google 成为战略股东,Anthropic 首次接触非 Nvidia 架构。投资与算力访问权捆绑给出——这一模式后被 Amazon 完整复制。
$300MTPU v4 首次接入
2023年5月
Series C $450M,TPU v5e 开始用于推理
Claude 1 公开发布。训练混用 GPU + TPU,部分推理工作负载系统性迁移至 TPU v5e。
$450MTPU v5e 推理
Phase 3 · Amazon 入局,双云并行 + Trainium 正式承诺(2023下半年–2024年)
2023年9月
Amazon 投资 $4B,AWS 成为首选云平台
Claude 2 登陆 Amazon Bedrock,Anthropic 开始在 AWS + GCP 双云同时运行工作负载,两大云厂商正式进入算力份额博弈。
$4BAWS Trainium 开始接入
2023年10月
Google 追加承诺至 $2B
Google 将投资承诺从 $300M 扩大至 $2B,TPU 使用量持续扩张,与 AWS 展开正面竞争。
$2B 承诺
2024年3月
Amazon 追加 $2.75B,正式承诺 Trainium,参与芯片联合设计
Anthropic 工程师开始参与 Trainium 底层 kernel 优化与 Neuron 软件栈开发,从「买算力」升级为「共研芯片」——Trainium 路线图开始受 Anthropic 训练需求驱动。
Trainium2 正式承诺硬件软件协同设计
2024年11月
Amazon 累计 $8B,升级为主训练合作伙伴;Project Rainier 上线
Project Rainier 超级集群激活,50 万颗 Trainium2 组网运行,为 Claude 前代模型算力的 5 倍以上。Claude 模型开始在 Trainium2 上大规模训练与推理,TD Cowen 估算 '25 年 AWS 承担约 $2.7B 训练成本。
累计 $8BRainier 上线(50万卡)
Phase 4 · 全赛道锁定,供应商闭环完成(2025–2026年)
2025年10月
Google TPU 协议扩至 100 万颗 Ironwood + >1GW;Broadcom $21B 合同落地
Anthropic 同期在 AWS(Trainium2 100 万颗)和 GCP(TPU v7p 100 万颗)实现百万卡对称部署,在所有前沿实验室中极为罕见。Broadcom 以「Ironwood Rack」整机柜形式交付,$21B 分两期签约。
TPU Ironwood ×100万Trainium2 ×100万Broadcom $21B
2025年11月
Microsoft $30B + Nvidia $10B 直接战略入股,第三条算力赛道正式入场
$30B Azure 算力承诺 + 1GW Nvidia GPU 容量,涵盖 Grace Blackwell 现货及下代 Vera Rubin 架构。Nvidia 投资 $10B,Microsoft 投资 $5B,锁定 Rubin 早期访问权。
Grace BlackwellVera Rubin(预锁)Nvidia $10B + MS $5B
2026年2月—3月
Series G $30B 完成,估值 $380B;ARR 加速至 $19B
Nvidia 以 Series G 股权投资者身份入局,四大供应商(Amazon、Google、Microsoft、Nvidia)全部成为股东,供应链闭环完成。ARR 从 $1B 到 $19B 用时约 3 年,增速持续超预期。TD Cowen 保守情景 '29E ARR $117B,乐观情景 $148B。
ARR $19B(2026年3月)融资总额 $67B+估值 $380B