摘要
- Together Computer, Inc.(交易名称为 Together AI)已从开放模型开发者平台转型为资本密集型 AI 云服务:官方资料描述了无服务器推理、专用端点、GPU 集群、托管存储、微调、评估以及定制的大规模基础设施,而其条款将 Together Computer, Inc. 指明为特拉华州公司,负责提供用于托管、使用、微调和训练大型 AI 模型的 API 和 Web 界面:https://www.together.ai/terms-of-service和https://www.together.ai/。
- 该公司目前处于原始 GPU 租赁与完整超大规模 AI 服务之间的经济缝隙。已发布的 Together 页面展示了按 token 定价的无服务器推理、按分钟计费的专用端点、按需和预留的 GPU 集群,以及大规模的容量雄心;公开的融资新闻报告了 8 亿美元的 C 轮融资,投后估值为 83 亿美元,上季度年化预订额超过 11.5 亿美元,并预计基础设施将扩大约 50 倍:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All。
- 看涨的观点是,开源权重模型、专用推理软件、开发者工具和 GPU 集群运营可以使 Together 成为希望在不拥有芯片的情况下降低单位成本的公司默认的生产层。看跌的观点是,GPU 供应变得不那么稀缺,超大规模云服务商降低价格,原始新型云服务商压低公布的价格,而且客户将 Together 视为可替换的中间商,而非日常运营的依赖平台。
- 因此,薄弱的证据关键在于利用率和习惯:开发者需求、稳定的端点使用量、预留的 GPU 承诺以及工作流依赖度必须超过 GPU 折旧、融资成本、支持成本和超大规模云服务商的价格压力。
买家看到的是 token;Together 看到的是容量义务
想象一家种子阶段的 AI 软件公司,拥有一个成功的工作流程。在第一月,它通过无服务器 API 调用托管开源权重模型,因为流量不均匀且没有人想雇佣 GPU 运营团队。到第六个月,其客户要求低延迟,产品团队想要自定义微调,财务主管发现每个用户操作都变成了一项推理 token 成本。该公司现在有四个不完美的选择。它可以继续使用 Together 的共享模型服务层。它可以在 Together 的硬件上预留专用端点。它可以租用 GPU 集群并运行自己的服务技术栈。或者,它可以迁移到大型超大规模云服务商或自托管开源推理技术栈,并接受工程负担。
这个讨论中可见的单位很简单:一百万个输入 token、一百万个输出 token、一个 GPU 小时或每分钟端点费用。Together 的定价页面就是围绕这些单位构建的。它按模型和 token 类型列出了无服务器推理,按分钟列出了专用端点和 GPU 集群类别,按处理的 token 数列出了微调费用,以每月 GiB 费率计算的存储,以及按需和预留的 GPU 集群:https://www.together.ai/pricing。其文档说明,无服务器推理按使用量计费,没有最低消费或配置成本,而专用端点按分钟计费,针对预留硬件:https://docs.together.ai/docs/inference/pricing。GPU 集群文档描述了两种容量模式:预留容量用于可预测的多日工作负载,按需容量用于即付即用的情况,还支持混合模式,即客户预留基线容量并为突发需求添加按需 GPU:https://docs.together.ai/docs/gpu-clusters-overview。
隐藏成本不那么明显,却更为重要。必须有人负责采购当前一代 GPU、用高速网络连接它们、配置驱动、编排集群、运行模型服务软件、优化内核、维护开发者工具、接听企业支持电话、公开可靠性遥测,并在硬件老化的同时为资本融资。Together 的产品卖点是,这些成本可以被汇集并分摊给那些希望在不自己构建整个云层的情况下实现开放模型经济的客户。买家希望降低 token 账单;Together 则必须管理一个其盈利能力取决于占用率、性能和续约率的集群。
这就是为什么该公司与 BTW 的云服务分类法相关。它不仅仅是另一个模型 API 目录。法律条款规定,Together Computer, Inc. 提供的 API 和 Web 界面可用于托管、使用、微调和训练大型 AI 模型,并可能提供培训、迁移或专业支持:https://www.together.ai/terms-of-service。主页将该公司定位为用于推理、模型塑造和预训练的全栈 AI 平台,具有无服务器推理、批量推理、专用模型推理、专用容器推理、GPU 集群、定制基础设施、托管存储和开发者环境:https://www.together.ai/。Together 的市场重要性在于对这个全栈的控制,因为 AI 应用程序开发者每次选择模型运行的位置时,就越来越像是在做出云依赖决策。
Together 的产品阶梯将实验转化为预留支出
Together 的产品阶梯旨在在客户成熟度的几个阶段抓住机会。其文档将无服务器推理描述为通过按 token 计费的 API 访问 100 多个开源模型,适合原型设计或可变流量;专用端点则是为客户预留的 GPU 上运行单个模型,适合稳定的流量、一致的低延迟和经过微调的模型:https://docs.together.ai/docs/inference/overview。无服务器页面强调无需管理基础设施、无需长期承诺、一个 API 跨多种模态,并且推理性能得益于内核、调度和运行时系统的持续优化:https://www.together.ai/serverless-inference。专用推理页面表示,该产品是为需要稳定性能和运营控制的生产工作负载而构建的,部署规模可扩展到数千个 GPU 用于始终在线的推理:https://www.together.ai/dedicated-model-inference。
这个阶梯具有清晰的商业逻辑。无服务器 token 定价降低了采用门槛并创造使用流。专用端点将成功的实验转化为按分钟计费的硬件承诺。GPU 集群则将更重的训练、微调或专用服务负载转化为 GPU 小时承诺。加速计算页面表示,客户可以在自助服务的 GPU 集群上训练、微调和部署,具备预配置的驱动、可观测性、托管编排、Kubernetes 或 Slurm、自愈基础设施以及按需或预留模式:https://www.together.ai/accelerated-compute。独立的 GPU 集群页面将该服务描绘为裸金属性能、InfiniBand 网络和托管编排,并提供灵活的按需或预留定价:https://www.together.ai/gpu-clusters。
对于 Together 来说,每一步向上都能增加需求可见性。无服务器用户可能在测试后消失。专用端点用户的流量足够可预测,无论每分钟是否充分利用,都要支付硬件费用。预留 GPU 集群用户则揭示了几天或几个月内的计划利用率。而“AI 工厂”客户则是将 Together 作为容量计划的一部分,而非偶然的模型调用。不那么吸引人的部分是,每一步向上都使 Together 承担更多的运营责任。开发者可能宽恕测试工作负载中的偶发波动。但生产语音产品或编码工具无法接受长时间的暂停、冷启动意外或不清晰的事件处理。
Together 自己的客户材料展示了这种生产承诺的形态。其 Decagon 故事表示,Decagon 使用 Together 的无服务器推理、微调和 GPU 集群来处理语音工作负载,报告称每轮成本降低了 6 倍,p95 模型延迟低于 400 毫秒,输入可达数万个 token:https://www.together.ai/customers/decagon。公司发布的案例研究并非客户平均经济效益的独立证明,但它是一个有用的信号,表明 Together 想要销售什么:不仅仅是廉价的 GPU 小时,而是更低的延迟、成本降低、经过微调的模型以及围绕生产应用程序的运营支持。
融资故事现已成为产品故事的一部分
Together 的资本筹集已经变得与其 API 外观同等重要,因为 AI 云客户购买的是对容量在其需求到来时存在的信心。该公司于 2023 年 11 月宣布了由 Kleiner Perkins 领投的 1.025 亿美元 A 轮融资,NVIDIA 和 Emergence Capital 参投,并表示其基础设施正增长到在美国和欧盟多个数据中心达到 20 exaflops:https://www.together.ai/blog/series-a。2024 年 3 月,它宣布了由 Salesforce Ventures 领投的 1.06 亿美元融资,并表示拥有超过 45,000 名注册开发者,流量月环比增长 3 倍,以及使用超过 10 个 GPU 云平台的多云基础设施:https://www.together.ai/blog/series-a2。同一博文指出,Together 与 Crusoe Cloud、Applied Digital、Lambda Labs、Vultr、Oracle Cloud 和 ClusterPower 合作,这是公司容量经纪根源的有用证据。
到 2025 年 2 月,故事已从早期开发者采用转变为大规模基础设施扩张。Together 的 B 轮融资公告报告了一轮 3.05 亿美元的融资,由 General Catalyst 领投,Prosperity7 联合领投,估值 33 亿美元,拥有超过 45 万名 AI 开发者,确保 200 MW 电力容量,并计划在北美多个数据中心部署 NVIDIA Blackwell GPU 集群:https://www.prnewswire.com/news-releases/together-ai-raises-305m-series-b-to-scale-ai-acceleration-cloud-for-open-source-and-enterprise-ai-302380967.html。同一轮的公司博客也表示计划大规模部署 Blackwell GPU,并指出与 Hypertec 合作共建一个 36,000 GPU 的 GB200 NVL72 集群:https://www.together.ai/blog/together-ai-announcing-305m-series-b和https://www.together.ai/blog/nvidia-gb200-together-gpu-cluster-36k。
2026 年 7 月的 C 轮融资使融资环节变得明确。Business Wire 报道了一轮 8 亿美元的融资,投后估值 83 亿美元,由 Aramco Ventures 领投,Vista Equity Partners、General Catalyst、Emergence Capital、NVIDIA、March Capital、Pegatron、S Ventures 等参投。还报告了上季度年化预订额超过 11.5 亿美元,公司服务数千家付费客户,预计未来五年其容量和基础设施足迹将扩大约 50 倍:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All。Together 自己的 C 轮融资博客补充说,它已经获得了超过 500 MW 计算容量的承诺,这些容量将由新投资者独立资本化:https://www.together.ai/blog/announcing-our-series-c。
这些是公司报告的数字,而非经审计的公开账目。尽管如此,它们改变了分析。低资本支出的软件平台主要可以通过增长、毛利润率和留存率来判断。AI 云则必须通过资本获取、电力获取、硬件采购、利用率和折旧来判断。Together 实际上在告诉客户,其融资伙伴是容量承诺的一部分。当 GPU 稀缺时,这可能是一种优势。如果市场变动速度超过资产填充速度,它也可能成为负担。
价格页面揭示了利润率必须生存的走廊
Together 的价格走廊比其营销语言所暗示的更为狭窄。一方面,封闭前沿模型定价为开源权重替代品创造了空间。Together 的 C 轮融资新闻稿称,客户报告相对于封闭模型定价节省了 6 到 60 倍,其 Decagon 页面给出了一个公司发布的特定示例:客户服务语音工作负载降低了近 6 倍:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All和https://www.together.ai/customers/decagon。这就是高层次的需求驱动力:当每个用户交互都调用溢价封闭模型时,生产 AI 应用程序会变得昂贵,因此公司会寻找高效服务的开源权重替代品。
另一方面,原始 GPU 市场不断设定底线。Together 的定价页面列出了按需 GPU 集群的价格:HGX H100 为每小时 3.99 美元,HGX H200 为 5.99 美元,HGX B200 为 8.19 美元,而长期预留的 H100 费率在可见表格中更低:https://www.together.ai/pricing。其专用端点文档列出单 GPU H100 为每小时 6.49 美元,H200 为 7.89 美元,B200 为 11.95 美元,只要端点运行就按分钟计费,无论请求量如何:https://docs.together.ai/docs/dedicated-endpoints/overview。这些数字揭示了为何利用率至关重要。当客户重视隔离、延迟和控制时,专用端点具有吸引力;但当需求波峰波谷明显且空闲时间主导时,它就是浪费。
竞争对手从多个方向施加价格压力。Lambda 的公开定价页面列出了 H100 集群方案,16 GPU 为期两周至一年的方案每小时 6.16 美元,256 GPU 时降至 5.54 美元,另加适用的销售税:https://lambda.ai/pricing。CoreWeave 的公开定价显示 NVIDIA HGX H100 系统为每八 GPU 小时 49.24 美元,即约每 GPU 小时 6.16 美元(不包括其他服务差异),现货价格为每系统小时 19.71 美元:https://www.coreweave.com/pricing。Nebius 文档列出了从 2026 年 6 月 1 日起 NVIDIA H100 NVLink 每 GPU 小时 3.85 美元,可抢占 H100 为 2.15 美元(在可用区域):https://docs.nebius.com/compute/resources/pricing。Runpod 的定价页面显示了一个实时 GPU 市场,B200 每小时 8.64 美元,H200 每小时 5.93 美元(可见的无服务器定价区块):https://www.runpod.io/pricing。AWS 容量区块列出了单 H100 p5.4xlarge 示例,在美国多个区域为每小时 4.326 美元,在多个非美国区域为 3.933 美元,而 AWS P5 页面则将 H100 和 H200 EC2 实例用于深度学习和高性能计算:https://aws.amazon.com/ec2/capacityblocks/pricing/和https://aws.amazon.com/ec2/instance-types/p5/。
这种比较并非同类。一些服务包含托管编排,一些需要整节点,一些是可中断的,一些绑定到特定区域,还有一些在支持或软件方面捆绑不同。但含义很清楚:Together 不能仅依赖 GPU 稀缺性。它必须通过性能、开发者体验、模型可用性、数据控制、可靠性、支持和工作流集成来赚取差价。如果客户可以用更便宜的原始 GPU 租赁加上开源服务栈达到相同的吞吐量和延迟,Together 的利润率就会压缩。
软件杠杆是承诺的脱离商品化 GPU 租赁的出路
Together 对商品化压力的回答是软件杠杆。该公司反复将其经济性与系统研究联系起来:FlashAttention、内核优化、推测解码、量化、服务运行时和集群编排。加速计算页面表示,Together 内核集合在 Blackwell GPU 上实现了 70B 参数 Llama 架构基准测试中训练速度提升 90%,从 HGX H100 上每 GPU 每秒 8,080 个 token,提升到 HGX B200 上使用优化栈每 GPU 每秒 15,264 个 token:https://www.together.ai/accelerated-compute。无服务器页面表示,推理性能得益于内核、调度和运行时系统的持续优化:https://www.together.ai/serverless-inference。专用推理页面强调自适应推测解码、更快输出、生产学习和几分钟内部署:https://www.together.ai/dedicated-model-inference。
这很重要,因为 GPU 小时并非产出单元。客户关心的是在延迟和质量阈值下每美元可获得的有用 token。如果 Together 每个 GPU 小时能比通用服务栈生成更多有用输出,它就可以收取比溢价封闭模型 API 更低的费用,同时仍能在硬件成本之上赚取差价。如果其软件优势是暂时的或难以证明,客户就只会看到 GPU 小时并据此谈判。
公司以研究为导向的信誉在云服务提供商中是不寻常的。Salesforce Ventures 将 Together 描述为领先的 GPU 云平台,用于优化训练和推理工作负载,在 GPU 集群之上运行专有软件栈以实现性能和成本效率;它还列出了创始人 Vipul Ved Prakash、Ce Zhang、Chris Re 和 Percy Liang:https://salesforceventures.com/companies/together-ai/。Together 自己的页面也强调首席科学家 Tri Dao,以 FlashAttention 闻名,作为内核和训练性能故事的一部分。这一背景有助于该公司说服技术买家,它不仅仅是转售硬件访问权。
挑战在于衡量。最好的证据应该是大型客户在自有生产工作负载下对延迟、吞吐量、成本和可靠性的比较。公开证据仍然偏向公司声明、客户案例研究和面向基准测试的产品页面。这并不意味着这些声明是虚假的;这意味着投资观点应该更重视续约行为、工作负载迁移、端点扩展和长期集群预订,而非任何单一的速度声明。
开发者习惯是平台租金与中间商利润之间的区别
Together 最有价值的资产可能不是任何一项数据中心租约或模型目录。而是开发者习惯。2024 年的融资博文称,Together 拥有超过 45,000 名注册开发者,并已集成到包括 LangChain、Vercel、LlamaIndex、MongoDB 和 EmbedChain 在内的应用开发框架中:https://www.together.ai/blog/series-a2。2025 年 2 月的新闻稿称,用户基础已增长至超过 45 万名 AI 开发者:https://www.prnewswire.com/news-releases/together-ai-raises-305m-series-b-to-scale-ai-acceleration-cloud-for-open-source-and-enterprise-ai-302380967.html。2026 年 7 月的新闻稿称,Together 为数百万开发者以及全球一些最具挑战性的 AI 工作负载提供支持:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All。
开发者数量与收入质量不同。注册开发者可能测试一次就不再返回。但习惯很重要,因为 AI 基础设施决策始于代码,并后来成为采购决策。一个在 Together 上原型设计、在 Together 上调优、通过 Together 工具观察延迟、在 Together 计算附近存储权重,后来又在 Together 上预留 GPU 的团队,正在逐步创造运营转换成本。当模型部署、评估、微调和端点管理都位于一个工作流程中时,同样成立。当云服务提供商成为日常工作的一部分,而非可以因更便宜的报价而被替换的列支项目时,它就会变得更持久。
Together 当前的招聘动态支持了该公司正围绕这种习惯构建运营力量的观点。Greenhouse 招聘板显示了 48 个职位,包括计算业务运营、数据中心战略和计算供应、网络架构、推理平台工程、可观测性、站点可靠性、分布式存储、资本市场和公司发展、客户支持和解决方案架构等角色:https://job-boards.greenhouse.io/togetherai。招聘页面不是收入证明,但它们揭示了瓶颈所在。Together 需要能够调优推理和保持集群可靠的工程师;它还需要能够为容量融资、出售承诺并支持企业客户的人员。
从怀疑的角度,公开市场讨论也指向同一个关键点。2024 年底的 Reddit 帖子将担忧归结为:Together 的快速收入增长是否反映了持久的软件价值,还是仅仅是稀缺计算资源的转售:https://www.reddit.com/r/MachineLearning/comments/1gps8fl/d_together_ai_hits_100m_in_arr_but_it_just/。该帖子并非投资级证据,不应被视为代表性情绪。它之所以有用,是因为它捕捉了工程师和投资者对 AI 云的核心疑问:提供商是一个差异化的运营平台,还是紧张市场中的容量中介?
必须在组件层面证明可靠性
推理可靠性不是宽泛的正常运行时间口号。它是模型可用性、端点启动时间、速率限制行为、并发下的延迟、故障转移、区域容量、支持响应和事件透明度。因此,Together 的公共状态页面不仅仅是行政卫生。它按服务区域列出组件,包括网站、playground、推理类别和特定模型服务,并且在撰写本文时,于 2026 年 7 月 5 日 UTC 更新显示“所有服务在线”:https://status.together.ai/。同一页面公开了组件历史和维护记录,这对于决定是否通过 AI 云运行生产流量的客户至关重要。
状态页面也揭示了运营表面的复杂性。传统的软件 API 可能只有几个服务组件。而模型云有许多活动部件,因为每个模型系列、模态和部署路径都可能表现不同。客户可能只关心一个模型和一个端点。Together 必须管理整个目录,同时确保高价值客户不因共享组件承压而受到影响。
这就是专用端点和 GPU 集群阶梯在运营上变得有用的地方。无服务器最容易采用,但使客户面临共享集群的限制。专用端点可以隔离容量并提高可预测性,但在运行时计费,并要求客户预测足够多的流量来证明硬件合理性。GPU 集群给客户更多控制权,但将更多责任转移回客户团队,除非 Together 的托管编排和支持非常强大。价值主张不在于哪种模式最好。而在于 Together 可以根据使用情况的清晰度,让客户在不同模式之间迁移。
对于企业买家来说,随着 AI 从测试转向客户运营,可靠性问题将变得更加苛刻。只有当延迟和正常运行时间保持在产品阈值内时,成本降低 6 倍才有意义。如果支持热线沉默或工作负载在高峰需求期间停滞,廉价的模型调用并不廉价。Together 的证据在显示组件监控、生产客户案例和基础设施招聘的公开页面方面最强。在公共材料未披露续约率、按客户类别划分的事件严重性历史、合同服务水平或客户方事后分析的情况下,证据仍然较弱。
开源权重模型替代扩大了市场但限制了锁定
Together 从开源权重模型的兴起中受益,因为这为客户提供了一种可信的替代昂贵封闭模型 API 的方式。其 C 轮融资新闻稿称,全行业开源模型使用量在十二个月内增长了三倍,客户报告相对于封闭定价节省了大量成本:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All。Together 自己的 C 轮融资博客称,开源权重模型已经缩小了与专有前沿模型的质量差距,使用这些模型的公司通常能够以低得多的成本实现可比甚至更好的性能:https://www.together.ai/blog/announcing-our-series-c。无论我们是否接受每个数字,商业方向都是连贯的。一旦工作负载可以在开源权重模型上良好运行,客户就可以寻找最便宜、可靠的服务层,而不是接受一家供应商的封闭价格表。
同样的开放性限制了 Together 的锁定。开源权重模型服务在原则上为客户提供了可移植性。如果他们拥有团队,他们可以在超大规模云服务商、专业云、内部集群或托管服务器上运行相同或类似的模型。因此,Together 必须通过质量(而非束缚)使切换变得不便。更快的核心、调优推理、托管微调、开发者工具、隐私控制、可观测性、支持和容量可用性都是杠杆。客户必须感到迁离会耗费时间、性能或可靠性,而不仅仅是 Together 今天拥有该模型。
这与旧的云服务依赖模式不同,后者客户被绑定到专有存储格式、数据库或平台服务。Together 的依赖风险更具运营性质。初创公司可能不想雇佣人员来运行 Slurm、Kubernetes、GPU 驱动、服务框架、模型监控、容量预订和事件响应。受监管的企业可能不想将敏感工作负载发送到封闭系统,如果开源权重部署可以进行调优和控制的话。媒体或语音应用程序可能更关心毫秒和每轮成本,而非供应商正统性。如果 Together 成为这些日常选择的实际场所,它就能变得粘性。
风险在于超大规模云服务商和资金充裕的新型云服务商也学到了同样的教训。大型云服务商可以降低 GPU 价格,通过更广泛的云关系补贴 AI 服务,捆绑私有连接和合规性,并提供自己的调优服务层。专业提供商可以在原始 GPU 价格、区域容量、裸金属访问或支持方面更激烈地竞争。Together 的 B 轮和 C 轮融资公告显示了快速扩展容量的雄心,但仅凭规模并不能解决锁定问题。平台必须将开源权重模型需求转化为重复的、工作流级别的使用。
数据中心稀缺性支撑论点,但提高了犯错成本
宏观环境支持 Together 的紧迫感。CBRE 的 2025 年下半年北美数据中心趋势报告称,主要市场空置率在年底降至创纪录的 1.4%,主要市场供应同比增长 36% 至 9,432 MW,原因是超大规模需求加速:https://www.cbre.com/insights/books/north-america-data-center-trends-h2-2025。JLL 的 2026 年全球数据中心展望表示,该行业正进入电力受限的超级周期,预计 2025 年至 2030 年间将增加 97 GW,并估计到 2030 年需要约 3 万亿美元投资才能实现 100 GW 的新增供应:https://www.jll.com/en-us/insights/market-outlook/data-center-outlook。McKinsey 单独估计,到 2030 年,数据中心可能需要全球 6.7 万亿美元,其中 5.2 万亿美元用于配备能处理 AI 处理负载的设施:https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers。
这些数字解释了像 Together 这样的公司在成熟度不及老牌云公司时为何进行大规模融资。电力、土地、网络设备和当前一代 GPU 无法在客户合同出现时立即召唤。提供商必须在利用率之前做出承诺。Together 的加速计算页面称,它在 25 多个城市拥有选择权,在美国拥有超过 2 GW 的组合,其中 600 MW 为近期容量,欧洲有超过 150 MW 可用,亚洲和中东则根据项目规模提供选择:https://www.together.ai/accelerated-compute。C 轮融资博客中提到超过 500 MW 的计算容量承诺强化了这一点:容量现在既是资本市场产品,也是云产品。
稀缺性并非纯粹的好事。当容量稀缺时,客户支付溢价,投资者资助扩张。当容量到来时,价格可能迅速下跌。NVIDIA 的 2026 财年业绩显示了硬件繁荣的规模:创纪录的全年收入 2159 亿美元,第四季度收入 681 亿美元,第四季度数据中心收入 623 亿美元,以及由数据中心需求推动的全年增长:https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-fourth-quarter-and-fiscal-2026。NVIDIA 的 H100 页面和 GB200 NVL72 页面也说明了折旧风险是真实的:每一代硬件都会改变内存、互连、吞吐量和每有用 token 的成本:https://www.nvidia.com/en-us/data-center/h100/和https://www.nvidia.com/en-us/data-center/gb200-nvl72/。
对于 Together 来说,结果是一个时机问题。如果它获取 GPU 太慢,开发者和企业就会去别处。如果它获取过多或错误类型的容量,就会将昂贵的硬件带入一个价格更低的市场。如果下一代硬件显著改善了推理成本,旧集群必须以较低的费率填充,或用于仍然适合的工作负载。公司的软件优化可以缓和这条曲线,但不能消除它。
超大规模压力是结构性威胁,而非临时折扣
超大规模云服务商并非被动地在位者,看着专业公司抢占 AI 工作负载。它们在采购、客户关系、网络、合规、企业合同和交叉补贴定价方面具有优势。AWS 的 P5 和 P5e 页面展示了用于深度学习和高性能计算的 H100 和 H200 GPU 实例,容量区块则显示了在定义的时间窗口内预留 GPU 容量的机制:https://aws.amazon.com/ec2/instance-types/p5/和https://aws.amazon.com/ec2/capacityblocks/pricing/。Google Cloud 文档描述了用于训练和服务工作负载的 A3 GPU 机器类型,包括 H100 变体:https://docs.cloud.google.com/compute/docs/gpus。Microsoft 文档描述了用于高端深度学习训练和紧密耦合的纵向和横向扩展工作负载的 ND H100 v5 虚拟机:https://learn.microsoft.com/en-us/azure/virtual-machines/sizes/gpu-accelerated/ndh100v5-series。
Together 不需要在每一个维度上击败超大规模云服务商。它只需要在那些重视开放模型速度、专业支持、较低单位成本、跨模型的更简单迁移以及更专注的 AI 开发者体验的客户方面击败它们。如果专业云能扮演这一角色,市场足够大。但超大规模压力很重要,因为大型云服务商可以降低参考价格。他们还可以将 AI 工作负载纳入更广泛的企业承诺中,其中 AI 账单与存储、数据库、分析、网络、安全和办公效率合同一起协商。初创公司可能因速度和简洁性而从 Together 购买;大型企业可能会询问其现有云合作伙伴是否能以更好的混合费率匹配足够的价值。
对于不需要 Together 全栈的工作负载,这种威胁尤其尖锐。如果客户只想要可预测训练运行的原始 H100 或 B200 小时,并拥有经验丰富的基础设施团队,他们会将 Together 与原始新型云、超大规模预留和内部集群进行比较。如果客户需要调优推理、快速模型更新、微调、输入重用、支持和模型可用性,Together 则有更多空间。因此,公司必须避免仅因最便宜的 GPU 小时而被评判。它的利润率依赖于将软件和运营价值附加到硬件上。
Dell'Oro 的 2026 年数据中心基础设施预测增加了另一个压力点:高端 GPU 仍然是最大的组件增长驱动力,但超大规模云服务商正在部署更多定制加速器,以在大规模上优化成本、能效和工作负载特定性能:https://www.delloro.com/2026-predictions-data-center-infrastructure/。如果定制加速器在推理方面成熟,长期的底线价格可能不仅由 NVIDIA GPU 云决定,还由最大买家内部的专有硅片决定。Together 的回应必须是灵活性:支持客户想要的硬件,保持其服务软件领先,并避免在推理架构转变时陷入困境的容量赌注。
公司在拥有完整运营环节时最强
Together 最强的地位不是租用几个 GPU 进行一次性作业的客户。而是那种经历这样一个循环的客户:在无服务器上原型设计、测试开源权重模型、用私有数据微调、评估质量、部署专用端点、预留集群容量、监控延迟、迭代模型,并随着产品增长扩大使用。在这个循环中,Together 有多种赚取利润的方式。它可以捕获 token 使用量、端点分钟数、GPU 小时、存储、微调作业和支持。它还可以利用客户需求信号比原始租赁市场更智能地规划容量。
Decagon 案例以缩影形式展示了这个循环:列出的使用产品包括无服务器推理、微调和 GPU 集群,商业成果围绕每轮成本、p95 延迟和每周模型部署速度来描述:https://www.together.ai/customers/decagon。产品页面在抽象层面展示了相同的序列。无服务器降低了启动成本。专用端点提供隔离和一致性能。GPU 集群支持更大规模的训练、微调和服务。托管存储使模型权重和数据靠近计算。评估和模型塑造工具支持质量决策。商业要点是让 Together 成为团队默认进行迭代的地方,而不仅仅是支付 GPU 的地方。
这种运营循环也解释了公司的客户和投资者信息。2026 年 7 月的新闻稿称,Together 为包括 Cursor、Cognition 和 Decagon 在内的数千家付费客户提供服务,并且开源模型使用量在十二个月内增长了三倍:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All。B 轮融资新闻稿将 Salesforce、Zoom、SK Telecom、Hedra、Cognition、Zomato、Krea、Cartesia 和 The Washington Post 列为使用该平台的组织:https://www.prnewswire.com/news-releases/together-ai-raises-305m-series-b-to-scale-ai-acceleration-cloud-for-open-source-and-enterprise-ai-302380967.html。这些名字由公司提供,但它们表明了目标:首先是开发者和 AI 原生公司,然后是需要成本高效、更具控制力的生产 AI 的全球企业。
循环也是风险集中的地方。如果客户只在其中一个阶段使用 Together,切换就更容易。如果微调在别处进行,评估在别处,存储也在别处,服务也在别处,Together 就只是一个 token 端点。如果客户可以将开源权重模型迁移到更便宜的 GPU 提供商而不损失质量,价格谈判就会变得残酷。Together 的商业质量随着客户工作流同时依赖其技术栈的多个部分而提升。
证据在雄心方面很强,在可持续单位经济方面较弱
公开证据对 Together 的雄心而言异常丰富。有官方法律条款指明公司和服务,有关于无服务器推理、专用端点和 GPU 集群的产品页面,有描述计费模式的文档,有 2023、2024、2025 和 2026 年的融资新闻稿,有公开定价,有包含延迟和成本指标的客户故事,有状态页面,有招聘板和第三方投资者描述。这些来源支持一个清晰的结论:Together Computer, Inc. 是一家重要的 AI 云公司,其战略是使开放模型训练和推理在生产规模上更便宜、更快、更容易运营。
在商业模式最困难的地方,证据较弱。公开材料未显示按产品划分的毛利润率、集群利用率、平均端点占用率、预留容量续约率、客户集中度、准确的资本成本、折旧假设、电力合同期限、GPU 采购条款、每个企业客户的支持成本,或者年化预订额中有多少转化为确认收入。Together 2026 年 7 月的年化预订额是一个有用的增长信号,但预订额不等于收入、毛利润或自由现金流。50 倍的基础设施扩张目标很强大,但它也是对未来资本强度的声明。
市场讨论也以有益的方式混杂。开发者喜欢低摩擦的模型访问、快速推理和开源模型可选性。投资者喜欢收入增长和资本筹集。怀疑者质问公司是否仅仅是稀缺 GPU 的中介。客户希望降低 token 成本,但不能容忍生产不可靠。超大规模云服务商是可信的竞争者。原始 GPU 提供商可以低价竞争。硬件代际更迭迅速。这些观点没有哪一点否定看涨论调;它们定义了考验。
因此,最重要的观察点很具体。首先,Together 能否展示更多类似 Decagon 的、跨不同工作负载类型的客户侧证据,而不仅仅是语音。其次,公共状态和支持故事是否随着生产流量的增长而成熟。第三,客户是否从无服务器测试转向专用端点和预留 GPU 集群,以证明习惯和利用率。第四,超过 500 MW 的容量雄心能否在不破坏利润率的情况下得到融资和填充。第五,Together 的内核和服务优势是否随着超大规模云服务商和开源技术栈的改进而保持可见。
买家的实际问题是应该由谁承担固定成本
对于开头示例中的 AI 初创公司,决策不应从标志开始。它应该从需求形态开始。如果流量是突发性的,无服务器 token 定价可能是合理的,因为它避免了闲置硬件。如果流量稳定且对延迟敏感,专用端点可能在利用率高的情况下更便宜、更可预测。如果公司有大型训练或微调运行,并且团队能够保持 GPU 忙碌且 Together 的托管层节省了足够的工程时间,GPU 集群就合理。如果公司拥有基础设施专家和高度可预测的工作负载,自托管或原始新型云容量可能胜出。如果公司已经拥有大规模的超大规模承诺,现有云服务商在采购方面可能难以被击败。
Together 的作用是使这个决策不那么二元。其产品阶梯让客户从按 token 定价的推理开始,并在需求明确后向预留硬件攀升。其研究故事承诺每个 GPU 小时产生更多有用输出。其融资故事承诺未来容量。其状态页面和支持招聘表明了对于生产工作负载需要运营纪律的认知。其客户故事展示了成本和延迟收益对利润率至关重要的使用案例类型。
薄弱的关键点保持不变。Together 必须在 GPU 折旧和价格竞争侵蚀差价之前,将开放模型需求转化为持久的利用率。它必须证明开发者之所以留下,是因为平台节省了工程时间并改善了生产经济,而非因为 GPU 暂时稀缺。它必须表明客户采纳了技术栈的足够多部分,以使 Together 成为工作流习惯。它必须在不让每次未来的降价成为资产负债表问题的情况下为容量融资。
这使得 Together 成为一个高信念但并非低风险的云服务依赖。如果成功,公司将成为本地云替代的实际控制点之一:一个初创企业和企业可以在不向封闭系统屈服或运营自己集群的情况下运行开源权重 AI 工作负载的地方。如果失败,它将变成市场中更昂贵的一层,在那里硬件变得更便宜,超大规模云服务商变得更精明,开发者转向下一个更低成本的服务栈。答案将更多地体现在 token 吞吐量、端点占用率、预留 GPU 续约以及当下一代 GPU 重置价格表时客户的耐心上,而非口号上。

