Together AI と GPU 時間のマージンテスト

概要

Together Computer, Inc.（Together AI として事業運営）は、オープンモデル開発プラットフォームから資本集約型の AI クラウドへと移行した。公式文書には、サーバーレス推論、専用エンドポイント、GPU クラスター、マネージドストレージ、ファインチューニング、評価、大規模なカスタムインフラストラクチャが記載されており、利用規約では、Together Computer, Inc. を、大規模 AI モデルのホスティング、利用、ファインチューニング、トレーニングのための API とウェブインターフェースを提供するデラウェア州の法人として明示している：https://www.together.ai/terms-of-serviceおよびhttps://www.together.ai/。
同社は現在、生の GPU レンタルとハイパースケーラーの包括的な AI サービスの間の経済的ギャップに位置している。Together が公開するページには、トークン課金のサーバーレス推論、分単位の専用エンドポイント、オンデマンドおよび予約制の GPU クラスター、大容量への野心が示されており、公開された資金調達情報では、シリーズ C で 8 億ドル（ポストマネー評価額 83 億ドル）、直近四半期の年間予約高が 11 億 5,000 万ドル超、インフラストラクチャの約 50 倍への拡張計画が発表されている：https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All。
楽観的なシナリオは、オープンウェイトモデル、専用推論ソフトウェア、開発者ツール、GPU クラスター運用により、Together がチップを所有せずに単価を下げたい企業のためのデフォルトの実稼働レイヤーになるというものだ。悲観的なシナリオは、GPU 供給が潤沢になり、ハイパースケーラーが値下げし、生のネオクラウドが表示価格を引き下げ、顧客が Together を日常的なオペレーション基盤ではなく交換可能なブローカーと見なすようになるというものだ。
したがって、重要な不確実性は利用と習慣にある。開発者の需要、安定的なエンドポイント使用率、予約済み GPU コミットメント、ワークフローへの依存は、GPU の減価償却、資金調達コスト、サポートコスト、ハイパースケーラーの価格圧力を上回る必要がある。

買い手はトークンを見て、Together はキャパシティ義務を見る

実績あるワークフローを持つ AI ソフトウェアの新興企業を想像してほしい。最初の月は、トラフィックが不規則で誰も GPU 運用チームを雇いたくないため、同社はサーバーレス API 経由でホストされたオープンウェイトモデルを呼び出す。6 か月目には、顧客が低レイテンシを期待し、プロダクトチームがカスタムファインチューニングを求め、CFO はユーザーのあらゆる行動が推論トークンのコストになっていることに気づく。同社には、不完全な 4 つの選択肢がある。Together の共有モデル提供レイヤーに留まる、Together のハードウェアで専用エンドポイントを予約する、GPU クラスターを借りて独自の提供スタックを実行する、あるいは大手ハイパースケーラーや自社ホストのオープンソース推論スタックに移行し、エンジニアリング負荷を受け入れる、というものだ。

この議論で目に見える単位はシンプルだ。入力 100 万トークン、出力 100 万トークン、1 GPU 時間、またはエンドポイントの分単位料金である。Together の料金ページはこれらの単位を中心に構築されている。モデルとトークンタイプ別のサーバーレス推論、専用エンドポイントと GPU クラスターのカテゴリ、処理トークンあたりのファインチューニング料金、GiB あたり月額のストレージ、オンデマンドおよび予約階層の GPU クラスターを掲載している：https://www.together.ai/pricing。同社のドキュメントによれば、サーバーレス推論は最低利用料やプロビジョニングコストなしの従量課金であり、専用エンドポイントは予約されたハードウェアに対して分単位で課金される：https://docs.together.ai/docs/inference/pricing。GPU クラスターのドキュメントには、2 つのキャパシティモード（予測可能な日数単位のワークロード向けの予約キャパシティと、従量課金のオンデマンドキャパシティ）が説明されており、顧客がベースを予約し、ピーク時にオンデマンド GPU を追加する混合モデルも示されている：https://docs.together.ai/docs/gpu-clusters-overview。

隠れたコストは見えにくく、より重要だ。誰かが最新世代の GPU を調達し、高帯域幅ネットワークで接続し、ドライバを構成し、クラスターをオーケストレーションし、モデル提供ソフトウェアを実行し、カーネルを最適化し、開発者ツールを保守し、エンタープライズサポートの電話に対応し、信頼性テレメトリを公開し、ハードウェアが老朽化する間の資金を調達しなければならない。Together の提案は、これらのコストを、完全なクラウドレイヤーを自前で構築せずにオープンモデルの経済性を享受したい顧客全体で共有・償却できるというものだ。買い手はトークン料金の削減を望み、Together は稼働率、パフォーマンス、リプレースサイクルに収益性が左右されるフリートを管理しなければならない。

これが同社が BTW のクラウドサービス分類において重要である理由だ。単なるモデル API カタログではない。利用規約では、Together Computer, Inc. が大規模 AI モデルのホスティング、使用、ファインチューニング、トレーニングのための API とウェブインターフェースを提供し、トレーニング、移行、プロフェッショナルサポートを提供する可能性があると明記されている：https://www.together.ai/terms-of-service。ホームページでは、同社を推論、モデル整形、事前トレーニングのための完全な AI プラットフォームとして位置づけ、サーバーレス推論、バッチ推論、専用モデル推論、専用コンテナ推論、GPU クラスター、カスタムインフラストラクチャ、マネージドストレージ、開発環境を挙げている：https://www.together.ai/。Together の市場的重要性は、このフルスタックのコントロールにある。AI アプリケーション開発者は、モデルを実行する場所を選ぶたびに、クラウド依存の決定を下すようになるからだ。

Together の製品ラインは実験を予約支出に変換する

Together の製品ラインは、成熟度の異なる顧客を捉えるように設計されている。ドキュメントでは、サーバーレス推論を 100 以上のオープンソースモデルへのトークン課金 API アクセスとして説明し、プロトタイピングや変動トラフィックに適しているとし、専用エンドポイントを顧客専用の GPU 上で実行される単一モデルとして、安定したトラフィック、一定のレイテンシ、ファインチューニング済みモデルに適していると説明している：https://docs.together.ai/docs/inference/overview。サーバーレスページでは、インフラ管理不要、長期契約不要、全モダリティ対応の単一 API、カーネル、スケジューリング、ランタイムによる最適化された推論パフォーマンスを強調している：https://www.together.ai/serverless-inference。専用推論ページでは、この製品が一貫したパフォーマンスと運用制御を必要とする本番ワークロード向けに設計されており、永続的な推論のために最大数千の GPU に展開できると記載されている：https://www.together.ai/dedicated-model-inference。

このラインには明確なビジネスロジックがある。サーバーレスのトークン課金は導入障壁を下げ、利用フローを生み出す。専用エンドポイントは成功した実験を分単位のハードウェアコミットメントに変換する。GPU クラスターは、より重いトレーニングやファインチューニング、特殊な提供タスクを GPU 時間コミットメントに変換する。アクセラレーテッドコンピューティングページでは、顧客がセルフサービスの GPU クラスターでトレーニング、ファインチューニング、デプロイを行い、事前設定されたドライバ、可観測性、マネージドオーケストレーション、Kubernetes または Slurm、自己修復インフラ、オンデマンドまたは予約モードを利用できると説明している：https://www.together.ai/accelerated-compute。GPU クラスターに関する別ページでは、ベアメタルパフォーマンス、InfiniBand ネットワーキング、柔軟なオンデマンドまたは予約料金によるマネージドオーケストレーションを提供するとしている：https://www.together.ai/gpu-clusters。

Together にとっての利点は、各段階が需要の可視性を高めることだ。サーバーレスユーザーはテスト後に消える可能性がある。専用エンドポイントのユーザーは、毎分完全に使用されるかどうかに関わらず、ハードウェア料金を支払うに足る予測可能なトラフィックを持っている。予約 GPU クラスターの顧客は、数日から数か月にわたる計画的な利用を明らかにする。AI ファクトリーの顧客は、Together を、単発のモデル呼び出しではなく、自社のキャパシティ計画の不可欠な一部とする。欠点は、各段階が Together をより多くの運用責任に晒すことだ。開発者はテスト負荷での偶発的な変動を許容するかもしれない。本番の音声製品やコーディングツールは、長時間の中断、コールドスタートの驚き、不明瞭なインシデント管理を許容できない。

Together の顧客向け資料は、この本番環境向け約束の形を示している。Decagon のケーススタディでは、Decagon が音声ワークロードに Together のサーバーレス推論、ファインチューニング、GPU クラスターを利用し、1 ターンあたり 6 倍のコスト削減と、数万トークンまでの入力に対して p95 レイテンシ 400 ミリ秒未満を達成したと報告している：https://www.together.ai/customers/decagon。企業が公開するケーススタディは平均的な顧客経済性の独立した証拠ではないが、Together が販売したいものを示す有用なシグナルである。単なる安価な GPU 時間ではなく、より低いレイテンシ、コスト削減、ファインチューニングされたモデル、本番アプリケーションを支える運用サポートだ。

資金調達のストーリーがプロダクトのストーリーの一部になった

Together の資金調達は、その API 領域と同じくらい重要になっている。AI クラウドの顧客は、自社の需要が到来したときにキャパシティが存在するという確信を買っているからだ。同社は 2023 年 11 月に Kleiner Perkins 主導、NVIDIA と Emergence Capital 参加による 1 億 250 万ドルのシリーズ A を発表し、米国と EU の複数のデータセンターで 20 エクサフロップスのインフラに到達したと述べた：https://www.together.ai/blog/series-a。2024 年 3 月には、Salesforce Ventures 主導による 1 億 600 万ドルのラウンドを発表し、登録開発者数 45,000 人超、前月比 3 倍のトラフィック成長、10 以上の GPU クラウドプラットフォームを利用するマルチクラウド基盤を明らかにした：https://www.together.ai/blog/series-a2。同じ記事では、Together が Crusoe Cloud、Applied Digital、Lambda Labs、Vultr、Oracle Cloud、ClusterPower と協業しているとも述べており、これは同社のキャパシティブローカーとしてのルーツを示す有用な証拠である。

2025 年 2 月までに、ストーリーはアーリーアダプターの開発者から大規模インフラ拡張へと移っていた。Together のシリーズ B の発表では、General Catalyst 主導、Prosperity7 共同主導による 3 億 500 万ドルのラウンド、評価額 33 億ドル、450,000 人超の AI 開発者、200 MW の確保済み電力容量、北米の複数データセンターにわたる NVIDIA Blackwell GPU クラスターの展開計画が報告された：https://www.prnewswire.com/news-releases/together-ai-raises-305m-series-b-to-scale-ai-acceleration-cloud-for-open-source-and-enterprise-ai-302380967.html。同ラウンドに関する同社のブログでも、大規模な Blackwell GPU の展開が示され、Hypertec とのパートナーシップによる 36,000 基の GB200 NVL72 クラスターの共同構築が強調された：https://www.together.ai/blog/together-ai-announcing-305m-series-bおよびhttps://www.together.ai/blog/nvidia-gb200-together-gpu-cluster-36k。

2026 年 7 月のシリーズ C は、資金調達の繋がりを明示的にした。Business Wire は、Aramco Ventures 主導、Vista Equity Partners、General Catalyst、Emergence Capital、NVIDIA、March Capital、Pegatron、S Ventures などが参加した 8 億ドルの資金調達、ポストマネー評価額 83 億ドルを報じた。また、直近四半期の年間予約高が 11 億 5,000 万ドルを超え、数千の有料顧客にサービスを提供し、5 年間でキャパシティとインフラフットプリントを約 50 倍に成長させる計画であるとも報じた：https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All。Together のシリーズ C ブログでは、新たな投資家によって独立して資本化される 500 MW 超のコンピューティングキャパシティのコミットメントを確保したと付け加えている：https://www.together.ai/blog/announcing-our-series-c。

これらは監査済みの公開会計ではなく、企業が報告した数字である。しかし、分析を変える。低い設備投資のソフトウェアプラットフォームは、主に成長、粗利益、継続率で評価できる。AI クラウドは、資本アクセス、エネルギーアクセス、ハードウェア調達、稼働率、減価償却で評価しなければならない。Together は、金融パートナーがキャパシティの約束の一部であると、事実上顧客に伝えている。これは GPU が希少な時には強みになる。市場が資産を埋めるよりも速く動く場合には、負担にもなり得る。

価格ページはマージンが生き残らなければならない回廊を明らかにする

Together の価格回廊は、マーケティング言語が示唆するよりも狭い。一方では、フロンティアのクローズドモデルの価格が、オープンウェイトモデルへの代替の余地を生み出している。Together のシリーズ C のリリースでは、顧客がクローズドモデルの価格と比較して 6 倍から 60 倍の節約を報告しており、Decagon のページではカスタマーサービス音声ワークロードで約 6 倍の削減という具体的な企業公表の例が示されている：https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-Allおよびhttps://www.together.ai/customers/decagon。これは高次の需要エンジンである。本番の AI アプリケーションは、ユーザーインタラクションごとにプレミアムなクローズドモデルを呼び出すとコストがかさむため、企業は効率的に提供されるオープンウェイトの代替を求める。

もう一方では、生の GPU 市場が下限を設定し続けている。Together の料金ページでは、オンデマンドの GPU クラスター料金が HGX H100 で 1 GPU 時間あたり $3.99、HGX H200 で $5.99、HGX B200 で $8.19 と表示され、表示テーブル内のより長期の予約では H100 の料金がさらに低くなる：https://www.together.ai/pricing。専用エンドポイントのドキュメントでは、単一の H100 GPU が 1 時間あたり $6.49、H200 が $7.89、B200 が $11.95 で、リクエスト量に関わらずエンドポイントの実行中は分単位で課金される：https://docs.together.ai/docs/dedicated-endpoints/overview。これらの数字は稼働率が重要である理由を示している。専用エンドポイントは、顧客が分離、レイテンシ、制御を重視する場合に魅力的であり、需要が不規則でアイドル時間が大半を占める場合には無駄になる。

競合他社は複数の方向から価格圧力を生み出している。Lambda の公開料金ページでは、2 週間から 1 年間の期間における 16 GPU プランで 1 GPU 時間あたり $6.16、256 GPU で $5.54 の H100 クラスタープランが表示され、適用される消費税が加わる：https://lambda.ai/pricing。CoreWeave の公開料金では、NVIDIA HGX H100 が 8 GPU で 1 時間あたり $49.24、1 GPU 時間あたり約 $6.16、サービス差別化要因は別として表示され、スポットインスタンスはシステムあたり $19.71 だった：https://www.coreweave.com/pricing。Nebius のドキュメントでは、2026 年 6 月 1 日時点で利用可能なリージョンにおいて、NVIDIA H100 NVLink が 1 GPU 時間あたり $3.85、プリエンプティブル H100 が $2.15 と記載されていた：https://docs.nebius.com/compute/resources/pricing。Runpod の料金ページでは、ライブ GPU マーケットプレイスにおいて B200 が $8.64/ 時、H200 が $5.93/ 時と表示されていた：https://www.runpod.io/pricing。AWS のキャパシティブロックでは、米国内の複数リージョンで単一 H100 GPU の p5.4xlarge が $4.326/ 時、米国外の複数リージョンで $3.933 と表示され、AWS P5 ページではディープラーニングと HPC 向けの H100 および H200 EC2 インスタンスが紹介されている：https://aws.amazon.com/ec2/capacityblocks/pricing/およびhttps://aws.amazon.com/ec2/instance-types/p5/。

比較は直接的ではない。マネージドオーケストレーションが含まれるものもあれば、ノード全体が必要なもの、中断可能なもの、特定リージョンに限定されるもの、サポートやソフトウェアのバンドル方法が異なるものもある。しかし、含意は明確だ。Together は GPU の希少性だけに頼ることはできない。パフォーマンス、開発者体験、モデルの可用性、データ管理、信頼性、サポート、ワークフロー統合を通じてマージンを獲得しなければならない。顧客がより安価な生の GPU レンタルとオープンソースの提供スタックで同等のスループットとレイテンシを達成できるなら、Together のマージンは圧迫される。

ソフトウェアレバレッジが、ベーシックな GPU レンタルからの約束された脱出路である

コモディティ化の圧力に対する Together の回答は、ソフトウェアレバレッジである。同社は定期的に自社の経済性をシステム研究、FlashAttention、カーネル最適化、投機的デコーディング、量子化、提供ランタイム、クラスターオーケストレーションと結び付けている。アクセラレーテッドコンピューティングページでは、Together Kernel Collection により、700 億パラメータの Llama アーキテクチャのベンチマークで Blackwell GPU でのトレーニングが 90% 高速化され、最適化スタックを使用した HGX B200 では GPU あたり毎秒 15,264 トークンを達成した（HGX H100 では 8,080 トークン）と述べている：https://www.together.ai/accelerated-compute。サーバーレスページでは、推論パフォーマンスがカーネル、スケジューリング、ランタイムによって継続的に最適化されるとしている：https://www.together.ai/serverless-inference。専用推論ページでは、適応型投機的デコーディング、より高速な出力、本番環境での学習、数分でのデプロイを強調している：https://www.together.ai/dedicated-model-inference。

これは重要である。なぜなら、1 GPU 時間は生産単位ではないからだ。顧客にとって重要なのは、レイテンシと品質のしきい値内で、1 ドルあたりの有用なトークンである。Together が汎用的な提供スタックよりも 1 GPU 時間あたり多くの有用なアウトプットを生成できれば、プレミアムなクローズドモデル API よりも低価格で提供しながら、ハードウェアコストを上回るマージンを得られる。もしそのソフトウェア上の優位性が一時的あるいは証明が困難であれば、顧客は GPU 時間だけを見て、それに応じて交渉するだろう。

同社の研究ドリブンな信頼性は、クラウドプロバイダーとしては異例である。Salesforce Ventures は、Together をトレーニングと推論のワークロードに最適化された主要な GPU クラウドプラットフォームであり、パフォーマンスとコスト効率のために GPU クラスター上にプロプライエタリなソフトウェアスタックを持つと説明している。また、創業者の Vipul Ved Prakash、Ce Zhang、Chris Re、Percy Liang についても言及している：https://salesforceventures.com/companies/together-ai/。Together の自社ページでも、FlashAttention で知られるチーフサイエンティストの Tri Dao をカーネル性能とトレーニングのストーリーの一部として強調している。この系譜は、単にハードウェアアクセスを再販しているのではないことを技術バイヤーに納得させるのに役立つ。

課題は測定である。最良の証拠は、本番条件下でのレイテンシ、スループット、コスト、信頼性に関する大規模な顧客側の比較であろう。公開されている証拠は、依然として企業の声明、顧客ケーススタディ、ベンチマークに焦点を当てた製品ページが大部分を占めている。これは主張が虚偽であることを意味するものではない。投資判断においては、単一の速度主張よりも、更新行動、ワークロード移行、エンドポイント拡張、長期クラスター予約により大きな重みを置くべきであることを示している。

開発者の習慣がプラットフォームレントとブローカーマージンを分ける

Together の最も価値ある資産は、データセンターのリースやモデルカタログではないかもしれない。それは開発者の習慣かもしれない。2024 年の資金調達記事では、Together の登録開発者数が 45,000 人を超え、LangChain、Vercel、LlamaIndex、MongoDB、EmbedChain などのアプリ開発フレームワークと統合されていると述べられていた：https://www.together.ai/blog/series-a2。2025 年 2 月のリリースでは、ユーザーベースが 450,000 人超の AI 開発者に成長したと述べられている：https://www.prnewswire.com/news-releases/together-ai-raises-305m-series-b-to-scale-ai-acceleration-cloud-for-open-source-and-enterprise-ai-302380967.html。2026 年 7 月のリリースでは、Together が 100 万人以上の開発者と世界で最も要求の厳しい AI ワークロードの一部を支えていると述べられている：https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All。

開発者の数は収益の質と同じではない。登録した開発者は一度試して戻ってこないかもしれない。しかし、習慣は重要である。AI インフラの意思決定はコードから始まり、後に調達の意思決定になるからだ。Together でプロトタイプし、Together でファインチューニングし、Together のツールでレイテンシを観測し、Together の計算の近くにウェイトを保存し、その後 Together の GPU を予約するチームは、徐々に運用上のスイッチングコストを構築する。モデルのデプロイ、評価、ファインチューニング、エンドポイント管理が単一のワークフロー内にある場合も同様である。クラウドプロバイダーは、単なる置き換え可能な予算項目ではなく、日常業務の一部となったときにより持続可能になる。

Together の現在の採用情報は、同社がこの習慣を中心に運用能力を強化していることを示している。Greenhouse の求人ボードには、コンピューティング事業運営、データセンター戦略とコンピューティング調達、ネットワークアーキテクチャ、推論プラットフォームエンジニアリング、可観測性、サイト信頼性、分散ストレージ、キャピタルマーケッツとコーポレートディベロップメント、カスタマーサポート、ソリューションアーキテクチャを含む 48 のポジションが掲載されていた：https://job-boards.greenhouse.io/togetherai。採用ページは収益の証明ではないが、ボトルネックがどこにあるかを明らかにする。Together は推論を最適化できるエンジニアと、クラスターの信頼性を維持できる運用スタッフを必要としている。また、キャパシティを資金調達し、コミットメントを販売し、エンタープライズ顧客をサポートできる人材も必要としている。

公開市場での議論は、懐疑的な側面からも同じ不確実性を提起している。2024 年後半の Reddit スレッドでは、Together の急激な収益成長が持続可能なソフトウェア価値を反映しているのか、単に希少な計算リソースの再販なのかという懸念が表明された：https://www.reddit.com/r/MachineLearning/comments/1gps8fl/d_together_ai_hits_100m_in_arr_but_it_just/。このスレッドは投資適格の証拠ではなく、代表的なセンチメントと見なすべきではない。有用なのは、エンジニアや投資家が AI クラウドについて抱く根本的な問いを捉えているからである。プロバイダーは差別化された運用プラットフォームなのか、逼迫した市場におけるキャパシティブローカーなのか。

信頼性はコンポーネントレベルで証明されなければならない

推論の信頼性とは、一般的な可用性のスローガンではない。それはモデルの可用性、エンドポイントの起動時間、レート制限動作、競合下のレイテンシ、フェイルオーバー、リージョンキャパシティ、サポート応答、インシデントの透明性である。したがって、Together の公開ステータスページは単なる管理上の形式的なもの以上の意味を持つ。同ページは、ウェブサイト、サンドボックス、推論カテゴリ、特定のモデルサービスを含むドメインサービス別にコンポーネントをリストしており、この記事のチェック時点の 2026 年 7 月 5 日 UTC 更新で「すべてのサービスが稼働中」と表示されていた：https://status.together.ai/。同じページではコンポーネント履歴とメンテナンス記録が公開されており、これは本番トラフィックを AI クラウド経由でルーティングすることを決定する顧客にとって重要である。

ステータスページは、運用面の複雑さも明らかにしている。従来のソフトウェア API は少数のサービスコンポーネントで構成されるかもしれない。モデルクラウドは、モデルファミリー、モダリティ、デプロイパスごとに動作が異なる可能性があるため、多数の可動部分を持つ。顧客は 1 つのモデルと 1 つのエンドポイントだけを気にするかもしれない。Together は、共有コンポーネントがストレス下にあるために重要な顧客が影響を受けることを避けつつ、カタログ全体を管理しなければならない。

ここで、専用エンドポイントと GPU クラスターのラインが運用上有用になる。サーバーレスは最も導入が容易だが、顧客を共有フリートの制約にさらす。専用エンドポイントはキャパシティを隔離し予測可能性を向上させるが、稼働中は課金されるため、顧客はハードウェアを正当化するのに十分なトラフィックを計画する必要がある。GPU クラスターは顧客により多くの制御を提供するが、Together のマネージドオーケストレーションとサポートが堅牢でない限り、より多くの責任を顧客チームに移転する。価値提案は、1 つのモードが最善ということではない。利用が明確になるにつれて、Together が顧客をモード間で移行させられることである。

エンタープライズバイヤーにとって、AI がテストから顧客向けオペレーションへと移行するにつれて、信頼性の問いはより厳しくなる。6 倍のコスト削減は、レイテンシと可用性が製品のしきい値内に留まる場合にのみ意味を持つ。サポートラインが沈黙したり、ピーク需要時にワークフローが中断したりするなら、安価なモデル呼び出しは安価ではない。Together の証拠は、公開ページがコンポーネント監視、本番顧客事例、インフラ採用を示している点で最も強力である。公開資料が更新率、顧客クラス別のインシデント重大度履歴、契約上のサービスレベル、顧客側の事後分析を開示していない点では、依然として弱い。

オープンモデル代替が市場を拡大するがロックインを制限する

Together は、オープンウェイトモデルの台頭から恩恵を受けている。それにより、顧客は高価なクローズドモデル API に代わる信頼できる選択肢を得るからだ。同社のシリーズ C のリリースでは、業界全体でオープンソースモデルの使用が 12 か月で 3 倍になり、顧客はクローズド価格と比較して大幅な節約を報告していると述べている：https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All。Together のシリーズ C ブログでは、オープンウェイトモデルがプロプライエタリなクローズドモデルとの品質ギャップを縮め、それらを使用する企業は一貫してはるかに低いコストを達成しながら同等以上のパフォーマンスを維持していると述べている：https://www.together.ai/blog/announcing-our-series-c。すべての数字を受け入れるかどうかは別として、ビジネスの方向性は一貫している。ワークロードがオープンウェイトモデルで良好に動作するようになれば、顧客は単一プロバイダーのクローズドな価格表を受け入れるよりも、最も安価で信頼性の高い提供レイヤーを求めることができる。

この同じオープン性が Together のロックインを制限する。オープンウェイトモデルの提供は、原理的に顧客に移植性を与える。必要なチームがいれば、同じまたは類似のモデルをハイパースケーラー、専門クラウド、内部クラスター、またはコロケーションサーバーファームで実行できる。したがって、Together は、囲い込みではなく、品質によって切り替えを困難にしなければならない。より高速なカーネル、最適化された推論、マネージドファインチューニング、開発者ツール、プライバシー制御、可観測性、サポート、キャパシティの可用性がレバーである。顧客は、Together が今日モデルを持っているからではなく、離れると時間、パフォーマンス、または信頼性のコストがかかると感じる必要がある。

これは、顧客がプロプライエタリなストレージフォーマット、データベース、プラットフォームサービスに縛られる古いクラウドサービス依存モデルとは異なる。Together の依存リスクはより運用面にある。スタートアップは、Slurm、Kubernetes、GPU ドライバ、提供フレームワーク、モデル監視、キャパシティ予約、インシデント対応を実行する人材を雇いたくないかもしれない。規制対象の企業は、オープンウェイトのデプロイを調整・制御できるのであれば、機密性の高いワークロードをクローズドシステムに送りたくないかもしれない。メディアや音声アプリケーションは、ベンダーの正統性よりもミリ秒とターンあたりのコストを気にするかもしれない。Together は、これらの選択が毎日行われる便利な場所になれば、不可欠なものになり得る。

リスクは、十分な資金を持つハイパースケーラーやネオクラウドが同じ教訓を学ぶことだ。大手クラウドは、GPU 価格を引き下げ、より広範なクラウド関係で AI サービスを補助し、プライベート接続とコンプライアンスをバンドルし、独自の最適化された提供レイヤーを提供できる。専門プロバイダーは、生の GPU 価格、リージョンキャパシティ、ベアメタルアクセス、サポートでより激しく競争できる。Together のシリーズ B と C の発表はキャパシティの迅速な拡大の野心を示しているが、規模だけではロックインの問題は解決しない。プラットフォームは、オープンモデルの需要をワークフローレベルでの反復利用に変換しなければならない。

データセンターの希少性がテーゼを支えるが、エラーのコストを高める

マクロ環境は Together の緊急性を支持している。CBRE の 2025 年下半期北米データセンタートレンドレポートでは、プライマリーマーケットの空室率が年末に過去最低の 1.4% に低下し、プライマリーマーケットの供給はハイパースケール需要の加速により前年比 36% 増の 9,432 MW に達したとしている：https://www.cbre.com/insights/books/north-america-data-center-trends-h2-2025。JLL の 2026 年グローバルデータセンターアウトルックでは、セクターがエネルギー制約のあるスーパーサイクルに入り、2025 年から 2030 年の間に 97 GW の増加を予測し、2030 年までに 100 GW の新規供給に約 3 兆ドルの投資が必要になる可能性があると推定している：https://www.jll.com/en-us/insights/market-outlook/data-center-outlook。McKinsey は別途、データセンターに 2030 年までに世界で 6.7 兆ドルが必要になる可能性があり、そのうち 5.2 兆ドルが AI 処理負荷を処理する設備向けであると推定している：https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers。

これらの数字は、Together のような企業が、古いクラウド企業の成熟プロファイルを持つ前に大型ラウンドを調達する理由を説明している。エネルギー、土地、ネットワーク機器、最先端の GPU は、顧客契約が現れたときに即座に調達できるものではない。プロバイダーは使用に先立ってコミットしなければならない。Together のアクセラレーテッドコンピューティングページでは、25 以上の都市にオプションがあり、米国で 2 GW 超のポートフォリオ（短期キャパシティ 600 MW）、欧州で 150 MW 超が利用可能、アジアと中東ではプロジェクト規模に基づくオプションがあると述べている：https://www.together.ai/accelerated-compute。シリーズ C ブログでの 500 MW 超のコンピューティングキャパシティコミットメントへの言及は、キャパシティが今やクラウド製品であると同時にキャピタルマーケッツ製品でもあるという点を強化している。

希少性は純粋な利点ではない。キャパシティが希少な場合、顧客はプレミアムを支払い、投資家は拡大に資金を提供する。キャパシティが到着すると、価格は急落する可能性がある。NVIDIA の 2026 年度決算はハードウェアブームの規模を示している：年間収益は過去最高の 2,159 億ドル、第 4 四半期の収益は 681 億ドル、第 4 四半期のデータセンター収益は 623 億ドルで、データセンター需要による年間成長：https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-fourth-quarter-and-fiscal-2026。NVIDIA の H100 ページと GB200 NVL72 ページは、減価償却リスクが現実である理由も示している。各ハードウェア世代はメモリ、相互接続、スループット、有用なトークンあたりのコストを変化させる：https://www.nvidia.com/en-us/data-center/h100/およびhttps://www.nvidia.com/en-us/data-center/gb200-nvl72/。

Together にとって、結果はタイミングの問題である。GPU の調達が遅すぎれば、開発者や企業は他へ行く。キャパシティを保有しすぎたり、間違った種類のキャパシティを保有したりすれば、価格が低下した市場で高価なハードウェアを抱えることになる。次世代のハードウェアが推論コストを大幅に改善すれば、旧式のクラスターは低料金で埋めるか、依然として適合するワークロードに使用しなければならない。同社のソフトウェア最適化はこの曲線を緩和できるが、排除することはできない。

ハイパースケーラーの圧力は一時的な割引ではなく構造的な脅威である

ハイパースケーラーは、スペシャリストが AI ワークロードを奪うのを受動的に見ている既存事業者ではない。調達、顧客関係、ネットワーキング、コンプライアンス、エンタープライズ契約、相互補助的な価格設定において優位性を持っている。AWS の P5 および P5e ページはディープラーニングと HPC 向けの H100 および H200 GPU インスタンスを紹介し、キャパシティブロックは定義された時間枠内で GPU キャパシティを予約するメカニズムを示している：https://aws.amazon.com/ec2/instance-types/p5/およびhttps://aws.amazon.com/ec2/capacityblocks/pricing/。Google Cloud のドキュメントでは、H100 バリアントを含むトレーニングおよび提供ワークロード向けの A3 GPU マシンタイプが説明されている：https://docs.cloud.google.com/compute/docs/gpus。Microsoft のドキュメントでは、ハイエンドのディープラーニングトレーニングと密結合なスケールアップ／スケールアウトワークロード向けの ND H100 v5 仮想マシンが説明されている：https://learn.microsoft.com/en-us/azure/virtual-machines/sizes/gpu-accelerated/ndh100v5-series。

Together はハイパースケーラーにすべての面で勝つ必要はない。オープンモデルの速度、専門的なサポート、より低い単価、モデル間の容易な移行、より焦点を絞った AI 開発者体験を重視する顧客に対して勝つ必要がある。それらの役割を果たせば、市場は専門クラウドにとって十分に大きい。しかし、ハイパースケーラーの圧力は重要である。大手クラウドはベンチマーク価格を引き下げることができるからだ。また、AI ワークロードを、ストレージ、データベース、分析、ネットワーキング、セキュリティ、オフィス生産性の契約と交渉される広範なエンタープライズコミットメントに統合することもできる。スタートアップはスピードとシンプルさのために Together から購入するかもしれないが、大企業は既存のクラウドパートナーがより良い全体レートで価値の十分な部分をマッチできるかどうかを検討するかもしれない。

脅威は、Together のフルスタックを必要としないワークロードにとって特に深刻である。顧客が予測可能なトレーニングのために生の H100 または B200 時間だけを必要とし、経験豊富なインフラチームを持っている場合、Together を生のネオクラウド、ハイパースケーラーの予約、内部クラスターと比較するだろう。顧客が最適化された推論、迅速なモデル更新、ファインチューニング、プロンプト再利用、サポート、モデルの可用性を必要とする場合、Together にはより多くの余地がある。したがって、同社は最も安価な GPU 時間だけで判断されることを避けなければならない。そのマージンは、ハードウェアにソフトウェアと運用の価値をバンドルすることにかかっている。

Dell'Oro の 2026 年のデータセンターインフラ予測は、別の圧力点を加えている：ハイエンド GPU は依然としてコンポーネントの主要な成長ドライバーであるが、ハイパースケーラーは大規模なワークロードあたりのコスト、電力効率、パフォーマンスを最適化するために、より多くのカスタムアクセラレータを展開している：https://www.delloro.com/2026-predictions-data-center-infrastructure/。カスタムアクセラレータが推論用に成熟すれば、長期的な最低価格は NVIDIA の GPU クラウドだけでなく、最大のバイヤーにおけるプロプライエタリなシリコンによっても設定される可能性がある。Together の回答は柔軟性でなければならない。顧客が望むハードウェアをサポートし、提供ソフトウェアで先を行き、インフラアーキテクチャが進化したときに回復不能になるキャパシティベットを避けることだ。

同社は完全な運用ループを持つ場所で最も強力である

Together の最も強力なポジションは、単発のジョブのために数基の GPU を借りる顧客ではない。サーバーレスでプロトタイプし、オープンウェイトモデルをテストし、プライベートデータでファインチューニングし、品質を評価し、専用エンドポイントをデプロイし、クラスターキャパシティを予約し、レイテンシを監視し、モデルをイテレーションし、製品の成長に合わせて使用を拡大する、というループを回る顧客である。このループでは、Together はトークン使用、エンドポイントの分数、GPU 時間、ストレージ、ファインチューニングジョブ、サポートを通じてマージンを獲得する複数の方法がある。また、顧客の需要シグナルを利用して、生のレンタルマーケットプレイスよりも賢くキャパシティを計画することもできる。

Decagon の例は、このループを縮図で示している。サーバーレス推論、ファインチューニング、GPU クラスターがすべて使用製品としてリストされ、ビジネスの成果はターンあたりのコスト、p95 レイテンシ、毎週のモデルデプロイ速度を中心に組み立てられている：https://www.together.ai/customers/decagon。製品ページは、抽象的に同じシーケンスを示している。サーバーレスは開始コストを削減する。専用エンドポイントは分離と一貫したパフォーマンスを提供する。GPU クラスターは、より大規模なトレーニング、ファインチューニング、提供をサポートする。マネージドストレージはモデルのウェイトとデータを計算の近くに保持する。評価とモデル整形ツールは品質判断をサポートする。ビジネスポイントは、Together を単に GPU の支払い場所ではなく、チームがイテレーションを行うデフォルトの場所にすることだ。

この運用ループは、顧客と投資家に対する企業のメッセージも説明している。2026 年 7 月のリリースでは、Together が Cursor、Cognition、Decagon を含む数千の有料顧客にサービスを提供し、オープンソースモデルの使用が 12 か月で 3 倍になったと述べている：https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All。シリーズ B のリリースでは、Salesforce、Zoom、SK Telecom、Hedra、Cognition、Zomato、Krea、Cartesia、The Washington Post をプラットフォームを使用する組織として挙げていた：https://www.prnewswire.com/news-releases/together-ai-raises-305m-series-b-to-scale-ai-acceleration-cloud-for-open-source-and-enterprise-ai-302380967.html。これらの名前は企業が提供したものであるが、ターゲットを示している。まず AI ネイティブの開発者と企業、次により多くのコントロールを伴う費用対効果の高い本番 AI を必要とするグローバル企業である。

ループはリスクが集中する場所でもある。顧客が Together を単一のステップでのみ使用する場合、切り替えは容易である。ファインチューニングが他で行われ、評価が他で行われ、ストレージが他にあり、提供が他にある場合、Together はトークンエンドポイントになる。顧客が品質を損なうことなく、オープンウェイトモデルをより安価な GPU プロバイダーに移行できる場合、価格交渉は厳しくなる。Together のビジネスの質は、顧客のワークフローが同時に複数のスタック要素に依存するときに向上する。

野心に関する証拠は強力、持続可能な単位経済性に関する証拠は弱い

Together の野心に関する公開証拠は非常に豊富である。同社とサービスを特定する公式の利用規約、サーバーレス推論、専用エンドポイント、GPU クラスターの製品ページ、課金モードを説明するドキュメント、2023 年、2024 年、2025 年、2026 年の資金調達リリース、公開価格、レイテンシとコストのメトリクスを含む顧客ケーススタディ、ステータスページ、採用情報、サードパーティの投資家の説明がある。これらの情報源は明確な結論を支持する。Together Computer, Inc. は、オープンモデルのトレーニングと推論を本番規模でより安く、より速く、より運用しやすくすることを戦略とする重要な AI クラウド企業である。

証拠は、ビジネスモデルが最も困難な部分で弱い。公開資料は、製品別の粗利益、フリート稼働率、平均エンドポイント占有率、予約キャパシティの更新、顧客集中度、正確な資本コスト、減価償却の前提、エネルギー契約期間、GPU 調達条件、エンタープライズ顧客あたりのサポートコスト、あるいは年間予約高のうちどれだけが認識収益に変換されるかを示していない。Together の 2026 年 7 月の年間予約高の数字は有用な成長シグナルだが、予約高は収益、粗利益、フリーキャッシュフローと同じではない。50 倍のインフラ拡大目標は強力だが、将来の資本集約度に関する声明でもある。

市場での議論も有用に混合している。開発者は摩擦のないモデルアクセス、高速推論、オープンモデルのオプション性を好む。投資家は収益成長と資金調達を好む。懐疑論者は、同社が希少な GPU の仲介者に過ぎないのではないかと疑問視する。顧客はより低いトークンコストを望むが、本番での信頼性の欠如は許容しない。ハイパースケーラーは信頼できる競合である。生の GPU プロバイダーは価格を下回ることができる。ハードウェア世代は急速に進化する。これらのいずれも楽観的なシナリオを無効にするものではなく、テストを定義するものである。

したがって、最も重要な監視ポイントは具体的である。第一に、Together が音声だけでなく、異なる種類のワークロードについて Decagon のような顧客側の証拠をより多く示せるかどうか。第二に、本番トラフィックが増加するにつれて、公開ステータス履歴とサポートが成熟するかどうか。第三に、顧客がサーバーレスのテストから専用エンドポイントや予約 GPU クラスターに移行し、習慣と利用を証明するかどうか。第四に、500 MW 超のキャパシティ野心がマージン破壊なしに資金調達され充足できるかどうか。第五に、ハイパースケーラーやオープンソーススタックが改善する中で、Together のカーネルと提供に関する優位性が可視であり続けるかどうか。

バイヤーの実際的な問いは、誰が固定費を負担すべきかである

冒頭の例の AI スタートアップにとって、決定はロゴから始めるべきではない。需要の形状から始めるべきだ。トラフィックが不規則であれば、サーバーレスのトークン課金はアイドルハードウェアを回避するため合理的かもしれない。トラフィックが安定しておりレイテンシに敏感であれば、稼働率が高いままであれば専用エンドポイントの方が安価で予測可能かもしれない。企業が大規模なトレーニングやファインチューニングの負荷を持つ場合、チームがそれらをビジーに保つことができ、Together のマネージドレイヤーが十分なエンジニアリング時間を節約できるなら、GPU クラスターは理にかなう。企業にインフラのスペシャリストがおり、非常に予測可能なワークロードがある場合、セルフホスティングやネオクラウドからの生のキャパシティが勝つかもしれない。企業がすでにハイパースケーラーとの大規模なコミットメントを持っている場合、既存のクラウドは調達面で打ち負かすのが難しいかもしれない。

Together の役割は、この決定をより二分されないようにすることだ。同社の製品ラインは、顧客がトークン課金の推論から始め、需要が具体化するにつれて予約ハードウェアへとスケールアップすることを可能にする。研究の物語は、GPU 時間あたりのより有用なアウトプットを約束する。資金調達の物語は将来のキャパシティを約束する。ステータスページとサポート採用は、本番ワークロードが運用規律を必要とすることを認識していることを示す。顧客ケーススタディは、コストとレイテンシのゲインがマージンに影響を与え得るユースケースの種類を示している。

重要な不確実性は変わらない。Together は、GPU の減価償却と価格競争がマージンを侵食する前に、オープンモデルの需要を持続可能な利用に変換しなければならない。開発者が留まるのは、プラットフォームがエンジニアリング時間を節約し本番経済性を改善するからであり、GPU が一時的に不足していたからではないことを証明しなければならない。顧客が十分なスタックを採用し、Together がワークフローの習慣になることを示さなければならない。そして、将来のすべての値下げをバランスシートの問題に変えずにキャパシティを資金調達しなければならない。

これにより、Together は高確信だが低リスクではないクラウドサービス依存先となる。成功すれば、同社はローカルクラウド代替の実用的なコントロールポイントの一つとなる。スタートアップや企業が、経済性をクローズドシステムに明け渡したり、独自のクラスターを運用したりすることなく、オープンウェイトの AI ワークロードを実行できる場所だ。失敗すれば、ハードウェアが安くなり、ハイパースケーラーがより鋭くなり、開発者が次のより安価な提供スタックに移行する市場で、もう一つの高コストなレイヤーとなる。その答えは、スローガンよりも、トークンスループット、エンドポイント占有率、予約 GPU の更新、そして次世代 GPU が価格グリッドをリセットするときの顧客の忍耐によって現れるだろう。