Together AI et le test de marge dans l'heure GPU

Résumé

Together Computer, Inc., opérant sous le nom de Together AI, est passée d'une plateforme de développement de modèles ouverts à un cloud IA à forte intensité capitalistique: les documents officiels décrivent l'inférence serverless, les endpoints dédiés, les clusters GPU, le stockage géré, le fine-tuning, les évaluations et les infrastructures personnalisées à grande échelle, tandis que ses conditions identifient Together Computer, Inc. comme la société du Delaware derrière les API et les interfaces web pour l'hébergement, l'utilisation, le fine-tuning et l'entraînement de grands modèles d'IA:https://www.together.ai/terms-of-serviceethttps://www.together.ai/.
L'entreprise se situe désormais dans l'écart économique entre la location brute de GPU et les services d'IA complets des hyperscalers. Les pages publiées par Together montrent des inférences serverless facturées au token, des endpoints dédiés à la minute, des clusters GPU à la demande et réservés, et des ambitions de grande capacité; les communiqués financiers publics font état d'un tour de table de série C de 800 millions de dollars pour une valorisation post-money de 8,3 milliards de dollars, de réservations annuelles supérieures à 1,15 milliard de dollars au dernier trimestre et d'une expansion prévue de l'infrastructure d'environ 50 fois:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All.
Le scénario optimiste est que les modèles à poids ouverts, les logiciels d'inférence spécialisés, les outils pour développeurs et l'exploitation de clusters GPU peuvent faire de Together une couche de production par défaut pour les entreprises qui souhaitent réduire leurs coûts unitaires sans posséder de puces. Le scénario pessimiste est que l'offre de GPU devient moins rare, que les hyperscalers baissent leurs prix, que les neoclouds bruts réduisent les tarifs affichés et que les clients traitent Together comme un courtier remplaçable plutôt qu'une surface opérationnelle quotidienne.
Le point d'incertitude clé est donc l'utilisation et l'habitude: la demande des développeurs, l'utilisation stable des endpoints, les engagements de GPU réservés et la dépendance aux flux de travail doivent dépasser la dépréciation des GPU, le coût de financement, le coût de support et la pression sur les prix des hyperscalers.

L'acheteur voit un token; Together voit une obligation de capacité

Imaginez une jeune entreprise de logiciels d'IA avec un flux de travail performant. Au premier mois, elle appelle un modèle à poids ouverts hébergé via une API serverless parce que le trafic est irrégulier et que personne ne veut embaucher une équipe d'exploitation GPU. Au sixième mois, ses clients s'attendent à une faible latence, l'équipe produit veut un fine-tuning personnalisé et le responsable financier constate que chaque action utilisateur est devenue un coût de token d'inférence. L'entreprise a maintenant quatre choix imparfaits. Elle peut rester avec la couche de diffusion de modèles partagée de Together. Elle peut réserver un endpoint dédié sur le matériel de Together. Elle peut louer des clusters GPU et exécuter sa propre pile de diffusion. Ou elle peut passer à un grand hyperscaler ou à une pile d'inférence open source auto-hébergée et accepter la charge d'ingénierie.

L'unité visible dans cette discussion est simple: un million de tokens d'entrée, un million de tokens de sortie, une heure GPU ou un tarif d'endpoint à la minute. La page de tarification de Together est construite autour de ces unités. Elle répertorie l'inférence serverless par modèle et type de token, les catégories d'endpoints dédiés et de clusters GPU, les frais de fine-tuning par tokens traités, le stockage à un tarif mensuel par Gio, et les clusters GPU avec des paliers à la demande et réservés:https://www.together.ai/pricing. Sa documentation indique que l'inférence serverless est facturée à l'utilisation sans minimum ni coût d'approvisionnement, tandis que les endpoints dédiés sont facturés à la minute pour le matériel réservé:https://docs.together.ai/docs/inference/pricing. La documentation sur les clusters GPU décrit deux modes de capacité, la capacité réservée pour les travaux prévisibles de plusieurs jours et la capacité à la demande pour une utilisation en paiement à l'usage, avec un modèle mixte où le client réserve une base et ajoute des GPU à la demande pour les pics:https://docs.together.ai/docs/gpu-clusters-overview.

Le coût caché est moins visible et plus important. Quelqu'un doit s'approvisionner en GPU de dernière génération, les connecter avec un réseau à haut débit, configurer les pilotes, orchestrer les clusters, exécuter le logiciel de diffusion de modèles, optimiser les noyaux, maintenir les outils pour développeurs, répondre aux appels de support des entreprises, exposer la télémétrie de fiabilité, et financer le capital pendant que le matériel vieillit. La proposition de Together est que ces coûts peuvent être mutualisés et amortis sur des clients qui souhaitent les avantages économiques des modèles ouverts sans construire toute la couche cloud eux-mêmes. L'acheteur veut une facture de tokens plus basse; Together doit gérer un parc dont la rentabilité dépend de l'occupation, des performances et du renouvellement.

C'est pourquoi l'entreprise est importante pour la taxonomie des services cloud de BTW. Il ne s'agit pas simplement d'un autre catalogue d'API de modèles. Les conditions juridiques indiquent que Together Computer, Inc. met à disposition des API et des interfaces web pour héberger, utiliser, fine-tuner et entraîner de grands modèles d'IA, et peut fournir un support de formation, de migration ou professionnel:https://www.together.ai/terms-of-service. La page d'accueil positionne l'entreprise comme une plateforme d'IA complète pour l'inférence, la mise en forme de modèles et le pré-entraînement, avec l'inférence serverless, l'inférence par lots, l'inférence de modèles dédiés, l'inférence de conteneurs dédiés, les clusters GPU, l'infrastructure personnalisée, le stockage géré et les environnements de développement:https://www.together.ai/. L'importance de Together sur le marché réside dans le contrôle de cette pile complète, car le développeur d'applications d'IA prend de plus en plus une décision de dépendance cloud à chaque fois qu'il choisit où exécuter un modèle.

La gamme de produits de Together transforme les expériences en dépenses réservées

La gamme de produits de Together est conçue pour capter le client à plusieurs stades de maturité. La documentation présente l'inférence serverless comme un accès à plus de 100 modèles open source via une API facturée au token, adaptée au prototypage ou au trafic variable, et les endpoints dédiés comme un modèle unique fonctionnant sur des GPU réservés au client, adapté à un trafic stable, une latence constante et des modèles fine-tunés:https://docs.together.ai/docs/inference/overview. La page serverless souligne l'absence de gestion d'infrastructure, d'engagements à long terme, une API unique pour toutes les modalités et des performances d'inférence optimisées par les noyaux, l'ordonnancement et les systèmes d'exécution:https://www.together.ai/serverless-inference. La page d'inférence dédiée indique que le produit est conçu pour les charges de production qui nécessitent des performances constantes et un contrôle opérationnel, avec des déploiements pouvant atteindre des milliers de GPU pour une inférence permanente:https://www.together.ai/dedicated-model-inference.

Cette gamme a une logique commerciale claire. La tarification au token pour le serverless abaisse la barrière à l'adoption et crée un flux d'utilisation. Les endpoints dédiés convertissent les expériences réussies en engagements matériels à la minute. Les clusters GPU convertissent les charges plus lourdes d'entraînement, de fine-tuning ou de diffusion spécialisée en engagements d'heures GPU. La page de calcul accéléré indique que les clients peuvent entraîner, fine-tuner et déployer sur des clusters GPU en libre-service, avec des pilotes préconfigurés, de l'observabilité, une orchestration gérée, Kubernetes ou Slurm, une infrastructure auto-réparatrice et des modes à la demande ou réservés:https://www.together.ai/accelerated-compute. La page distincte sur les clusters GPU présente l'offre comme des performances bare-metal, un réseau InfiniBand et une orchestration gérée avec une tarification flexible à la demande ou réservée:https://www.together.ai/gpu-clusters.

L'avantage pour Together est que chaque étape vers le haut peut accroître la visibilité sur la demande. Un utilisateur serverless peut disparaître après avoir testé. Un utilisateur d'endpoint dédié a un trafic suffisamment prévisible pour payer pour le matériel, que chaque minute soit pleinement utilisée ou non. Un client de cluster GPU réservé révèle une utilisation planifiée sur plusieurs jours ou mois. Un client « AI Factory » fait de Together une partie intégrante de son plan de capacité plutôt qu'un simple appel de modèle occasionnel. L'inconvénient est que chaque étape vers le haut expose Together à davantage de responsabilité opérationnelle. Un développeur peut pardonner une variabilité occasionnelle dans une charge de test. Un produit vocal ou un outil de codage en production ne peut pas accepter de longues pauses, des surprises de démarrage à froid ou une gestion des incidents peu claire.

Les supports clients de Together montrent la forme de cette promesse de production. L'étude de cas Decagon indique que Decagon a utilisé l'inférence serverless, le fine-tuning et les clusters GPU de Together pour une charge de travail vocale, rapportant une réduction de coût de 6 fois par tour et une latence du modèle p95 inférieure à 400 millisecondes pour des entrées allant jusqu'à des dizaines de milliers de tokens:https://www.together.ai/customers/decagon. Une étude de cas publiée par l'entreprise n'est pas une preuve indépendante de l'économie moyenne des clients, mais c'est un signal utile de ce que Together veut vendre: pas seulement une heure GPU bon marché, mais une latence plus faible, une réduction des coûts, des modèles fine-tunés et un support opérationnel autour d'une application de production.

L'histoire du financement fait désormais partie de l'histoire du produit

Les levées de capitaux de Together sont devenues aussi importantes que sa surface d'API parce que les clients du cloud IA achètent la confiance que la capacité existera lorsque leur demande arrivera. L'entreprise a annoncé une série A de 102,5 millions de dollars en novembre 2023 menée par Kleiner Perkins, avec la participation de NVIDIA et Emergence Capital, et a déclaré que son infrastructure atteignait 20 exaflops dans plusieurs centres de données aux États-Unis et dans l'UE:https://www.together.ai/blog/series-a. En mars 2024, elle a annoncé un tour de 106 millions de dollars mené par Salesforce Ventures, avec plus de 45 000 développeurs enregistrés, un trafic en croissance de 3x d'un mois sur l'autre, et un substrat multi-cloud utilisant plus de 10 plateformes de cloud GPU:https://www.together.ai/blog/series-a2. Le même article indiquait que Together travaillait avec Crusoe Cloud, Applied Digital, Lambda Labs, Vultr, Oracle Cloud et ClusterPower, ce qui est une preuve utile des racines de courtage de capacité de l'entreprise.

En février 2025, l'histoire était passée de l'adoption précoce par les développeurs à une expansion d'infrastructure à grande échelle. L'annonce de la série B de Together a fait état d'un tour de 305 millions de dollars mené par General Catalyst et co-dirigé par Prosperity7, d'une valorisation de 3,3 milliards de dollars, de plus de 450 000 développeurs d'IA, de 200 MW de capacité électrique sécurisée et de plans de déploiement de clusters GPU NVIDIA Blackwell dans plusieurs centres de données nord-américains:https://www.prnewswire.com/news-releases/together-ai-raises-305m-series-b-to-scale-ai-acceleration-cloud-for-open-source-and-enterprise-ai-302380967.html. Le blog de l'entreprise pour le même tour a également indiqué un déploiement important de GPU Blackwell et a souligné un partenariat avec Hypertec pour co-construire un cluster de 36 000 GPU GB200 NVL72:https://www.together.ai/blog/together-ai-announcing-305m-series-bethttps://www.together.ai/blog/nvidia-gb200-together-gpu-cluster-36k.

La série C de juillet 2026 a rendu le lien de financement explicite. Business Wire a rapporté un financement de 800 millions de dollars pour une valorisation post-money de 8,3 milliards de dollars, mené par Aramco Ventures avec la participation de Vista Equity Partners, General Catalyst, Emergence Capital, NVIDIA, March Capital, Pegatron, S Ventures et d'autres. Il a également rapporté que les réservations annuelles ont dépassé 1,15 milliard de dollars au dernier trimestre, que l'entreprise sert des milliers de clients payants et qu'elle prévoit une croissance d'environ 50 fois de sa capacité et de son empreinte d'infrastructure sur cinq ans:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All. Le blog de la série C de Together a ajouté que l'entreprise avait obtenu des engagements pour plus de 500 MW de capacité de calcul qui seront capitalisés indépendamment par de nouveaux investisseurs:https://www.together.ai/blog/announcing-our-series-c.

Ce sont des chiffres rapportés par l'entreprise, pas des comptes publics audités. Pourtant, ils modifient l'analyse. Une plateforme logicielle à faible capex peut être jugée principalement sur la croissance, la marge brute et la rétention. Un cloud IA doit être jugé sur l'accès au capital, l'accès à l'énergie, l'approvisionnement en matériel, l'utilisation et la dépréciation. Together dit effectivement à ses clients que ses partenaires financiers font partie de la promesse de capacité. Cela peut être une force lorsque les GPU sont rares. Cela peut aussi devenir un fardeau si le marché évolue plus vite que les actifs ne peuvent être remplis.

Les pages de prix révèlent le couloir dans lequel les marges doivent survivre

Le couloir de prix de Together est plus étroit que ce que son langage marketing laisse entendre. D'un côté, la tarification des modèles fermés de pointe crée un espace pour la substitution par des modèles à poids ouverts. Le communiqué de la série C de Together indique que les clients rapportent des économies de 6 à 60 fois par rapport à la tarification des modèles fermés, et sa page Decagon donne un exemple spécifique publié par l'entreprise d'une réduction de près de 6 fois pour une charge de travail vocale de service client:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-Allethttps://www.together.ai/customers/decagon. C'est le moteur de demande de haut niveau: les applications d'IA en production deviennent coûteuses lorsque chaque interaction utilisateur appelle un modèle fermé premium, de sorte que les entreprises recherchent des alternatives à poids ouverts servies efficacement.

De l'autre côté, les marchés bruts de GPU continuent de fixer un plancher. La page de tarification de Together affichait des tarifs de cluster GPU à la demande à 3,99 $ par heure GPU pour HGX H100, 5,99 $ pour HGX H200 et 8,19 $ pour HGX B200, avec des tarifs H100 plus bas pour des réservations plus longues dans le tableau visible:https://www.together.ai/pricing. Sa documentation sur les endpoints dédiés affichait un GPU H100 unique à 6,49 $ de l'heure, H200 à 7,89 $ et B200 à 11,95 $, facturé à la minute pendant que l'endpoint est en cours d'exécution, quel que soit le volume de requêtes:https://docs.together.ai/docs/dedicated-endpoints/overview. Ces chiffres montrent pourquoi l'utilisation est importante. Un endpoint dédié est attractif lorsque le client valorise l'isolation, la latence et le contrôle; il est gaspilleur lorsque la demande est irrégulière et que les minutes d'inactivité dominent.

Les concurrents créent une pression sur les prix de plusieurs directions. La page de tarification publique de Lambda affichait des plans de cluster H100 à 6,16 $ par heure GPU pour un plan de 16 GPU sur une durée de deux semaines à un an, tombant à 5,54 $ pour 256 GPU, plus la taxe de vente applicable:https://lambda.ai/pricing. La tarification publique de CoreWeave montrait des systèmes NVIDIA HGX H100 à 49,24 $ par heure pour huit GPU, soit environ 6,16 $ par heure GPU avant d'autres différences de service, avec des instances spot à 19,71 $ par heure système:https://www.coreweave.com/pricing. La documentation de Nebius listait NVIDIA H100 NVLink à partir du 1er juin 2026 à 3,85 $ par heure GPU et H100 préemptible à 2,15 $ dans la région où il est disponible:https://docs.nebius.com/compute/resources/pricing. La page de tarification de Runpod montrait une place de marché GPU en direct avec B200 à 8,64 $ de l'heure et H200 à 5,93 $ de l'heure sur le bloc de tarification serverless visible:https://www.runpod.io/pricing. Les blocs de capacité AWS affichaient des exemples de p5.4xlarge à GPU H100 unique à 4,326 $ de l'heure dans plusieurs régions américaines et 3,933 $ dans plusieurs régions hors des États-Unis, tandis que la page AWS P5 présente les instances EC2 H100 et H200 pour l'apprentissage profond et le calcul haute performance:https://aws.amazon.com/ec2/capacityblocks/pricing/ethttps://aws.amazon.com/ec2/instance-types/p5/.

La comparaison n'est pas directe. Certaines offres incluent une orchestration gérée, certaines nécessitent des nœuds entiers, certaines sont interruptibles, certaines sont liées à des régions spécifiques, et certaines regroupent le support ou les logiciels différemment. Mais l'implication est claire: Together ne peut pas compter uniquement sur la rareté des GPU. Elle doit gagner une marge grâce aux performances, à l'expérience développeur, à la disponibilité des modèles, aux contrôles de données, à la fiabilité, au support et à l'intégration des flux de travail. Si un client peut atteindre le même débit et la même latence avec une location de GPU brute moins chère et une pile de diffusion open source, la marge de Together se compresse.

L'effet de levier logiciel est l'échappatoire promise face à la location de GPU de base

La réponse de Together à la pression de la marchandisation est l'effet de levier logiciel. L'entreprise relie régulièrement son économie à la recherche sur les systèmes: FlashAttention, optimisation des noyaux, décodage spéculatif, quantification, environnements d'exécution de diffusion et orchestration de clusters. La page de calcul accéléré indique que Together Kernel Collection a permis un entraînement 90 % plus rapide sur les GPU Blackwell dans un benchmark d'architecture Llama de 70 milliards de paramètres, passant de 8 080 tokens par seconde sur HGX H100 à 15 264 tokens par seconde par GPU sur HGX B200 avec une pile optimisée:https://www.together.ai/accelerated-compute. La page serverless indique que les performances d'inférence sont optimisées en continu par les noyaux, l'ordonnancement et les systèmes d'exécution:https://www.together.ai/serverless-inference. La page d'inférence dédiée met l'accent sur le décodage spéculatif adaptatif, des sorties plus rapides, l'apprentissage en production et un déploiement en quelques minutes:https://www.together.ai/dedicated-model-inference.

C'est important car une heure GPU n'est pas une unité de production. Ce qui compte pour le client, ce sont les tokens utiles par dollar, à un seuil de latence et de qualité. Si Together peut générer plus de production utile par heure GPU qu'une pile de diffusion générique, elle peut facturer moins que les API de modèles fermés premium tout en dégageant une marge supérieure au coût du matériel. Si son avantage logiciel est temporaire ou difficile à prouver, le client ne voit que l'heure GPU et négocie en conséquence.

La crédibilité axée sur la recherche de l'entreprise est inhabituelle pour un fournisseur de cloud. Salesforce Ventures décrit Together comme une plateforme cloud GPU de premier plan pour les charges de travail d'entraînement et d'inférence optimisées, avec des piles logicielles propriétaires sur des clusters GPU pour les performances et la rentabilité; elle mentionne également les fondateurs Vipul Ved Prakash, Ce Zhang, Chris Re et Percy Liang:https://salesforceventures.com/companies/together-ai/. Les propres pages de Together mettent également en avant le scientifique en chef Tri Dao, connu pour FlashAttention, dans le cadre de l'histoire des performances des noyaux et de l'entraînement. Ce pedigree aide l'entreprise à convaincre les acheteurs techniques qu'elle ne se contente pas de revendre l'accès au matériel.

Le défi est la mesure. Les meilleures preuves seraient de grandes comparaisons côté client de la latence, du débit, du coût et de la fiabilité dans des conditions de production. Les preuves publiques sont encore largement constituées de déclarations de l'entreprise, d'études de cas clients et de pages produits axées sur des benchmarks. Cela ne rend pas les déclarations fausses; cela signifie que la vision d'investissement devrait accorder plus de poids au comportement de renouvellement, à la migration des charges de travail, à l'expansion des endpoints et aux réservations de clusters à long terme qu'à une seule déclaration de vitesse.

L'habitude des développeurs fait la différence entre la rente de plateforme et la marge de courtier

L'actif le plus précieux de Together n'est peut-être pas un bail de centre de données ou un catalogue de modèles. C'est peut-être l'habitude des développeurs. L'article de financement de 2024 indiquait que Together comptait plus de 45 000 développeurs enregistrés et était intégrée à des frameworks de développement d'applications tels que LangChain, Vercel, LlamaIndex, MongoDB et EmbedChain:https://www.together.ai/blog/series-a2. Le communiqué de février 2025 indiquait que la base d'utilisateurs était passée à plus de 450 000 développeurs d'IA:https://www.prnewswire.com/news-releases/together-ai-raises-305m-series-b-to-scale-ai-acceleration-cloud-for-open-source-and-enterprise-ai-302380967.html. Le communiqué de juillet 2026 indiquait que Together alimente plus d'un million de développeurs et certaines des charges de travail d'IA les plus exigeantes au monde:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All.

Le nombre de développeurs n'est pas la même chose que la qualité des revenus. Un développeur enregistré peut tester une fois et ne jamais revenir. Mais l'habitude est importante car les décisions d'infrastructure d'IA commencent dans le code et deviennent des décisions d'approvisionnement plus tard. Une équipe qui prototype sur Together, fine-tune sur Together, observe la latence via l'outillage de Together, stocke les poids près du calcul de Together et réserve ensuite des GPU Together crée progressivement des coûts de changement opérationnels. Il en va de même lorsque le déploiement de modèles, l'évaluation, le fine-tuning et la gestion des endpoints se trouvent dans un seul flux de travail. Un fournisseur de cloud devient plus durable lorsqu'il fait partie du travail quotidien plutôt qu'un poste de ligne qui peut être remplacé après une offre moins chère.

La surface de recrutement actuelle de Together confirme que l'entreprise renforce ses capacités opérationnelles autour de cette habitude. Le tableau Greenhouse affichait 48 postes, notamment dans les opérations commerciales de calcul, la stratégie de centre de données et l'approvisionnement en calcul, l'architecture réseau, l'ingénierie de plateforme d'inférence, l'observabilité, la fiabilité des sites, le stockage distribué, les marchés de capitaux et le développement d'entreprise, le support client et l'architecture de solutions:https://job-boards.greenhouse.io/togetherai. Les pages de recrutement ne sont pas une preuve de revenus, mais elles révèlent où se situent les goulets d'étranglement. Together a besoin d'ingénieurs capables d'optimiser l'inférence et de personnel d'exploitation capable de maintenir la fiabilité des clusters; elle a également besoin de personnes capables de financer la capacité, de vendre des engagements et de soutenir les clients d'entreprise.

Les discussions publiques sur le marché soulèvent le même point d'incertitude du côté sceptique. Un fil Reddit fin 2024 a formulé la préoccupation: la croissance rapide des revenus de Together reflète-t-elle une valeur logicielle durable ou simplement la revente de calcul rare:https://www.reddit.com/r/MachineLearning/comments/1gps8fl/d_together_ai_hits_100m_in_arr_but_it_just/. Ce fil n'est pas une preuve de qualité investissement et ne doit pas être considéré comme un sentiment représentatif. Il est utile car il capture la question fondamentale que les ingénieurs et les investisseurs se posent à propos des clouds IA: le fournisseur est-il une plateforme opérationnelle différenciée ou un courtier en capacité dans un marché tendu?

La fiabilité doit être prouvée au niveau des composants

La fiabilité de l'inférence n'est pas un slogan général de disponibilité. C'est la disponibilité des modèles, le temps de démarrage des endpoints, le comportement de limitation de débit, la latence en situation de concurrence, le basculement, la capacité régionale, la réponse du support et la transparence des incidents. La page de statut publique de Together est donc plus qu'une simple formalité administrative. Elle répertorie les composants par domaine de service, y compris le site web, le bac à sable, les catégories d'inférence et les services de modèles spécifiques, et elle indiquait « Tous les services sont en ligne » avec une mise à jour UTC du 5 juillet 2026 lors de la vérification pour cet article:https://status.together.ai/. La même page expose l'historique des composants et les enregistrements de maintenance, ce qui est important pour les clients qui décident de faire transiter leur trafic de production par un cloud IA.

La page de statut révèle également la complexité de la surface opérationnelle. Une API logicielle traditionnelle peut avoir quelques composants de service. Un cloud de modèles comporte de nombreuses pièces mobiles car chaque famille de modèles, modalité et chemin de déploiement peut se comporter différemment. Un client peut ne se soucier que d'un seul modèle et d'un seul endpoint. Together doit gérer l'ensemble du catalogue tout en évitant que des clients de grande valeur ne souffrent parce qu'un composant partagé est sous tension.

C'est là que la gamme d'endpoints dédiés et de clusters GPU devient utile sur le plan opérationnel. Le serverless est le plus facile à adopter mais expose les clients aux contraintes de la flotte partagée. Les endpoints dédiés peuvent isoler la capacité et améliorer la prévisibilité, mais ils sont facturés pendant leur exécution et nécessitent que le client prévoie un trafic suffisant pour justifier le matériel. Les clusters GPU donnent au client plus de contrôle, mais transfèrent davantage de responsabilités à l'équipe du client, à moins que l'orchestration gérée et le support de Together ne soient solides. La proposition de valeur n'est pas qu'un mode est le meilleur. C'est que Together peut faire passer le client d'un mode à l'autre à mesure que l'utilisation devient plus claire.

Pour les acheteurs d'entreprise, la question de la fiabilité deviendra plus exigeante à mesure que l'IA passe des tests aux opérations clients. Une réduction des coûts de 6 fois n'a d'importance que si la latence et la disponibilité restent dans les seuils du produit. Un appel de modèle bon marché n'est pas bon marché si une ligne de support devient silencieuse ou si un flux de travail s'interrompt pendant une demande de pointe. Les preuves de Together sont les plus solides là où les pages publiques montrent une surveillance des composants, des cas clients en production et des recrutements d'infrastructure. Elles restent plus faibles là où le matériel public ne divulgue pas les taux de renouvellement, l'historique de gravité des incidents par classe de client, les niveaux de service contractuels ou les post-mortems côté client.

La substitution par des modèles ouverts élargit le marché mais limite l'enfermement

Together bénéficie de l'essor des modèles à poids ouverts car cela offre aux clients une alternative crédible aux API de modèles fermés coûteuses. Son communiqué de série C indique que l'utilisation de modèles open source dans l'ensemble du secteur a triplé en douze mois et que les clients signalent des économies importantes par rapport à la tarification fermée:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All. Le blog de la série C de Together indique que les modèles à poids ouverts ont réduit l'écart de qualité avec les modèles fermés propriétaires et que les entreprises qui les utilisent obtiennent régulièrement des coûts beaucoup plus bas tout en maintenant des performances comparables ou meilleures:https://www.together.ai/blog/announcing-our-series-c. Que l'on accepte ou non tous les chiffres, la direction commerciale est cohérente. Une fois qu'une charge de travail peut bien fonctionner sur un modèle à poids ouverts, les clients peuvent rechercher la couche de diffusion fiable la moins chère plutôt que d'accepter la grille tarifaire fermée d'un seul fournisseur.

Cette même ouverture limite l'enfermement de Together. La diffusion de modèles à poids ouverts offre aux clients une portabilité en principe. Ils peuvent exécuter les mêmes modèles ou des modèles similaires sur un hyperscaler, un cloud spécialisé, un cluster interne ou une ferme de serveurs en colocation s'ils disposent de l'équipe. Together doit donc rendre le changement difficile par la qualité, pas par la captivité. Des noyaux plus rapides, une inférence optimisée, un fine-tuning géré, des outils pour développeurs, des contrôles de confidentialité, de l'observabilité, du support et une disponibilité de la capacité sont les leviers. Le client doit sentir que partir coûterait du temps, des performances ou de la fiabilité, pas seulement que Together a le modèle aujourd'hui.

C'est différent de l'ancien modèle de dépendance aux services cloud où un client devenait lié à des formats de stockage propriétaires, des bases de données ou des services de plateforme. Le risque de dépendance de Together est plus opérationnel. Une startup peut ne pas vouloir embaucher des personnes pour exécuter Slurm, Kubernetes, les pilotes GPU, les frameworks de diffusion, la surveillance des modèles, les réservations de capacité et la réponse aux incidents. Une entreprise réglementée peut ne pas vouloir envoyer des charges de travail sensibles à un système fermé si les déploiements à poids ouverts peuvent être ajustés et contrôlés. Une application médiatique ou vocale peut se soucier davantage des millisecondes et des coûts par tour que de l'orthodoxie du fournisseur. Together peut devenir un incontournable s'il devient le lieu pratique où ces choix sont faits chaque jour.

Le risque est que les hyperscalers et les neoclouds bien financés apprennent la même leçon. Les grands clouds peuvent réduire les prix des GPU, subventionner les services d'IA avec des relations cloud plus larges, regrouper la connectivité privée et la conformité, et proposer leurs propres couches de diffusion optimisées. Les fournisseurs spécialisés peuvent concurrencer plus durement sur le prix brut des GPU, la capacité régionale, l'accès bare-metal ou le support. Les annonces des séries B et C de Together montrent l'ambition d'étendre rapidement la capacité, mais l'échelle seule ne règle pas la question de l'enfermement. La plateforme doit convertir la demande de modèles ouverts en une utilisation répétée au niveau du flux de travail.

La rareté des centres de données soutient la thèse mais augmente le coût de l'erreur

L'environnement macroéconomique soutient l'urgence de Together. Le rapport CBRE sur les tendances des centres de données en Amérique du Nord au second semestre 2025 indique que le taux de vacance du marché primaire est tombé à un niveau record de 1,4 % en fin d'année et que l'offre du marché primaire a augmenté de 36 % en glissement annuel pour atteindre 9 432 MW en raison de la demande hyperscale accélérée:https://www.cbre.com/insights/books/north-america-data-center-trends-h2-2025. Les perspectives mondiales des centres de données 2026 de JLL indiquent que le secteur entre dans un supercycle contraint par l'énergie, projettent une augmentation de 97 GW entre 2025 et 2030, et estiment qu'environ 3 000 milliards de dollars d'investissement pourraient être nécessaires pour 100 GW de nouvelle offre d'ici 2030:https://www.jll.com/en-us/insights/market-outlook/data-center-outlook. McKinsey estime séparément que les centres de données pourraient nécessiter 6 700 milliards de dollars dans le monde d'ici 2030, dont 5 200 milliards pour les installations équipées pour gérer les charges de traitement de l'IA:https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers.

Ces chiffres expliquent pourquoi une entreprise comme Together lève de gros tours avant d'avoir le profil de maturité d'une ancienne société de cloud. L'énergie, le foncier, les équipements réseau et les GPU de dernière génération ne peuvent pas être convoqués instantanément lorsqu'un contrat client apparaît. Le fournisseur doit s'engager en amont de l'utilisation. La page de calcul accéléré de Together indique qu'elle a des options dans plus de 25 villes, un portefeuille américain de plus de 2 GW avec 600 MW de capacité à court terme, plus de 150 MW disponibles en Europe, et des options en Asie et au Moyen-Orient basées sur l'échelle du projet:https://www.together.ai/accelerated-compute. La référence du blog de la série C à plus de 500 MW d'engagements de capacité de calcul renforce le point: la capacité est désormais un produit des marchés de capitaux autant qu'un produit cloud.

La rareté n'est pas un avantage pur. Lorsque la capacité est rare, les clients paient des primes et les investisseurs financent l'expansion. Lorsque la capacité arrive, les prix peuvent chuter rapidement. Les résultats de l'exercice 2026 de NVIDIA montrent l'ampleur du boom du matériel: un chiffre d'affaires annuel record de 215,9 milliards de dollars, un chiffre d'affaires du quatrième trimestre de 68,1 milliards de dollars, un chiffre d'affaires du quatrième trimestre pour les centres de données de 62,3 milliards de dollars, et une croissance annuelle tirée par la demande des centres de données:https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-fourth-quarter-and-fiscal-2026. La page H100 et la page GB200 NVL72 de NVIDIA montrent également pourquoi le risque de dépréciation est réel: chaque génération de matériel modifie la mémoire, l'interconnexion, le débit et le coût par token utile:https://www.nvidia.com/en-us/data-center/h100/ethttps://www.nvidia.com/en-us/data-center/gb200-nvl72/.

Pour Together, le résultat est un problème de timing. Si elle obtient des GPU trop lentement, les développeurs et les entreprises vont ailleurs. Si elle obtient trop de capacité ou le mauvais type de capacité, elle porte un matériel coûteux dans un marché aux prix plus bas. Si la prochaine génération de matériel améliore considérablement le coût de l'inférence, les anciens clusters doivent être remplis à des tarifs plus bas ou utilisés pour des charges de travail qui conviennent encore. L'optimisation logicielle de l'entreprise peut atténuer cette courbe, mais ne peut pas l'éliminer.

La pression des hyperscalers est une menace structurelle, pas une remise temporaire

Les hyperscalers ne sont pas des opérateurs historiques passifs qui regardent les spécialistes prendre les charges de travail d'IA. Ils ont des avantages en matière d'approvisionnement, de relations clients, de réseau, de conformité, de contrats d'entreprise et de tarification subventionnée de manière croisée. Les pages P5 et P5e d'AWS présentent des instances GPU H100 et H200 positionnées pour l'apprentissage profond et le calcul haute performance, et les blocs de capacité montrent un mécanisme de réservation de la capacité GPU dans des fenêtres temporelles définies:https://aws.amazon.com/ec2/instance-types/p5/ethttps://aws.amazon.com/ec2/capacityblocks/pricing/. La documentation de Google Cloud décrit les types de machines GPU A3 pour l'entraînement et la diffusion de charges de travail, y compris les variantes H100:https://docs.cloud.google.com/compute/docs/gpus. La documentation de Microsoft décrit les machines virtuelles ND H100 v5 pour l'entraînement d'apprentissage profond haut de gamme et les charges de travail étroitement couplées de scale-up et de scale-out:https://learn.microsoft.com/en-us/azure/virtual-machines/sizes/gpu-accelerated/ndh100v5-series.

Together n'a pas besoin de battre les hyperscalers sur tous les plans. Elle doit les battre pour les clients qui valorisent la rapidité des modèles ouverts, le support spécialisé, un coût unitaire plus bas, une migration plus simple entre les modèles et une expérience de développeur d'IA plus ciblée. Le marché est assez vaste pour les clouds spécialisés s'ils remplissent ce rôle. Mais la pression des hyperscalers est importante car les grands clouds peuvent faire baisser le prix de référence. Ils peuvent également intégrer les charges de travail d'IA dans des engagements d'entreprise plus larges, où la facture d'IA est négociée avec les contrats de stockage, de bases de données, d'analyse, de réseau, de sécurité et de productivité bureautique. Une startup peut acheter chez Together pour la rapidité et la simplicité; une grande entreprise peut se demander si son partenaire cloud existant peut égaler une partie suffisante de la valeur à un meilleur tarif global.

La menace est particulièrement aiguë pour les charges de travail qui n'ont pas besoin de la pile complète de Together. Si un client ne veut que des heures brutes de H100 ou B200 pour un entraînement prévisible et dispose d'une équipe d'infrastructure expérimentée, il comparera Together avec les neoclouds bruts, les réservations d'hyperscalers et les clusters internes. Si un client a besoin d'une inférence optimisée, de mises à jour rapides des modèles, de fine-tuning, de réutilisation des entrées, de support et de disponibilité des modèles, Together a plus de marge de manœuvre. L'entreprise doit donc éviter d'être jugée uniquement sur l'heure GPU la moins chère. Sa marge dépend de l'association de la valeur logicielle et opérationnelle au matériel.

Les prévisions 2026 de Dell'Oro sur l'infrastructure des centres de données ajoutent un autre point de pression: les GPU haut de gamme restent le principal moteur de croissance des composants, mais les hyperscalers déploient davantage d'accélérateurs personnalisés pour optimiser le coût, l'efficacité énergétique et les performances par charge de travail à grande échelle:https://www.delloro.com/2026-predictions-data-center-infrastructure/. Si les accélérateurs personnalisés arrivent à maturité pour l'inférence, le prix plancher à long terme pourrait être fixé non seulement par les clouds GPU de NVIDIA, mais aussi par le silicium propriétaire chez les plus gros acheteurs. La réponse de Together doit être la flexibilité: prendre en charge le matériel que les clients souhaitent, garder une longueur d'avance sur son logiciel de diffusion et éviter les paris de capacité qui deviennent irrécupérables lorsque l'architecture d'inférence évolue.

L'entreprise est la plus forte là où elle possède la boucle opérationnelle complète

La position la plus forte de Together n'est pas le client qui loue quelques GPU pour un travail ponctuel. C'est le client qui passe par une boucle: prototyper en serverless, tester des modèles à poids ouverts, fine-tuner avec des données privées, évaluer la qualité, déployer un endpoint dédié, réserver de la capacité de cluster, surveiller la latence, itérer les modèles et étendre l'utilisation à mesure que le produit se développe. Dans cette boucle, Together a plusieurs moyens de gagner une marge. Elle peut capter l'utilisation des tokens, les minutes d'endpoint, les heures GPU, le stockage, les travaux de fine-tuning et le support. Elle peut également utiliser les signaux de demande des clients pour planifier la capacité plus intelligemment qu'une place de marché de location brute.

L'exemple de Decagon montre cette boucle en miniature: l'inférence serverless, le fine-tuning et les clusters GPU sont tous répertoriés comme produits utilisés, et le résultat commercial est cadré autour du coût par tour, de la latence p95 et de la vélocité de déploiement hebdomadaire du modèle:https://www.together.ai/customers/decagon. Les pages produits montrent la même séquence dans l'abstrait. Le serverless réduit le coût de départ. Les endpoints dédiés fournissent l'isolation et des performances constantes. Les clusters GPU prennent en charge l'entraînement, le fine-tuning et la diffusion à plus grande échelle. Le stockage géré maintient les poids du modèle et les données à proximité du calcul. Les évaluations et les outils de mise en forme des modèles soutiennent les décisions de qualité. Le point commercial est de faire de Together le lieu par défaut où une équipe itère, pas simplement l'endroit où elle paie pour un GPU.

Cette boucle opérationnelle explique également le message de l'entreprise aux clients et aux investisseurs. Le communiqué de juillet 2026 indique que Together sert des milliers de clients payants, dont Cursor, Cognition et Decagon, et que l'utilisation des modèles open source a triplé en douze mois:https://www.businesswire.com/news/home/20260701243402/en/Together-AI-Raises-%24800-Million-at-%248.3-Billion-Valuation-to-Make-Frontier-AI-Accessible-to-All. Le communiqué de la série B nommait Salesforce, Zoom, SK Telecom, Hedra, Cognition, Zomato, Krea, Cartesia et The Washington Post parmi les organisations utilisant la plateforme:https://www.prnewswire.com/news-releases/together-ai-raises-305m-series-b-to-scale-ai-acceleration-cloud-for-open-source-and-enterprise-ai-302380967.html. Ces noms sont fournis par l'entreprise, mais ils indiquent la cible: les développeurs et les entreprises natives de l'IA d'abord, puis les entreprises mondiales qui ont besoin d'une IA de production rentable avec plus de contrôle.

La boucle est également là où le risque se concentre. Si un client n'utilise Together que pour une seule étape, il est plus facile de changer. Si le fine-tuning se fait ailleurs, les évaluations sont ailleurs, le stockage est ailleurs et la diffusion est ailleurs, Together devient un endpoint de tokens. Si un client peut déplacer un modèle à poids ouverts vers un fournisseur de GPU moins cher sans perte de qualité, la négociation des prix devient brutale. La qualité de l'activité de Together s'améliore lorsque les flux de travail des clients dépendent de plusieurs éléments de sa pile à la fois.

Les preuves sont solides sur l'ambition, plus faibles sur l'économie unitaire durable

Les preuves publiques de l'ambition de Together sont exceptionnellement riches. Il y a les conditions juridiques officielles identifiant l'entreprise et les services, les pages produits pour l'inférence serverless, les endpoints dédiés et les clusters GPU, la documentation décrivant les modes de facturation, les communiqués de financement de 2023, 2024, 2025 et 2026, la tarification publique, une étude de cas client avec des métriques de latence et de coût, une page de statut, un tableau de recrutement et des descriptions d'investisseurs tiers. Ces sources étayent une conclusion claire: Together Computer, Inc. est une entreprise de cloud IA importante dont la stratégie est de rendre l'entraînement et l'inférence de modèles ouverts moins chers, plus rapides et plus faciles à exploiter à l'échelle de la production.

Les preuves sont plus faibles là où le modèle économique est le plus difficile. Le matériel public ne montre pas la marge brute par produit, l'utilisation de la flotte, l'occupation moyenne des endpoints, le renouvellement de la capacité réservée, la concentration de la clientèle, le coût exact du capital, les hypothèses de dépréciation, la durée des contrats d'énergie, les conditions d'approvisionnement des GPU, le coût de support par client d'entreprise, ni combien de réservations annuelles se transforment en revenus reconnus. Le chiffre des réservations annuelles de Together en juillet 2026 est un signal de croissance utile, mais les réservations ne sont pas la même chose que le chiffre d'affaires, le bénéfice brut ou le flux de trésorerie disponible. L'objectif d'expansion de l'infrastructure de 50 fois est puissant, mais c'est aussi une déclaration sur l'intensité capitalistique future.

Les discussions du marché sont également mitigées de manière utile. Les développeurs aiment l'accès aux modèles sans friction, une inférence rapide et l'optionalité des modèles ouverts. Les investisseurs aiment la croissance du chiffre d'affaires et les levées de capitaux. Les sceptiques se demandent si l'entreprise n'est qu'un intermédiaire de GPU rares. Les clients veulent des coûts de tokens plus bas mais ne toléreront pas un manque de fiabilité en production. Les hyperscalers sont des concurrents crédibles. Les fournisseurs de GPU bruts peuvent sous-coter. Les générations de matériel évoluent rapidement. Aucun de ces points n'annule le scénario optimiste; ils définissent le test.

Les points de surveillance les plus importants sont donc concrets. Premièrement, si Together peut montrer plus de preuves côté client comme Decagon pour différents types de charges de travail, pas seulement vocales. Deuxièmement, si l'histoire de statut public et de support mûrit à mesure que le trafic de production augmente. Troisièmement, si les clients passent du test serverless aux endpoints dédiés et aux clusters GPU réservés, prouvant l'habitude et l'utilisation. Quatrièmement, si l'ambition de plus de 500 MW de capacité peut être financée et remplie sans destruction de marge. Cinquièmement, si les avantages de Together en matière de noyaux et de diffusion restent visibles à mesure que les hyperscalers et les piles open source s'améliorent.

La question pratique de l'acheteur est de savoir qui doit supporter le coût fixe

Pour la startup d'IA de l'exemple initial, la décision ne doit pas commencer par un logo. Elle doit commencer par la forme de la demande. Si le trafic est irrégulier, la tarification au token serverless peut être rationnelle car elle évite le matériel inactif. Si le trafic est stable et sensible à la latence, un endpoint dédié peut être moins cher et plus prévisible si l'utilisation reste élevée. Si l'entreprise a de grandes charges d'entraînement ou de fine-tuning, les clusters GPU sont logiques si l'équipe peut les maintenir occupés et que la couche gérée de Together permet d'économiser suffisamment de temps d'ingénierie. Si l'entreprise dispose de spécialistes de l'infrastructure et d'une charge de travail très prévisible, l'auto-hébergement ou la capacité brute d'un neocloud peut l'emporter. Si l'entreprise a déjà un engagement massif avec un hyperscaler, le cloud en place peut être difficile à battre en matière d'approvisionnement.

Le rôle de Together est de rendre cette décision moins binaire. Sa gamme de produits permet à un client de commencer par une inférence facturée au token et de monter en gamme vers du matériel réservé à mesure que la demande se précise. Son récit de recherche promet une production plus utile par heure GPU. Son récit de financement promet une capacité future. Sa page de statut et ses recrutements de support montrent la reconnaissance que les charges de travail de production nécessitent une discipline opérationnelle. Ses études de cas clients montrent le type de cas d'usage où les gains de coût et de latence peuvent compter pour les marges.

Le point d'incertitude clé reste le même. Together doit convertir la demande de modèles ouverts en une utilisation durable avant que la dépréciation des GPU et la concurrence sur les prix n'érodent la marge. Elle doit prouver que les développeurs restent parce que la plateforme économise du temps d'ingénierie et améliore l'économie de production, pas parce que les GPU étaient temporairement rares. Elle doit montrer que les clients adoptent suffisamment de la pile pour que Together devienne une habitude de flux de travail. Et elle doit financer la capacité sans transformer chaque future baisse de prix en un problème de bilan.

Cela fait de Together une dépendance de service cloud à forte conviction mais pas à faible risque. Si elle réussit, l'entreprise devient l'un des points de contrôle pratiques pour la substitution cloud locale: un endroit où les startups et les entreprises peuvent exécuter des charges de travail d'IA à poids ouverts sans céder l'économie aux systèmes fermés ni exploiter leurs propres clusters. Si elle échoue, elle devient une couche coûteuse de plus dans un marché où le matériel devient moins cher, les hyperscalers plus affûtés et les développeurs passent à la prochaine pile de diffusion moins chère. La réponse se manifestera moins dans les slogans que dans le débit de tokens, l'occupation des endpoints, le renouvellement des GPU réservés et la patience des clients lorsque la prochaine génération de GPU réinitialisera la grille des prix.