La puce d'inférence Jalapeño d'OpenAI réduit les coûts de 50

OpenAI a présenté la puce d'inférence Jalapeño, son premier processeur personnalisé pour les charges de travail de grands modèles de langage, une décision qui pourrait réduire les coûts d'inférence d'environ moitié tout en diminuant la dépendance vis-à-vis des fournisseurs de GPU tiers. Construit avec Broadcom en neuf mois, l'accélérateur est conçu pour l'inférence LLM et fait déjà fonctionner des modèles de production en laboratoire aux niveaux de performance et de puissance cibles.

La puce étend la stratégie d'OpenAI des produits et modèles au silicium, faisant d'elle la dernière grande plateforme d'IA à poursuivre l'intégration verticale du matériel. Dans des conditions de laboratoire, la puce a montré une amélioration significative des performances par watt par rapport aux accélérateurs actuels, rapporte OpenAI. Bloomberg a rapporté que la puce pourrait réduire les coûts d'inférence d'environ moitié.

Un sprint de développement de neuf mois

Le rythme de développement est l'un des aspects les plus frappants de l'annonce. Les conceptions ASIC personnalisées s'étendent généralement sur plusieurs années, du concept à la fabrication, mais OpenAI et Broadcom ont compressé ce délai à neuf mois. OpenAI a accéléré le processus en utilisant ses propres modèles de génération précédente pour aider à la conception de la puce, appliquant ainsi efficacement l'expertise en IA de l'entreprise à l'ingénierie matérielle dans une boucle de rétroaction qui a peu de précédents dans l'industrie des semi-conducteurs.

Le fabricant canadien Celestica assurera l'intégration du système, construisant l'infrastructure de serveurs et de baies qui abrite les puces. La conception intègre le silicium réseau Tomahawk de Broadcom pour une connectivité haut débit dans les centres de données, créant ainsi une solution au niveau du système plutôt qu'un processeur autonome. L'intégration du calcul et du réseau dans une architecture de centre de données unifiée suggère qu'OpenAI pense à la desserte d'inférence au niveau du cluster plutôt qu'au niveau de la puce individuelle.

Réduction des coûts et positionnement concurrentiel

La réduction projetée de 50 % des coûts d'inférence répond à l'une des contraintes les plus persistantes de l'industrie de l'IA : le coût de la desserte de grands modèles à grande échelle. OpenAI exploite ChatGPT, l'API Codex et une gamme croissante de produits agentiques, qui consomment tous d'énormes ressources de calcul. Une puce spécialement conçue et optimisée pour ces charges de travail peut réduire les coûts d'exploitation par rapport aux GPU polyvalents qui supportent une surcharge pour les charges de travail graphiques et d'entraînement dont la puce n'a pas besoin.

Le PDG de Broadcom, Hock Tan, a décrit la puce d'inférence Jalapeño comme compétitive avec l'architecture Blackwell de Nvidia et le TPU de Google, la plaçant dans la même catégorie que les accélérateurs alimentant les plus grands déploiements d'IA au monde. Cette comparaison indique que le processeur est conçu pour une exploitation à très grande échelle plutôt que pour des applications de niche. Pour OpenAI, égaler les performances de la classe Blackwell tout en réduisant le coût par jeton représenterait un avantage opérationnel significatif.

Implications stratégiques pour OpenAI et l'industrie

Le lancement a des implications qui vont au-delà de la propre infrastructure d'OpenAI. Nvidia domine le marché des accélérateurs d'IA depuis des années, la demande dépassant constamment l'offre et les prix restant élevés. Une puce personnalisée donne à OpenAI un levier dans les négociations d'approvisionnement et réduit sa dépendance vis-à-vis d'un seul fournisseur à un moment où les budgets de calcul augmentent rapidement dans l'ensemble de l'industrie.

Le responsable du matériel d'OpenAI, Richard Ho, a déclaré que l'architecture est conçue pour rester performante au fil des générations futures de LLM, suggérant que l'entreprise considère le développement de puces comme une capacité permanente plutôt qu'un projet ponctuel. OpenAI prévoit de déployer le processeur dans les centres de données actifs d'ici la fin 2026, avec une feuille de route multi-génération déjà établie. La rapidité de cette première génération soulève des questions sur la vitesse à laquelle les versions suivantes pourraient arriver.

Le partenariat avec Broadcom est en soi stratégiquement significatif. Broadcom a construit des accélérateurs personnalisés pour la gamme TPU de Google et d'autres clients hyperscale, apportant une expertise éprouvée en conception ASIC à la collaboration. En travaillant avec un partenaire établi plutôt qu'en construisant une équipe interne de puces à partir de zéro, OpenAI a atteint la validation du silicium en moins d'un an. L'arrangement donne également à Broadcom une position solide sur le marché des puces IA aux côtés de son activité existante de silicium personnalisé.

Déploiement à grande échelle de la puce d'inférence Jalapeño

OpenAI a déclaré que la puce est conçue pour un déploiement à l'échelle du gigawatt, indiquant qu'elle alimentera de grandes flottes de centres de données plutôt que de petits clusters d'inférence. L'intégration avec le silicium réseau Tomahawk de Broadcom reflète une philosophie de conception au niveau du système : dans la desserte d'inférence à haut débit, la bande passante réseau entre les accélérateurs peut devenir aussi limitante que la capacité de calcul, donc l'optimisation du chemin de données complet est aussi importante que le processeur lui-même.

La puce est la première de ce qu'OpenAI décrit comme une plateforme de calcul multi-génération. Chaque itération devrait améliorer les performances, l'efficacité et le coût, suivant une feuille de route itérative similaire aux cycles d'architecture GPU de Nvidia. Si OpenAI peut maintenir le rythme de développement rapide, il pourrait combler l'écart entre les générations de puces plus rapidement que ne le permettent les feuilles de route traditionnelles des semi-conducteurs.

Contexte du marché et points à retenir pour les décideurs

La puce d'inférence Jalapeño entre sur un marché où chaque grand fournisseur de plateforme d'IA a désormais une stratégie de silicium personnalisé. Amazon exploite Trainium et Inferentia, Google développe la gamme TPU, Microsoft a construit l'accélérateur Maia, et Meta a investi dans des conceptions personnalisées. L'entrée d'OpenAI complète le tableau, mais avec une différence notable : la puce est exclusivement axée sur l'inférence plutôt que sur l'entraînement, offrant potentiellement des avantages d'efficacité que les conceptions polyvalentes ne peuvent égaler pour la tâche spécifique d'exécution de LLM.

Pour les responsables technologiques évaluant l'infrastructure IA, la puce signale que les coûts d'inférence sont susceptibles de diminuer à mesure que le silicium personnalisé se généralise. Les organisations qui construisent leurs stratégies IA en partant du principe que les prix des GPU resteront aux niveaux actuels devront peut-être revoir ces projections. Si les coûts internes d'OpenAI baissent d'environ 50 %, les prix des API pour les développeurs et les entreprises pourraient éventuellement suivre, bien que l'entreprise puisse plutôt choisir d'améliorer ses marges en fonction de la dynamique concurrentielle avec Anthropic, Google et les fournisseurs de modèles à poids ouverts comme la série Llama de Meta.

Le cycle de développement de neuf mois établit également une nouvelle référence pour l'industrie des semi-conducteurs. Si le rythme peut être soutenu sur plusieurs générations, le délai traditionnel de plusieurs années pour les ASIC pourrait être sous pression pour s'accélérer, en particulier dans le segment de l'IA où la demande continue de dépasser l'offre. D'autres opérateurs hyperscale pourraient se trouver sous pression pour égaler des délais similaires pour leurs propres projets de silicium personnalisé.

Des échantillons d'ingénierie du processeur exécutent des charges de travail ciblant la production dans les laboratoires d'OpenAI à la fréquence et à la puissance cibles. L'entreprise prévoit de commencer à déployer les puces dans les centres de données actifs d'ici la fin 2026, les générations suivantes étant déjà en planification. Broadcom et Celestica assureront respectivement la fabrication en volume et l'intégration du système. OpenAI n'a annoncé aucun plan de disponibilité pour des tiers en dehors de sa propre infrastructure, laissant ouverte la question de savoir si la puce d'inférence Jalapeño pourrait éventuellement servir un marché plus large.

Sources

OpenAI and Broadcom unveil LLM-optimized inference chip

✔Human Verified

Recherché et recoupé avec des sources primaires par la rédaction de Bytevyte.