Le nouveau chatbot de Deepseek possède une introduction impressionnante: "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre." Cette IA, un produit de la startup chinoise Deepseek, est rapidement devenue un acteur majeur, contribuant même à une baisse significative du cours des actions de Nvidia. Son succès découle d'une combinaison unique d'innovation architecturale et de méthodologies de formation.
Le modèle de Deepseek se distingue par plusieurs progrès technologiques clés:
- Prédiction multi-token (MTP): Contrairement à la prédiction traditionnelle mot par mot, MTP prévoit plusieurs mots simultanément, augmentant à la fois la précision et l'efficacité.
- Mélange d'experts (MOE): Cette architecture exploite plusieurs réseaux de neurones pour traiter les données, accélérer la formation et améliorer les performances globales. Deepseek V3 utilise 256 réseaux de neurones, activant huit pour chaque tâche de traitement de jeton.
- Attention latente multi-tête (MLA): ce mécanisme se concentre sur les éléments de phrase les plus cruciaux, en extraction à plusieurs reprises les détails clés pour minimiser la perte d'informations et assurer une compréhension nuancée des données d'entrée.
Image: esigame.com
Deepseek a initialement réclamé un coût de formation remarquablement faible de seulement 6 millions de dollars pour son puissant modèle Deepseek V3, en utilisant seulement 2048 GPU. Cependant, la semianalyse a révélé une infrastructure beaucoup plus étendue: environ 50 000 GPU Nvidia Hopper, dont 10 000 H800, 10 000 H100 et des unités H20 supplémentaires, réparties sur plusieurs centres de données. Cela représente un investissement total de serveur d'environ 1,6 milliard de dollars, avec des dépenses opérationnelles estimées à 944 millions de dollars.
Image: esigame.com
Filiale du High Flyer chinois High Flyer, Deepseek possède ses centres de données, fournissant un contrôle inégalé sur l'optimisation du modèle et la mise en œuvre plus rapide de l'innovation. Sa nature autofinancée améliore l'agilité et la prise de décision. La société attire également les meilleurs talents, certains chercheurs gagnant plus de 1,3 million de dollars par an, recrutent principalement dans les universités chinoises.
Image: esigame.com
Bien que la réclamation de frais de formation initiale de 6 millions de dollars de Deepseek semble trompeuse (ne couvrant que la pré-formation, à l'exclusion des recherches, du raffinement, du traitement des données et des infrastructures), la société a investi plus de 500 millions de dollars dans le développement de l'IA. Sa structure Lean permet une innovation efficace par rapport aux sociétés plus grandes et plus bureaucratiques.
Image: esigame.com
L'histoire de Deepseek met en évidence le potentiel d'une entreprise d'IA indépendante bien financée pour rivaliser avec les géants de l'industrie. Cependant, son succès est indéniablement lié à des investissements substantiels, à des percées technologiques et à une équipe solide. Bien que les allégations d'efficacité budgétaire révolutionnaire soient sans doute exagérées, les coûts de l'entreprise restent nettement inférieurs à ceux des concurrents. Par exemple, Deepseek a dépensé 5 millions de dollars pour R1, tandis que ChatGpt4 a coûté 100 millions de dollars. Cependant, il est encore moins cher que ses concurrents.