Oubliez DeepSeek. Les modèles linguistiques volumineux deviennent encore moins chers. Un LLM à 6 millions de dollars, ce n'est pas cool. Un LLM à 6 dollars, ça c'est cool !
- Pierre Moffatt Perso
- 31 mai 2025
- 4 min de lecture

Oubliez DeepSeek. Les modèles linguistiques volumineux deviennent encore moins chers.
Un LLM à 6 millions de dollars, ce n'est pas cool. Un LLM à 6 dollars, c'est cool.
En 2022, la simple création d'un modèle de langage à grande échelle ( MLL ) constituait un exploit à la pointe de l'ingénierie en intelligence artificielle ( IA ). Trois ans plus tard, les experts sont plus difficiles à impressionner. Pour se démarquer sur un marché concurrentiel, un laboratoire d'IA doit non seulement créer un modèle de haute qualité, mais aussi le faire à moindre coût.
En décembre, une entreprise chinoise, DeepSeek, a fait la une des journaux en réduisant le coût de formation d'un modèle frontière de 61,6 millions de dollars (le coût de Llama 3.1, un LLM produit par Meta, une entreprise technologique) à seulement 6 millions de dollars. Dans une prépublication publiée en ligne en février, des chercheurs de l'Université de Stanford et de l'Université de Washington affirment avoir fait beaucoup mieux, en formant leur LLM s1 pour seulement 6 dollars. Autrement dit, il a fallu 2,7 millions d'heures de calcul à DeepSeek pour former ; s1 a pris un peu moins de sept heures.
Les chiffres sont impressionnants, mais la comparaison n'est pas tout à fait exacte. Alors que le chatbot v3 de DeepSeek a été formé de toutes pièces – malgré les accusations de vol de données d'Open AI , un concurrent américain, et de ses pairs –, s1 est quant à lui « affiné » sur le LLM Qwen2.5 préexistant, produit par Alibaba, l'autre laboratoire d'IA chinois de premier plan . Autrement dit, avant même le début de la formation de s1, le modèle pouvait déjà écrire, poser des questions et produire du code.
Ce type de couplage peut générer des économies, mais ne peut à lui seul réduire les coûts à un chiffre. Pour y parvenir, l'équipe américaine a dû s'affranchir du paradigme dominant de la recherche en IA , selon lequel la quantité de données et la puissance de calcul disponibles pour entraîner un modèle linguistique sont censées améliorer ses performances. Ils ont plutôt émis l'hypothèse qu'une quantité plus réduite de données, mais de qualité suffisante, pourrait tout aussi bien faire l'affaire. Pour tester cette hypothèse, ils ont rassemblé une sélection de 59 000 questions couvrant une gamme variée, des tests d'anglais standardisés aux problèmes de probabilités de niveau master, dans le but de les réduire à l'ensemble d'entraînement le plus efficace possible.
Pour y parvenir, les questions seules ne suffisent pas. Il faut aussi des réponses. L'équipe a donc demandé à un autre modèle d'IA , Gemini de Google, de traiter ces questions en utilisant une approche dite de raisonnement, dans laquelle le « processus de pensée » du modèle est partagé avec la réponse. Cela leur a permis de disposer de trois ensembles de données pour entraîner s1 : 59 000 questions ; les réponses correspondantes ; et les « chaînes de pensée » utilisées pour relier les deux.
Ils ont ensuite jeté la quasi-totalité de ces éléments. s1 étant basé sur l'IA Qwen d'Alibaba , tout ce que ce modèle pouvait déjà résoudre était inutile. Tout problème mal formaté a également été éliminé, de même que tout ce que le modèle de Google avait résolu sans trop de réflexion. Si un problème donné n'apportait rien à la diversité globale de l'ensemble d'entraînement, il était également éliminé. Le résultat final a été une série de 1 000 questions simplifiées qui, selon les chercheurs, pouvaient entraîner un modèle aussi performant qu'un modèle entraîné sur les 59 000 questions, et ce pour une fraction du coût.
De telles astuces abondent. Comme tous les modèles de raisonnement, s1 « réfléchit » avant de répondre, travaillant sur le problème avant d'annoncer qu'il a terminé et de présenter une réponse finale. Mais de nombreux modèles de raisonnement donnent de meilleures réponses s'ils sont autorisés à réfléchir plus longtemps, une approche appelée « calcul au moment du test ». Les chercheurs ont donc trouvé l'approche la plus simple pour inciter le modèle à poursuivre son raisonnement : lorsqu'il annonce avoir terminé sa réflexion, il suffit de supprimer ce message et d'ajouter le mot « Attendre ».
Ces astuces fonctionnent également. Réfléchir quatre fois plus longtemps permet au modèle d'obtenir un score supérieur de plus de 20 points de pourcentage aux tests de mathématiques et aux tests scientifiques. Être contraint de réfléchir 16 fois plus longtemps fait passer le modèle de l'impossibilité d'obtenir un seul point à un examen de mathématiques difficile à un score de 60 %. Réfléchir plus intensément coûte évidemment plus cher, et les coûts d'inférence augmentent à chaque « attente » supplémentaire. Mais la formation étant si peu coûteuse, le surcoût peut en valoir la peine.
Les chercheurs affirment que leur nouveau modèle surpasse déjà le premier projet d'Open AI dans ce domaine, l'aperçu o1 de septembre, sur les mesures des compétences en mathématiques. La quête d'efficacité est la nouvelle frontière .
Envie de découvrir le monde ? Pour profiter de notre couverture scientifique enrichissante, abonnez-vous à Simply Science , notre newsletter hebdomadaire réservée aux abonnés.












































Commentaires