L’agrégat d’IA a maintenant mis en place plusieurs nouveaux modèles d’IA
Google : Gemini 2.5 Pro Preview
est le modèle d’IA de pointe de Google, conçu pour le raisonnement avancé, le codage, les mathématiques et les tâches scientifiques. Il utilise des capacités de « réflexion » qui lui permettent de raisonner à travers des réponses avec une précision accrue et une gestion nuancée du contexte. Gemini 2.5 Pro atteint des performances de premier plan sur de nombreux benchmarks, y compris la première place au classement LMArena, reflétant un alignement supérieur des préférences humaines et des capacités de résolution de problèmes complexes.
Mistral 3 Medium
est un modèle linguistique d’entreprise très performant, conçu pour offrir des capacités de pointe à un coût opérationnel considérablement réduit. Il équilibre le raisonnement de pointe et les performances multimodales avec un coût 8 fois inférieur à celui des grands modèles traditionnels, ce qui le rend adapté aux déploiements évolutifs dans les cas d’utilisation professionnels et industriels.
Le modèle excelle dans des domaines tels que le codage, le raisonnement STEM et l’adaptation d’entreprise. Il prend en charge les déploiements hybrides, sur site et in-VPC et est optimisé pour l’intégration dans des flux de travail personnalisés. Mistral Medium 3 offre une précision compétitive par rapport à des modèles plus importants tels que Claude Sonnet 3.5/3.7, Llama 4 Maverick et Command R+, tout en conservant une large compatibilité avec les environnements cloud.
Qwen3
la dernière génération de la série de grands modèles linguistiques Qwen, présente des architectures denses et de mélange d’experts (MoE) pour exceller dans le raisonnement, l’assistance multilingue et les tâches d’agent avancé. Sa capacité unique à basculer de manière transparente entre un mode de réflexion pour un raisonnement complexe et un mode de non-réflexion pour un dialogue efficace garantit des performances polyvalentes et de haute qualité.
Dépassant largement les modèles précédents tels que QwQ et Qwen2.5, Qwen3 offre des capacités supérieures en mathématiques, en codage, en raisonnement de bon sens, en écriture créative et en dialogue interactif. La variante Qwen3-30B-A3B comprend 30,5 milliards de paramètres (3,3 milliards activés), 48 couches, 128 experts (8 activés par tâche) et prend en charge jusqu’à 131 000 contextes de jetons avec YaRN, établissant ainsi un nouveau standard parmi les modèles open-source.
xAI : Grok 3 Mini Beta
est un modèle de réflexion léger et plus petit. Contrairement aux modèles traditionnels qui génèrent des réponses immédiatement, Grok 3 Mini réfléchit avant de répondre. Il est idéal pour les tâches à forte intensité de raisonnement qui n’exigent pas de connaissances approfondies du domaine, et brille dans les cas d’utilisation spécifiques aux mathématiques et quantitatifs, tels que la résolution de puzzles ou de problèmes mathématiques difficiles.
Traces de « raisonnement » transparentes accessibles. Par défaut, le raisonnement est faible, mais il peut être augmenté en définissant le raisonnement : { effort : « high » }
Remarque : il existe deux points de terminaison xAI pour ce modèle. Par défaut, lorsque vous utilisez ce modèle, nous vous dirigerons toujours vers le point de terminaison de base. Si vous voulez le point de terminaison rapide, vous pouvez ajouter provider : { sort : throughput}, pour trier par débit à la place.
THUDM : GLM
est un modèle de raisonnement profond de 32B paramètres de la série GLM-4-Z1, optimisé pour les tâches complexes et ouvertes nécessitant une délibération prolongée. Il s’appuie sur le modèle glm-4-32b-0414 en y ajoutant des phases d’apprentissage par renforcement et des stratégies d’alignement en plusieurs étapes, et en introduisant des capacités de « rumination » conçues pour émuler un traitement cognitif étendu. Cela inclut le raisonnement itératif, l’analyse multi-sauts et les flux de travail augmentés d’outils tels que la recherche, l’extraction et la synthèse tenant compte des citations.
Le modèle excelle dans la rédaction de type recherche, l’analyse comparative et la réponse à des questions complexes. Il prend en charge l’appel de fonctions pour les primitives de recherche et de navigation (rechercher, cliquer, ouvrir, terminer), ce qui permet de l’utiliser dans des pipelines de type agent. Le comportement de rumination est régi par des boucles multi-tours avec des mécanismes de récompense basés sur des règles et des mécanismes de décision différée, comparés à des cadres de recherche profonde tels que les piles d’alignement internes d’OpenAI. Cette variante convient aux scénarios nécessitant plus de profondeur que de vitesse.