Home Actu en vedette OpenAI annonce o3 et o3-mini, ses prochains modèles d’inférence simulés

OpenAI annonce o3 et o3-mini, ses prochains modèles d’inférence simulés

3
0

Vendredi, lors de la 12e journée des « 12 jours d’OpenAI », le PDG d’OpenAI, Sam Altman, a annoncé ses nouveaux modèles « d’inférence » d’IA, o3 et o3-mini, qui s’appuient sur les modèles o1 précédemment lancés cette année. La société ne les a pas encore publiés, mais rendra ces modèles disponibles dès aujourd’hui pour les tests de sécurité publique et l’accès à la recherche.

Les modèles utilisent ce qu’OpenAI appelle une « chaîne de pensée privée », dans laquelle le modèle s’arrête pour examiner son dialogue interne et planifier l’avenir avant de répondre, ce que nous pourrions appeler un « raisonnement simulé » (SR) – une forme d’IA qui va au-delà des grandes, modèles de langage de base (LLM).

La société a nommé la famille modèle « o3 » au lieu de « o2 » pour éviter un éventuel conflit de marque avec la société de télécommunications britannique O2, selon le journal britannique « Daily Mail ». Information. Lors de la diffusion en direct de vendredi, Altman a reconnu les faiblesses de son entreprise en matière de dénomination, déclarant : « Dans la grande tradition d’OpenAI qui est vraiment mauvais en termes de noms, elle s’appellera o3. »

Selon OpenAI, le modèle o3 a reçu un score record en ARC-AGI Il s’agit d’une norme invaincue en matière de raisonnement visuel depuis sa création en 2019. Dans les scénarios de calcul faible, o3 a obtenu un score de 75,7 %, tandis que dans le test de calcul intensif, il a atteint 87,5 %, ce qui équivaut à la performance humaine au seuil de 85 %.

OpenAI a également rapporté que o3 avait obtenu un score de 96,7 % au test américain de mathématiques de plaidoyer 2024, avec une seule question restante. Le modèle a également obtenu un score de 87,7 % au test GPQA Diamond, qui contient des questions de niveau supérieur en biologie, physique et chimie. Dans le test Frontier Math développé par EpochAI, o3 a résolu 25,2 % des problèmes, alors qu’aucun autre modèle n’a dépassé 2 %.

LEAVE A REPLY

Please enter your comment!
Please enter your name here