Le nouveau modèle d’IA Gemini de Google surpasse la technologie GPT-4o d’OpenAI
Le nouveau modèle Gemini-Exp-1114 de Google bouleverse le paysage de l’analyse comparative de l’IA
Chatbot Arena est devenue une plateforme ouverte de premier plan dédiée à l’analyse comparative de l’IA participative. Au cours des deux dernières années, les modèles d’OpenAI ont dominé les classements, obtenant régulièrement les premières positions dans diverses évaluations d’IA. Alors que les modèles Gemini de Google et Claude d’Anthropic ont montré des résultats impressionnants dans certaines catégories, OpenAI a largement maintenu une présence inégalée dans l’arène.
Récemment, Chatbot Arena a dévoilé un modèle expérimental de Google, connu sous le nom de Gemini-Exp-1114. Ce nouvel ajout a subi des tests rigoureux, recevant plus de 6 000 votes de la communauté la semaine dernière, ce qui le propulse au premier rang aux côtés du dernier modèle d’OpenAI, ChatGPT-4o-latest (au 3 septembre 2024). Le score de cette itération du modèle Gemini a connu une escalade notable, passant de 1301 à 1344, surpassant même le modèle o1-preview d’OpenAI en termes de performances globales.
Principales réalisations de Gemini-Exp-1114
Selon les données de Chatbot Arena, Gemini-Exp-1114 est actuellement en tête du classement Vision et a également atteint le premier rang dans les catégories suivantes :
- Mathématiques
- Écriture créative
- Requête plus longue
- Instruction suivante
- Interactions multi-tours
- Invites difficiles
Dans le domaine du codage, ce nouveau modèle a obtenu la position n° 3 ; cependant, il affiche des performances impressionnantes dans les invites difficiles avec contrôle de style. Pour le contexte, le modèle o1-preview d’OpenAI continue de dominer à la fois l’efficacité du codage et les mesures de contrôle de style. En analysant la carte thermique du taux de victoire, nous voyons que Gemini-Exp-1114 atteint un taux de victoire de 50 % contre GPT-4o-latest, 56 % contre o1-preview et 62 % contre Claude-3.5-Sonnet.
Améliorations récentes et mesures de performance
En septembre dernier, Google a présenté la série Gemini 1.5, qui présente des améliorations telles qu’une augmentation d’environ 7 % des scores MMLU-Pro et une amélioration significative de 20 % des tests de performance MATH et HiddenMath. Les nouveaux modèles reflètent également des améliorations de 2 à 7 % dans les cas d’utilisation liés à la vision et au code. Notamment, l’utilité globale des réponses a été améliorée, Google soulignant que le nouveau modèle tend à fournir des réponses plus concises. La longueur de sortie par défaut de ces modèles mis à jour est désormais d’environ 5 à 20 % plus courte que celle de leurs prédécesseurs.
Pour ceux qui souhaitent explorer les résultats du modèle Gemini-Exp-1114 ou l’essayer, des informations détaillées sont disponibles ici . Les développeurs sont encouragés à tester ce modèle de pointe dans Google AI Studio, avec des plans de disponibilité via API à l’horizon.
Laisser un commentaire