Nouvelle recherche : le LLM Claude 2.1 d’Anthropic reste inférieur au GPT-4 d’OpenAI au rappel de contexte

Nouvelle recherche : le LLM Claude 2.1 d’Anthropic reste inférieur au GPT-4 d’OpenAI au rappel de contexte

Il ne s’agit pas d’un conseil en investissement. L’auteur n’a aucune position dans aucun des titres mentionnés.

La capacité limitée des itérations actuelles des grands modèles linguistiques (LLM) à comprendre des charges croissantes de contexte reste actuellement l’un des principaux obstacles à l’atteinte de la singularité de l’IA – un seuil auquel l’intelligence artificielle dépasse manifestement l’intelligence humaine. À première vue, la fenêtre contextuelle de 200 000 jetons pour le LLM Claude 2.1 d’Anthropic semble impressionnante. Cependant, sa maîtrise du rappel de contexte laisse beaucoup à désirer, surtout si on la compare aux capacités de rappel relativement robustes du GPT-4 d’OpenAI.

Anthropic a annoncé hier que son dernier LLM Claude 2.1 prend désormais en charge une fenêtre contextuelle « leader du secteur » de 200 000 jetons tout en offrant une diminution de 2 fois des hallucinations de modèle – une situation dans laquelle un modèle d’IA génératif perçoit des modèles ou des objets inexistants souvent en raison de une entrée peu claire ou contradictoire, produisant un résultat inexact ou absurde.

Pour ceux qui ne le savent peut-être pas, un jeton est une unité de base de texte ou de code que les LLM utilisent pour traiter et générer du langage. Selon la méthode de tokenisation utilisée, un jeton peut être un caractère, un mot, un sous-mot ou un segment entier de texte ou de code. La fenêtre contextuelle élargie de Claude 2.1 permet au LLM de comprendre et de traiter un livre de près de 470 pages.

Bien sûr, la fenêtre contextuelle de 200 000 jetons de Claude 2.1 d’Anthropic est assez impressionnante par rapport au GPT-4 d’OpenAI, qui ne prend en charge qu’une fenêtre de 128 000 jetons. Cependant, l’application dans le monde réel de cette fenêtre contextuelle élargie perd un peu de son éclat si l’on considère la capacité peu impressionnante de Claude 2.1 à rappeler le contexte.

Rappel du contexte : Claude 2.1 d’Anthropic contre GPT-4 d’OpenAI

L’expert en IA Greg Kamradt a récemment opposé Claude 2.1 à GPT-4 via un test standardisé visant à déterminer avec quelle précision un modèle particulier rappelait un élément de fait spécifique intégré à différentes profondeurs de passage.

Plus précisément, Kamradt a intégré le texte suivant à différentes profondeurs de passage :

« La meilleure chose à faire à San Francisco est de manger un sandwich et de s’asseoir à Dolores Park par une journée ensoleillée. »

Le chercheur a divisé son texte saisi en 35 parties égales, puis a placé le fait ci-dessus à chacune de ces 35 profondeurs, demandant à Claude 2.1 de répondre à chaque fois à une question connexe. Le chercheur a également varié la fenêtre contextuelle, qui allait de 1 000 jetons à 200 000 jetons, divisés en 35 incréments égaux. Accédez à ce X post pour plus de détails sur la méthodologie utilisée.

Claude-2.1-Résultats-Test

Ci-dessus, vous découvrirez avec quelle précision Claude 2.1 d’Anthropic a été capable de rappeler les faits intégrés à une profondeur de document et une longueur de fenêtre de contexte données. Chaque bloc rouge représente un échec de rappel. Comme le montre l’extrait ci-dessus, la capacité de rappel du LLM se dégrade progressivement à mesure que la fenêtre contextuelle augmente.

Résultats des tests GPT-4

À titre de comparaison, les résultats d’un test similaire effectué avec GPT-4 d’OpenAI sont affichés ci-dessus. Ici, la profondeur à laquelle le fait a été intégré ainsi que la fenêtre contextuelle du LLM ont été modifiées en 15 incréments distincts. Rendez-vous sur ce post X pour plus de détails.

Notez que GPT-4 a nettement moins d’échecs de rappel à 100 % à sa longueur maximale de fenêtre contextuelle de 128 000 jetons.

Nous avions noté dans un post précédent que GPT-4 avait surclassé Grok de xAI et Claude 2 LLM d’Anthropic lors d’un examen de mathématiques organisé. Il reste à voir comment Claude 2.1 se comportera face à GPT-4 dans le même contexte.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *