MMLU – Banc d'évaluation de la compréhension du langage multitâche à grande échelle

268Deuxième lecture

MMLU (Massive Multitask Language Understanding) est un banc d'essai de compréhension du langage multitâche à grande échelle, largement utilisé dans le domaine de l'intelligence artificielle. Il mesure le niveau de connaissances générales et la capacité de résolution de problèmes des grands modèles de langage (LLM) face à des tâches complexes, à travers des tests couvrant de multiples disciplines.

Couverture multidimensionnelle des connaissances : Les épreuves couvrent 57 disciplines différentes, dont les STIM (sciences, technologies, ingénierie et mathématiques), les sciences humaines et les sciences sociales.
Évaluation complète des compétences : Les performances du modèle en matière de connaissances générales, de capacité de raisonnement et de compréhension linguistique sont évaluées au moyen de questions à choix multiples.
Comparaison standardisée : Elle fournit une norme de mesure de performance unifiée pour différentes versions de modèles d'IA, aidant ainsi les chercheurs à observer la relation entre la taille du modèle et ses capacités.

Chercheurs et développeurs en IA : Utilisé pour vérifier l'amélioration des performances après l'itération du modèle.
Organisations d'évaluation des modèles : En tant qu'indicateur central pour mesurer la généralité d'un modèle.
Passionnés d'IA : Comparez les connaissances de différents LLM en examinant leurs scores MMLU.

En tant que référence académique, l'ensemble de données de MMLU est généralement accessible au public au sein de la communauté de recherche. Cependant, veuillez noter que les scores précis dépendent de la version du jeu de données, de la conception des questions et de la méthode d'échantillonnage ; les résultats peuvent varier d'un rapport à l'autre.

Lors de l'interprétation des scores MMLU, il est recommandé d'évaluer la performance du modèle dans un domaine vertical spécifique pour une analyse complète, plutôt que de se fier uniquement au score total. De plus, il convient de tenir compte des méthodologies d'évaluation les plus récentes afin d'éviter les scores artificiellement gonflés par la contamination des données.

Avertissement relatif aux risques : Les critères d’évaluation et les versions des jeux de données peuvent être mis à jour. Veuillez consulter les publications officielles ou les articles scientifiques de référence pour obtenir des données spécifiques.

Les informations peuvent être incomplètes ou obsolètes ; veuillez vérifier les détails sur le site web officiel.

Fin du texte

Publié sur : Évaluation des modèles d'IA

29 octobre 2023

Avis de droit d'auteur :Cet article est un contenu original provenant de ce site web. Administrateur Publié le 29 octobre 2023, totalisant 637 mots.

Avis de réimpression :Sauf indication contraire, tout le contenu original de ce site est publié sous licence Creative Commons Attribution 4.0 (CC BY 4.0). Veuillez mentionner la source et conserver le lien d'origine lors de toute reproduction. Certains contenus de ce site sont compilés à partir d'informations publiques et peuvent avoir été générés ou optimisés à l'aide de l'intelligence artificielle. Ils sont fournis à titre indicatif uniquement et ne constituent en aucun cas un avis professionnel. Il appartient aux lecteurs d'effectuer leurs propres vérifications. Ce site décline toute responsabilité quant à la disponibilité, la sécurité ou la légalité des ressources tierces.

MMLU – Banc d'évaluation de la compréhension du langage multitâche à grande échelle

PubMedQA – 生物医学研究问答数据集与评测基准

CMMLU – Benchmark d'évaluation complet des grands modèles chinois

MagicArena – la plateforme de compétition et d'évaluation de modèles génératifs visuels de ByteDance

FlagEval (天秤) – 智源研究院大模型评测平台

SuperCLUE – Un référentiel d'évaluation complet pour les modèles chinois à grande échelle

HELM – 斯坦福大学大模型评测体系

LLMEval3 – 复旦大学大模型评测基准

C-Eval : une suite complète d’évaluation des modèles de base chinois

Article précédent

LMArena – 权威的 IA 大模型竞技场评测平台