Classement Open LLM – Classement des évaluations de grands modèles open source

260Deuxième lecture

Le classement Open LLM Leaderboard, lancé par l'équipe Hugging Face, est une plateforme d'évaluation publique conçue pour fournir une norme d'évaluation des performances unifiée, transparente et reproductible pour les modèles de langage de grande taille (LLM) open source. Grâce à ce classement, les utilisateurs peuvent visualiser intuitivement le classement des différents modèles open source selon divers indicateurs clés de performance.

Évaluation quantitative des performances : Un ensemble d'évaluations standardisées est utilisé pour évaluer le raisonnement logique, la compréhension du langage et les autres capacités du modèle.
Comparaison de la transparence : Tous les modèles participants et leurs scores sont rendus publics, ce qui permet aux chercheurs et aux développeurs de comparer facilement les performances réelles des modèles présentant des architectures ou des échelles de paramètres différentes.
Mise à jour dynamique : À mesure que de nouveaux modèles sont publiés et que les normes d'évaluation évoluent, le classement sera régulièrement mis à jour afin de refléter les dernières évolutions de la communauté open source.

Développeurs en IA : Avant de sélectionner un modèle de base pour le réglage fin ou le déploiement, le classement est utilisé pour filtrer les modèles candidats les plus performants.
Chercheur en apprentissage automatique : Suivez l'évolution des capacités des modèles open source et vérifiez comment les nouveaux algorithmes améliorent les performances des modèles.
Décideurs en matière de technologies d'entreprise : Évaluer l'écart entre les solutions open source et les solutions propriétaires dans des dimensions de capacités spécifiques.

Ce classement est une ressource publique au sein de la communauté Hugging Face et son accès est gratuit. Les utilisateurs peuvent consulter les classements et les données sans payer.

在参考排行榜时，建议关注模型在特定任务上的得分而非仅看综合排名，并结合模型的参数量（Model Size）来评估其效率与性能的性价比。同时，请注意评测集可能存在的数据污染问题。

风险提示： 评测标准与排名数据可能会随版本更新而变化，具体详情请以官网实时数据为准。

Information may be incomplete or outdated; confirm details on the official website.

正文完

发表至： Évaluation des modèles d'IA

2023年10月29日

0

转载说明：除特别说明外，本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布，转载请注明来源并保留原文链接。本站部分内容基于公开资料整理，并可能经 AI 技术辅助生成或优化，仅供参考，不构成任何专业建议，请读者自行判断与核实。本站不对第三方资源的可用性、安全性或合法性承担任何责任。

CMMLU – 综合性大模型中文评估基准

PubMedQA – 生物医学研究问答数据集与评测基准

MMLU – 大规模多任务语言理解基准

FlagEval (天秤) – 智源研究院大模型评测平台

SuperCLUE – 中文通用大模型综合性测评基准

HELM – 斯坦福大学大模型评测体系

H2O EvalGPT – 基于 Elo 评级的 AI 大模型评估系统

AGI-Eval – AI大模型评测社区

CMMLU – 综合性大模型中文评估基准