MMLU – 大規模マルチタスク言語理解ベンチマーク

266第二読会

MMLU（Massive Multitask Language Understanding）は、人工知能分野で広く用いられている大規模なマルチタスク言語理解ベンチマークです。複数の分野にわたるテスト項目を通して、大規模言語モデル（LLM）が複雑なタスクを処理する際の、一般的な知識レベルと問題解決能力を測定します。

多次元的な知識網羅性： テスト課題は、STEM（科学、技術、工学、数学）、人文科学、社会科学など、57の異なる分野を網羅している。
総合的な能力評価： このモデルの、世界に関する知識、推論能力、言語理解力におけるパフォーマンスは、多肢選択式の問題を通して評価される。
標準化された比較： これは、異なるバージョンのAIモデルに対して統一された性能測定基準を提供し、研究者がモデルのサイズと性能の関係を観察するのに役立ちます。

AI研究者および開発者： モデルの反復処理後の性能向上を検証するために使用されます。
モデル評価機関： モデルの一般性を測定するための主要指標として。
AI愛好家： MMLUスコアを比較することで、様々なLLMの知識基盤を比較する。

MMLU 作为一个学术评测基准，其数据集通常在研究社区中公开。但请注意，具体的评测分数取决于测试集版本、提示词（Prompt）设计及采样方法，不同报告中的结果可能存在差异。

在参考 MMLU 分数时，建议结合模型在特定垂直领域的表现进行综合判断，而非单一依赖该总分。同时，请关注最新的评测方法论以避免数据污染导致的分数虚高。

风险提示：评测标准与数据集版本可能随时间更新，具体数据请以官方发布或权威学术论文为准。

Information may be incomplete or outdated; confirm details on the official website.

正文完

AI LLM マルチタスク学習语言模型基准

发表至： AIモデルの評価

2023年10月29日

转载说明：除特别说明外，本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布，转载请注明来源并保留原文链接。本站部分内容基于公开资料整理，并可能经 AI 技术辅助生成或优化，仅供参考，不构成任何专业建议，请读者自行判断与核实。本站不对第三方资源的可用性、安全性或合法性承担任何责任。

AGI-Eval – AI大模型评测社区

SuperCLUE – 中文通用大模型综合性测评基准

Open LLM Leaderboard – 开源大模型评测排行榜

OpenCompass – 大模型开放评测体系

MMBench – 全方位的多模态大模型能力评测体系

LLMEval3 – 复旦大学大模型评测基准

MMLU – 大規模マルチタスク言語理解ベンチマーク

PubMedQA – 生物医学研究问答数据集与评测基准

C-Eval：全面的中文基础模型评估套件

LMArena – 权威的 AI 大模型竞技场评测平台