CMMLU – 综合性大模型中文评估基准

6次阅读

没有评论

CMMLU 是一个面向大语言模型的综合性中文评估基准（Benchmark）。它旨在填补中文语境下缺乏大规模、多维度能力评测集的空白，通过构建涵盖广泛领域的问题集，帮助研究人员和开发者客观评估模型在中文环境下的知识水平与逻辑推理能力。

多维度能力评估 ：涵盖多种学科和知识领域，确保评估结果具有综合性。
标准化评测流程 ：提供统一的测试集与评估标准，方便不同模型之间进行横向对比。
开源生态支持 ：项目代码与数据集在 GitHub 上公开，支持社区共同维护与迭代。

AI 研究员 ：用于验证新模型在中文任务上的性能表现。
模型开发者 ：通过基准测试定位模型在特定知识领域的短板并进行优化。
学术机构 ：在发布中文大模型相关论文时，将其作为权威的性能衡量指标。

CMMLU 是一个开源项目，可通过其 GitHub 仓库免费获取相关资源。由于其性质为评估基准而非商业软件，具体使用限制取决于开源协议及数据集的使用条款。

建议用户在部署评测前，仔细阅读 GitHub 仓库中的 README 文档，确保测试环境与 Prompt 模板与官方标准一致，以保证评测结果的公正性与可重复性。

风险提示：评估基准的版本及测试集可能会随更新而变化，具体请以 GitHub 官方仓库为准。

Information may be incomplete or outdated; confirm details on the official website.

正文完

AI LLM 中文基准测试开源数据集

发表至： AI模型评测

2023年10月29日

0

转载说明：除特别说明外，本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布，转载请注明来源并保留原文链接。本站部分内容基于公开资料整理，并可能经 AI 技术辅助生成或优化，仅供参考，不构成任何专业建议，请读者自行判断与核实。本站不对第三方资源的可用性、安全性或合法性承担任何责任。

Open LLM Leaderboard – 开源大模型评测排行榜

HELM – 斯坦福大学大模型评测体系

OpenCompass – 大模型开放评测体系

PubMedQA – 生物医学研究问答数据集与评测基准

C-Eval：全面的中文基础模型评估套件

MMBench – 全方位的多模态大模型能力评测体系

FlagEval (天秤) – 智源研究院大模型评测平台

SuperCLUE – 中文通用大模型综合性测评基准

PubMedQA – 生物医学研究问答数据集与评测基准