CMMLU – Benchmark Abrangente de Avaliação de Modelos Chineses de Grande Porte

200Segunda leitura

O CMMLU é um benchmark abrangente em chinês para grandes modelos de linguagem. Seu objetivo é suprir a falta de conjuntos de avaliação de habilidades multidimensionais e em larga escala no contexto chinês. Ao construir um conjunto de questões que abrange uma ampla gama de áreas, ele auxilia pesquisadores e desenvolvedores a avaliar objetivamente o nível de conhecimento e a capacidade de raciocínio lógico dos modelos no ambiente chinês.

Avaliação de habilidades multidimensionais Abrange uma ampla gama de disciplinas e áreas de conhecimento para garantir que os resultados da avaliação sejam abrangentes.
Processo de avaliação padronizado Ele fornece um conjunto de testes e critérios de avaliação unificados para facilitar a comparação horizontal entre diferentes modelos.
Suporte ao ecossistema de código aberto O código do projeto e o conjunto de dados estão disponíveis publicamente no GitHub, permitindo a manutenção e iteração pela comunidade.

Pesquisador de IA Utilizado para verificar o desempenho do novo modelo em tarefas em chinês.
Desenvolvedores de modelos Identificar e otimizar as fragilidades do modelo em domínios de conhecimento específicos por meio de testes comparativos.
instituições acadêmicas Na publicação de artigos relacionados a grandes modelos chineses, isso é usado como uma métrica de desempenho confiável.

CMMLU 是一个开源项目，可通过其 GitHub 仓库免费获取相关资源。由于其性质为评估基准而非商业软件，具体使用限制取决于开源协议及数据集的使用条款。

建议用户在部署评测前，仔细阅读 GitHub 仓库中的 README 文档，确保测试环境与 Prompt 模板与官方标准一致，以保证评测结果的公正性与可重复性。

风险提示：评估基准的版本及测试集可能会随更新而变化，具体请以 GitHub 官方仓库为准。

Information may be incomplete or outdated; confirm details on the official website.

正文完

AI LLM 中文基准测试开源数据集

发表至： Avaliação de Modelo de IA

2023年10月29日

转载说明：除特别说明外，本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布，转载请注明来源并保留原文链接。本站部分内容基于公开资料整理，并可能经 AI 技术辅助生成或优化，仅供参考，不构成任何专业建议，请读者自行判断与核实。本站不对第三方资源的可用性、安全性或合法性承担任何责任。

MMBench – 全方位的多模态大模型能力评测体系

LLMEval3 – 复旦大学大模型评测基准

HELM – 斯坦福大学大模型评测体系

OpenCompass – 大模型开放评测体系

LMArena – 权威的 AI 大模型竞技场评测平台

FlagEval (天秤) – 智源研究院大模型评测平台

C-Eval：全面的中文基础模型评估套件

MagicArena – 字节跳动视觉生成模型对战评测平台

想让视频人物说任何语言且口型精准匹配？尝试用 Sync Labs 实现实时唇形同步

Open LLM Leaderboard – 开源大模型评测排行榜