HELM 是斯坦福大学开发的一套标准化大模型评测框架,旨在通过多维度的量化分析,解决当前 AI 模型评估缺乏统一标准的问题。
OpenCompass 是由上海人工智能实验室打造的专业大模型评测体系,旨在通过标准化的评估流程量化 AI 模型的实际能力。
FlagEval(天秤)是智源研究院打造的专业大模型评测平台,为AI模型提供标准化的能力量化评估。
LMArena 是一个基于众包对比的 AI 模型评测平台,通过真实的对话盲测来衡量大语言模型的实际表现。
MMLU 是一个大规模多任务语言理解基准,用于评估 AI 模型在广泛知识领域内的综合理解与推理能力。
C-Eval 是一个旨在评估中文基础模型综合能力的全面评估套件,为大语言模型的中文能力提供标准化衡量基准。
SuperCLUE 是一款专业的中文通用大模型综合性测评基准,致力于为大语言模型的中文能力提供客观、权威的量化评估。
由 Hugging Face 维护的开源大模型性能基准排行榜,提供透明、标准化的模型能力量化对比。
CMMLU 是一个综合性的大模型中文评估基准,旨在为衡量大语言模型的中文能力提供客观、全面的度量标准。
PubMedQA 为生物医学研究提供专业的问答数据集,并通过模型得分排行榜量化 AI 在医学领域的表现。