C-Eval 是一个旨在评估中文基础模型综合能力的全面评估套件,为大语言模型的中文能力提供标准化衡量基准。
SuperCLUE 是一款专业的中文通用大模型综合性测评基准,致力于为大语言模型的中文能力提供客观、权威的量化评估。
由 Hugging Face 维护的开源大模型性能基准排行榜,提供透明、标准化的模型能力量化对比。
CMMLU 是一个综合性的大模型中文评估基准,旨在为衡量大语言模型的中文能力提供客观、全面的度量标准。
PubMedQA 为生物医学研究提供专业的问答数据集,并通过模型得分排行榜量化 AI 在医学领域的表现。