MMBench 是一个针对多模态大模型设计的全面评测体系,旨在提供客观、标准的能力量化分析。
HELM 是斯坦福大学开发的一套标准化大模型评测框架,旨在通过多维度的量化分析,解决当前 AI 模型评估缺乏统一标准的问题。
PubMedQA 为生物医学研究提供专业的问答数据集,并通过模型得分排行榜量化 AI 在医学领域的表现。