AI工具导航 - ResoHub

AI模型评测 HELM – 斯坦福大学大模型评测体系

HELM 是斯坦福大学开发的一套标准化大模型评测框架，旨在通过多维度的量化分析，解决当前 AI 模型评估缺乏统一标准的问题。

20次阅读 0个评论

AI模型评测 2023年10月29日

OpenCompass 是由上海人工智能实验室打造的专业大模型评测体系，旨在通过标准化的评估流程量化 AI 模型的实际能力。

23次阅读 0个评论

AI模型评测 2023年10月29日

FlagEval（天秤）是智源研究院打造的专业大模型评测平台，为AI模型提供标准化的能力量化评估。

32次阅读 0个评论

AI模型评测 2023年10月29日

LMArena 是一个基于众包对比的 AI 模型评测平台，通过真实的对话盲测来衡量大语言模型的实际表现。

21次阅读 0个评论

AI模型评测 2023年10月29日

MMLU 是一个大规模多任务语言理解基准，用于评估 AI 模型在广泛知识领域内的综合理解与推理能力。

23次阅读 0个评论

AI模型评测 2023年10月29日

C-Eval 是一个旨在评估中文基础模型综合能力的全面评估套件，为大语言模型的中文能力提供标准化衡量基准。

20次阅读 0个评论

AI模型评测 2023年10月29日

SuperCLUE 是一款专业的中文通用大模型综合性测评基准，致力于为大语言模型的中文能力提供客观、权威的量化评估。

24次阅读 0个评论

AI模型评测 2023年10月29日

由 Hugging Face 维护的开源大模型性能基准排行榜，提供透明、标准化的模型能力量化对比。

22次阅读 0个评论

AI模型评测 2023年10月29日

CMMLU 是一个综合性的大模型中文评估基准，旨在为衡量大语言模型的中文能力提供客观、全面的度量标准。

16次阅读 0个评论

AI模型评测 2023年10月29日

PubMedQA 为生物医学研究提供专业的问答数据集，并通过模型得分排行榜量化 AI 在医学领域的表现。

18次阅读 0个评论

AI模型评测 2023年10月29日