基准测试 - ResoHub

MMBench – 全方位的多模态大模型能力评测体系

AI模型评测 MMBench – 全方位的多模态大模型能力评测体系

MMBench 是一个针对多模态大模型设计的全面评测体系，旨在提供客观、标准的能力量化分析。

242次阅读 0个评论

AI模型评测 2023年10月29日

HELM – 斯坦福大学大模型评测体系

AI模型评测 HELM – 斯坦福大学大模型评测体系

HELM 是斯坦福大学开发的一套标准化大模型评测框架，旨在通过多维度的量化分析，解决当前 AI 模型评估缺乏统一标准的问题。

237次阅读 0个评论

AI模型评测 2023年10月29日

PubMedQA – 生物医学研究问答数据集与评测基准

AI模型评测 PubMedQA – 生物医学研究问答数据集与评测基准

PubMedQA 为生物医学研究提供专业的问答数据集，并通过模型得分排行榜量化 AI 在医学领域的表现。

138次阅读 0个评论

AI模型评测 2023年10月29日