LLM - ResoHub

AI模型评测 H2O EvalGPT – 基于 Elo 评级的 AI 大模型评估系统

H2O EvalGPT 是一款基于 Elo 评级算法的 AI 大模型评估工具，通过量化对比提供客观的模型性能排名。

277次阅读 0个评论

AI模型评测 2023年10月29日

LLMEval3 是由复旦大学 NLP 实验室研发的大模型评测基准，专注于提供客观且标准化的 AI 模型能力评估。

235次阅读 0个评论

AI模型评测 2023年10月29日

OpenCompass 是由上海人工智能实验室打造的专业大模型评测体系，旨在通过标准化的评估流程量化 AI 模型的实际能力。

273次阅读 0个评论

AI模型评测 2023年10月29日

FlagEval（天秤）是智源研究院打造的专业大模型评测平台，为AI模型提供标准化的能力量化评估。

296次阅读 0个评论

AI模型评测 2023年10月29日

LMArena 是一个基于众包对比的 AI 模型评测平台，通过真实的对话盲测来衡量大语言模型的实际表现。

295次阅读 0个评论

AI模型评测 2023年10月29日

MMLU 是一个大规模多任务语言理解基准，用于评估 AI 模型在广泛知识领域内的综合理解与推理能力。

256次阅读 0个评论

AI模型评测 2023年10月29日

C-Eval 是一个旨在评估中文基础模型综合能力的全面评估套件，为大语言模型的中文能力提供标准化衡量基准。

237次阅读 0个评论

AI模型评测 2023年10月29日

SuperCLUE 是一款专业的中文通用大模型综合性测评基准，致力于为大语言模型的中文能力提供客观、权威的量化评估。

234次阅读 0个评论

AI模型评测 2023年10月29日

由 Hugging Face 维护的开源大模型性能基准排行榜，提供透明、标准化的模型能力量化对比。

246次阅读 0个评论

AI模型评测 2023年10月29日

CMMLU 是一个综合性的大模型中文评估基准，旨在为衡量大语言模型的中文能力提供客观、全面的度量标准。

191次阅读 0个评论

AI模型评测 2023年10月29日