AGI-Eval 是一个专注于 AI 大模型能力评估的专业社区,旨在通过系统化的评测为用户提供模型性能参考。
LMArena 是一个基于众包对比的 AI 模型评测平台,通过真实的对话盲测来衡量大语言模型的实际表现。
由 Hugging Face 维护的开源大模型性能基准排行榜,提供透明、标准化的模型能力量化对比。