AIモデル評価 - ResoHub

MagicArena – 字节跳动视觉生成模型对战评测平台

AIモデルの評価 MagicArena – ByteDanceのビジュアル生成モデルコンテストおよび評価プラットフォーム

MagicArenaは、ByteDanceが開発したビジュアル生成モデルの競技プラットフォームであり、比較テストを通じてAIの画像生成能力を客観的に評価する。

AGI-Eval – AI大模型评测社区

AIモデルの評価 AGI-Eval – AI大規模モデル評価コミュニティ

AGI-Evalは、大規模AIモデルの能力評価に特化した専門家コミュニティであり、体系的な評価を通じてユーザーにモデル性能の参考情報を提供することを目指しています。

H2O EvalGPT – 基于 Elo 评级的 AI 大模型评估系统

AIモデルの評価 H2O EvalGPT – Eloレーティングに基づくAI大規模モデル評価システム

H2O EvalGPTは、Eloレーティングアルゴリズムに基づいたAI大規模モデル評価ツールであり、定量的な比較を通じて客観的なモデル性能ランキングを提供します。

LLMEval3 – 复旦大学大模型评测基准

AIモデルの評価 LLMEval3 – 复旦大学大模型评测基准

LLMEval3 是由复旦大学 NLP 实验室研发的大模型评测基准，专注于提供客观且标准化的 AI 模型能力评估。

MMBench – 全方位的多模态大模型能力评测体系

AIモデルの評価 MMBench – 全方位的多模态大模型能力评测体系

MMBench 是一个针对多模态大模型设计的全面评测体系，旨在提供客观、标准的能力量化分析。

HELM – 斯坦福大学大模型评测体系

AIモデルの評価 HELM – 斯坦福大学大模型评测体系

HELM 是斯坦福大学开发的一套标准化大模型评测框架，旨在通过多维度的量化分析，解决当前 AI 模型评估缺乏统一标准的问题。

OpenCompass – 大模型开放评测体系

AIモデルの評価 OpenCompass – 大模型开放评测体系

OpenCompass 是由上海人工智能实验室打造的专业大模型评测体系，旨在通过标准化的评估流程量化 AI 模型的实际能力。

FlagEval (天秤) – 智源研究院大模型评测平台

AIモデルの評価 FlagEval (天秤) – 智源研究院大模型评测平台

FlagEval（天秤）是智源研究院打造的专业大模型评测平台，为AI模型提供标准化的能力量化评估。

LMArena – 权威的 AI 大模型竞技场评测平台

AIモデルの評価 LMArena – 权威的 AI 大模型竞技场评测平台

LMArena 是一个基于众包对比的 AI 模型评测平台，通过真实的对话盲测来衡量大语言模型的实际表现。

MMLU – 大规模多任务语言理解基准

AIモデルの評価 MMLU – 大规模多任务语言理解基准

MMLU 是一个大规模多任务语言理解基准，用于评估 AI 模型在广泛知识领域内的综合理解与推理能力。