KI-Modellbewertung – ResoHub

MagicArena – 字节跳动视觉生成模型对战评测平台

KI-Modellbewertung MagicArena – ByteDances Plattform für Wettbewerbe und Bewertungen visueller generativer Modelle

MagicArena ist eine von ByteDance entwickelte Wettbewerbsplattform für visuelle Generierungsmodelle, die die Fähigkeiten von KI-gestützten Bildgenerierungsmodellen durch vergleichende Tests objektiv bewertet.

AGI-Eval – AI大模型评测社区

KI-Modellbewertung AGI-Eval – Community für die Bewertung großer KI-Modelle

AGI-Eval ist eine professionelle Community, die sich auf die Bewertung der Leistungsfähigkeit großer KI-Modelle konzentriert und darauf abzielt, den Nutzern durch systematische Evaluierungen Referenzwerte für die Modellleistung bereitzustellen.

H2O EvalGPT – 基于 Elo 评级的 AI 大模型评估系统

KI-Modellbewertung H2O EvalGPT – Ein KI-basiertes System zur Bewertung großer Modelle auf Basis der Elo-Wertung

H2O EvalGPT ist ein KI-gestütztes Tool zur Bewertung großer Modelle, das auf dem Elo-Bewertungsalgorithmus basiert und durch quantitativen Vergleich eine objektive Rangfolge der Modellleistung ermöglicht.

LLMEval3 – 复旦大学大模型评测基准

KI-Modellbewertung LLMEval3 – 复旦大学大模型评测基准

LLMEval3 是由复旦大学 NLP 实验室研发的大模型评测基准，专注于提供客观且标准化的 AI 模型能力评估。

MMBench – 全方位的多模态大模型能力评测体系

KI-Modellbewertung MMBench – 全方位的多模态大模型能力评测体系

MMBench 是一个针对多模态大模型设计的全面评测体系，旨在提供客观、标准的能力量化分析。

HELM – 斯坦福大学大模型评测体系

KI-Modellbewertung HELM – 斯坦福大学大模型评测体系

HELM 是斯坦福大学开发的一套标准化大模型评测框架，旨在通过多维度的量化分析，解决当前 AI 模型评估缺乏统一标准的问题。

OpenCompass – 大模型开放评测体系

KI-Modellbewertung OpenCompass – 大模型开放评测体系

OpenCompass 是由上海人工智能实验室打造的专业大模型评测体系，旨在通过标准化的评估流程量化 AI 模型的实际能力。

FlagEval (天秤) – 智源研究院大模型评测平台

KI-Modellbewertung FlagEval (天秤) – 智源研究院大模型评测平台

FlagEval（天秤）是智源研究院打造的专业大模型评测平台，为AI模型提供标准化的能力量化评估。

LMArena – 权威的 AI 大模型竞技场评测平台

KI-Modellbewertung LMArena – 权威的 AI 大模型竞技场评测平台

LMArena 是一个基于众包对比的 AI 模型评测平台，通过真实的对话盲测来衡量大语言模型的实际表现。

MMLU – 大规模多任务语言理解基准

KI-Modellbewertung MMLU – 大规模多任务语言理解基准

MMLU 是一个大规模多任务语言理解基准，用于评估 AI 模型在广泛知识领域内的综合理解与推理能力。