ResoHub
  • AI工具
    • AI写作工具
    • AI办公工具
    • AI绘图工具
    • AI视频工具
    • ChatGPT工具
  • 软件资源
    • Android应用
    • iOS应用
    • Mac软件
    • Windows软件
    • 办公软件
    • 开发工具
  • 网络工具
    • Telegram代理
    • 机场订阅
    • 网络教程
  • 在线工具
    • 下载工具
    • 图片工具
    • 文件转换
    • 视频工具
  • 账号资源
    • Apple ID共享
    • 临时邮箱
  • 资源合集
    • AI合集推荐
    • 学习资源合集
    • 电影合集
    • 软件合集
  • AI工具
    • AI写作工具
    • AI办公工具
    • AI绘图工具
    • AI视频工具
    • ChatGPT工具
  • 软件资源
    • Android应用
    • iOS应用
    • Mac软件
    • Windows软件
    • 办公软件
    • 开发工具
  • 网络工具
    • Telegram代理
    • 机场订阅
    • 网络教程
  • 在线工具
    • 下载工具
    • 图片工具
    • 文件转换
    • 视频工具
  • 账号资源
    • Apple ID共享
    • 临时邮箱
  • 资源合集
    • AI合集推荐
    • 学习资源合集
    • 电影合集
    • 软件合集
  1. 首页
  2. AI工具导航
  3. AI模型评测
  4. 文章列表
MagicArena – 字节跳动视觉生成模型对战评测平台

AI模型评测 MagicArena – 字节跳动视觉生成模型对战评测平台

MagicArena 是字节跳动打造的视觉生成模型对战平台,通过对比测试客观评估 AI 图像生成能力。

27次阅读 0个评论
AI模型评测 2025年11月3日
AGI-Eval – AI大模型评测社区

AI模型评测 AGI-Eval – AI大模型评测社区

AGI-Eval 是一个专注于 AI 大模型能力评估的专业社区,旨在通过系统化的评测为用户提供模型性能参考。

10次阅读 0个评论
AI模型评测 2024年12月18日
H2O EvalGPT – 基于 Elo 评级的 AI 大模型评估系统

AI模型评测 H2O EvalGPT – 基于 Elo 评级的 AI 大模型评估系统

H2O EvalGPT 是一款基于 Elo 评级算法的 AI 大模型评估工具,通过量化对比提供客观的模型性能排名。

15次阅读 0个评论
AI模型评测 2023年10月29日
LLMEval3 – 复旦大学大模型评测基准

AI模型评测 LLMEval3 – 复旦大学大模型评测基准

LLMEval3 是由复旦大学 NLP 实验室研发的大模型评测基准,专注于提供客观且标准化的 AI 模型能力评估。

11次阅读 0个评论
AI模型评测 2023年10月29日
MMBench – 全方位的多模态大模型能力评测体系

AI模型评测 MMBench – 全方位的多模态大模型能力评测体系

MMBench 是一个针对多模态大模型设计的全面评测体系,旨在提供客观、标准的能力量化分析。

12次阅读 0个评论
AI模型评测 2023年10月29日
HELM – 斯坦福大学大模型评测体系

AI模型评测 HELM – 斯坦福大学大模型评测体系

HELM 是斯坦福大学开发的一套标准化大模型评测框架,旨在通过多维度的量化分析,解决当前 AI 模型评估缺乏统一标准的问题。

18次阅读 0个评论
AI模型评测 2023年10月29日
OpenCompass – 大模型开放评测体系

AI模型评测 OpenCompass – 大模型开放评测体系

OpenCompass 是由上海人工智能实验室打造的专业大模型评测体系,旨在通过标准化的评估流程量化 AI 模型的实际能力。

14次阅读 0个评论
AI模型评测 2023年10月29日
FlagEval (天秤) – 智源研究院大模型评测平台

AI模型评测 FlagEval (天秤) – 智源研究院大模型评测平台

FlagEval(天秤)是智源研究院打造的专业大模型评测平台,为AI模型提供标准化的能力量化评估。

17次阅读 0个评论
AI模型评测 2023年10月29日
LMArena – 权威的 AI 大模型竞技场评测平台

AI模型评测 LMArena – 权威的 AI 大模型竞技场评测平台

LMArena 是一个基于众包对比的 AI 模型评测平台,通过真实的对话盲测来衡量大语言模型的实际表现。

13次阅读 0个评论
AI模型评测 2023年10月29日
MMLU – 大规模多任务语言理解基准

AI模型评测 MMLU – 大规模多任务语言理解基准

MMLU 是一个大规模多任务语言理解基准,用于评估 AI 模型在广泛知识领域内的综合理解与推理能力。

19次阅读 0个评论
AI模型评测 2023年10月29日
  • 1
  • 2
  • »
关于我们

ResoHub 是一个免费资源与工具分享平台,聚合 AI 工具、软件与实用数字资源,帮助用户高效发现优质工具与服务。

所有内容均来源于公开互联网或用户投稿,仅供信息参考。

官方渠道: X(Twitter) | Telegram 频道

版权说明

ResoHub 所展示的第三方资源版权归原作者所有。本站仅作为信息整理与分享平台,不拥有相关内容版权,也不保证其可用性与安全性。如有侵权,请联系我们处理。