ResoHub
  • AI工具导航
    • Ai Presentation Tools
    • AI内容检测工具
    • AI写作工具
    • AI办公工具
    • AI图像工具
    • AI学习网站
    • AI抠图工具
    • AI提示词工具
    • AI搜索引擎
    • AI效率工具
    • AI文档工具
    • AI智能体
    • AI框架
    • AI模型
    • AI模型评测
    • AI绘画生成
    • AI编程工具
    • AI聊天机器人
    • AI视频工具
    • AI设计工具
    • AI音频工具
    • Best Ai Image Tools
  • AI工具教程
  • 软件资源
    • Android应用
    • iOS应用
    • Mac软件
    • Windows软件
    • 办公软件
    • 开发工具
  • 在线工具
    • 下载工具
    • 图片工具
    • 文件转换
    • 视频工具
  • AI工具导航
    • Ai Presentation Tools
    • AI内容检测工具
    • AI写作工具
    • AI办公工具
    • AI图像工具
    • AI学习网站
    • AI抠图工具
    • AI提示词工具
    • AI搜索引擎
    • AI效率工具
    • AI文档工具
    • AI智能体
    • AI框架
    • AI模型
    • AI模型评测
    • AI绘画生成
    • AI编程工具
    • AI聊天机器人
    • AI视频工具
    • AI设计工具
    • AI音频工具
    • Best Ai Image Tools
  • AI工具教程
  • 软件资源
    • Android应用
    • iOS应用
    • Mac软件
    • Windows软件
    • 办公软件
    • 开发工具
  • 在线工具
    • 下载工具
    • 图片工具
    • 文件转换
    • 视频工具
  1. 首页
  2. 标签
  3. LLM
H2O EvalGPT – 基于 Elo 评级的 AI 大模型评估系统

AI模型评测 H2O EvalGPT – 基于 Elo 评级的 AI 大模型评估系统

H2O EvalGPT 是一款基于 Elo 评级算法的 AI 大模型评估工具,通过量化对比提供客观的模型性能排名。

275次阅读 0个评论
AI模型评测 2023年10月29日
LLMEval3 – 复旦大学大模型评测基准

AI模型评测 LLMEval3 – 复旦大学大模型评测基准

LLMEval3 是由复旦大学 NLP 实验室研发的大模型评测基准,专注于提供客观且标准化的 AI 模型能力评估。

234次阅读 0个评论
AI模型评测 2023年10月29日
OpenCompass – 大模型开放评测体系

AI模型评测 OpenCompass – 大模型开放评测体系

OpenCompass 是由上海人工智能实验室打造的专业大模型评测体系,旨在通过标准化的评估流程量化 AI 模型的实际能力。

273次阅读 0个评论
AI模型评测 2023年10月29日
FlagEval (天秤) – 智源研究院大模型评测平台

AI模型评测 FlagEval (天秤) – 智源研究院大模型评测平台

FlagEval(天秤)是智源研究院打造的专业大模型评测平台,为AI模型提供标准化的能力量化评估。

295次阅读 0个评论
AI模型评测 2023年10月29日
LMArena – 权威的 AI 大模型竞技场评测平台

AI模型评测 LMArena – 权威的 AI 大模型竞技场评测平台

LMArena 是一个基于众包对比的 AI 模型评测平台,通过真实的对话盲测来衡量大语言模型的实际表现。

294次阅读 0个评论
AI模型评测 2023年10月29日
MMLU – 大规模多任务语言理解基准

AI模型评测 MMLU – 大规模多任务语言理解基准

MMLU 是一个大规模多任务语言理解基准,用于评估 AI 模型在广泛知识领域内的综合理解与推理能力。

255次阅读 0个评论
AI模型评测 2023年10月29日
C-Eval:全面的中文基础模型评估套件

AI模型评测 C-Eval:全面的中文基础模型评估套件

C-Eval 是一个旨在评估中文基础模型综合能力的全面评估套件,为大语言模型的中文能力提供标准化衡量基准。

237次阅读 0个评论
AI模型评测 2023年10月29日
SuperCLUE – 中文通用大模型综合性测评基准

AI模型评测 SuperCLUE – 中文通用大模型综合性测评基准

SuperCLUE 是一款专业的中文通用大模型综合性测评基准,致力于为大语言模型的中文能力提供客观、权威的量化评估。

234次阅读 0个评论
AI模型评测 2023年10月29日
Open LLM Leaderboard – 开源大模型评测排行榜

AI模型评测 Open LLM Leaderboard – 开源大模型评测排行榜

由 Hugging Face 维护的开源大模型性能基准排行榜,提供透明、标准化的模型能力量化对比。

246次阅读 0个评论
AI模型评测 2023年10月29日
CMMLU – 综合性大模型中文评估基准

AI模型评测 CMMLU – 综合性大模型中文评估基准

CMMLU 是一个综合性的大模型中文评估基准,旨在为衡量大语言模型的中文能力提供客观、全面的度量标准。

189次阅读 0个评论
AI模型评测 2023年10月29日
  • «
  • 1
  • 2
  • 3
  • »
关于我们

ResoHub 是一个免费资源与工具分享平台,聚合 AI 工具、软件与实用数字资源,帮助用户高效发现优质工具与服务。

所有内容均来源于公开互联网或用户投稿,仅供信息参考。

官方渠道: X(Twitter) | Telegram 频道

版权说明

ResoHub 所展示的第三方资源版权归原作者所有。本站仅作为信息整理与分享平台,不拥有相关内容版权,也不保证其可用性与安全性。如有侵权,请联系我们处理。