ベンチマーク

AIモデルの評価 MMBench – マルチモーダル大規模モデルの機能を包括的に評価するシステム

MMBenchは、マルチモーダルな大規模モデル向けに設計された包括的な評価システムであり、客観的かつ標準化された定量的分析を提供することを目的としている。

HELMは、スタンフォード大学が開発した標準化された大規模モデル評価フレームワークです。多次元定量分析を通して、現在のAIモデル評価における統一基準の欠如という問題を解決することを目的としています。

PubMedQAは、生物医学研究のための専門的な質疑応答データセットを提供し、モデルスコアランキングを通じて医療分野におけるAIの性能を定量化します。