PubMedQA – Conjunto de datos y plataforma de evaluación para la respuesta a preguntas de investigación biomédica

136Segunda lectura

PubMedQA es un conjunto de datos de preguntas y respuestas y un referente para la evaluación de modelos, diseñado específicamente para el campo biomédico. Su objetivo es evaluar la precisión, la capacidad de razonamiento lógico y el dominio del conocimiento biomédico especializado de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) al abordar preguntas médicas complejas mediante un conjunto de pruebas estandarizado.

Se proporcionan conjuntos de datos profesionales. : Construir pares de preguntas y respuestas de alta calidad basados en la literatura de investigación biomédica de la base de datos PubMed.
Tabla de clasificación de puntuación del modelo Actualiza las puntuaciones de los diferentes modelos de IA en tiempo real o periódicamente, y muestra de forma intuitiva la clasificación del rendimiento de cada modelo en tareas de respuesta a preguntas médicas.
Capacidades de evaluación comparativa Proporciona a los investigadores un estándar de evaluación unificado para verificar los efectos iterativos de los modelos de IA médica.

Investigador de IA Desarrolladores que necesitan validar el rendimiento del modelo en el sector sanitario.
Investigadores biomédicos : Profesionales que se centran en cómo la tecnología de IA puede ayudar en el análisis de la literatura médica.
Desarrolladores de software médico Equipos que necesitan consultar datos de referencia al crear un sistema de preguntas y respuestas médicas.

PubMedQA sirve principalmente como conjunto de datos para investigación y como herramienta de referencia. Para obtener información sobre permisos de uso específicos y métodos de adquisición de datos, consulte la página oficial del proyecto. Debido a su naturaleza académica, la frecuencia de las actualizaciones depende de las contribuciones de la comunidad investigadora.

建议用户通过官方排行榜对比不同模型的得分，以选择最适合生物医学任务的底座模型；在利用该数据集训练模型时，应重点关注医学术语的精确度与上下文关联。

风险提示： 数据集版本及模型得分排名可能会随时间更新，具体细节请以官网公布的最新数据为准。

Information may be incomplete or outdated; confirm details on the official website.

正文完

AI 医学问答基准测试数据集生物医学

发表至： Evaluación de modelos de IA

2023年10月29日

转载说明：除特别说明外，本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布，转载请注明来源并保留原文链接。本站部分内容基于公开资料整理，并可能经 AI 技术辅助生成或优化，仅供参考，不构成任何专业建议，请读者自行判断与核实。本站不对第三方资源的可用性、安全性或合法性承担任何责任。

H2O EvalGPT – 基于 Elo 评级的 AI 大模型评估系统

HELM – 斯坦福大学大模型评测体系

CMMLU – 综合性大模型中文评估基准

LLMEval3 – 复旦大学大模型评测基准

LMArena – 权威的 AI 大模型竞技场评测平台

PubMedQA – Conjunto de datos y plataforma de evaluación para la respuesta a preguntas de investigación biomédica

AGI-Eval – AI大模型评测社区

FlagEval (天秤) – 智源研究院大模型评测平台

MacKed：精选 macOS 软件资源下载站

公务员考试资料怎么选？这份竹叶数据的备考经验与资源清单可参考