中英文对话系统训练集 Dialog Corpus：通过大规模多语言语料构建高性能交互模型

94次阅读

没有评论

Dialog_Corpus 是一个集成多种公开对话数据的 GitHub 项目，旨在为构建中英文聊天机器人（Chatbot）提供基础训练语料。尽管项目更新时间较早，但其汇总的各类数据集在对话系统开发中依然具有参考价值。

通用对话类
- 小黄鸡语料： 包含分词与未分词两个版本，是业界知名的中文对话数据集。
- ChatterBot 基本语料： 规模较小，但数据质量较高，适合作为基础对话引导。
- The NUS SMS Corpus： 规模巨大的中英文短信息数据集，适合研究碎片化社交语言。
垂直领域与问答类
- 白鹭时代问答语料： 基于论坛“最佳答案”筛选并经人工审核，包含约 2907 组高质量问答对。
- 保险行业 QA 库： 由 insuranceQA 翻译而来，包含训练集、测试集与验证集，正负样本比例为 1:10。
多媒体与综合类
- dgk_shooter_min： 中文电影对白语料（注：噪声较多，部分问答匹配度较低）。
- Chat corpus repository： 涵盖开放字幕、中英电影字幕、英文推文及中文歌词等多样化来源。
- NLP 数据集合集： 专注于英文的问答系统（QA）与目标导向对话系统（Goal-Oriented），可通过机器翻译转化为中文语料。

项目 GitHub 地址：https://github.com/candlewill/Dialog_Corpus

数据清洗： 部分语料（如电影对白）存在较高噪声，在投入模型训练前建议进行严格的预处理和过滤。
时效性： 由于数据集收集于数年前，部分表达方式可能与当前的互联网语言习惯有所出入。
语言转换： 英文数据集在翻译为中文使用时，需注意语境丢失或翻译偏差问题。

正文完

Github

发表至：创意工具

2022年7月11日

0

转载说明：除特别说明外，本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布，转载请注明来源并保留原文链接。本站部分内容基于公开资料整理，并可能经 AI 技术辅助生成或优化，仅供参考，不构成任何专业建议，请读者自行判断与核实。本站不对第三方资源的可用性、安全性或合法性承担任何责任。

AnyToCopy：支持 50+ 平台的免费视频文案提取与去水印工具（兼容抖音、小红书、快手）

想要生成高质量的 Nano-banana 图像？这里有一套精选提示词与效果图参考

Macroview 使用指南：高效获取全球经济数据的免费可视化平台

如何高效监控大盘走势？用大盘云图实时把控市场波动

成年人英语高效进阶路径：从学习方法到实用工具全集

Piped：一个替代 YouTube 的开源镜像前端方案

BT之家1LOU：高品质BT种子与磁力资源索引下载平台

高效全站源码镜像工具：实现网页资源一键打包下载与本地化部署

MangaEditor：高效在线漫画翻译与编辑实操指南