Dialog_Corpus:多源中英文对话训练语料集
Dialog_Corpus 是一个集成多种公开对话数据的 GitHub 项目,旨在为构建中英文聊天机器人(Chatbot)提供基础训练语料。尽管项目更新时间较早,但其汇总的各类数据集在对话系统开发中依然具有参考价值。
核心数据集概览
- 通用对话类
- 小黄鸡语料: 包含分词与未分词两个版本,是业界知名的中文对话数据集。
- ChatterBot 基本语料: 规模较小,但数据质量较高,适合作为基础对话引导。
- The NUS SMS Corpus: 规模巨大的中英文短信息数据集,适合研究碎片化社交语言。
- 垂直领域与问答类
- 白鹭时代问答语料: 基于论坛“最佳答案”筛选并经人工审核,包含约 2907 组高质量问答对。
- 保险行业 QA 库: 由 insuranceQA 翻译而来,包含训练集、测试集与验证集,正负样本比例为 1:10。
- 多媒体与综合类
- dgk_shooter_min: 中文电影对白语料(注:噪声较多,部分问答匹配度较低)。
- Chat corpus repository: 涵盖开放字幕、中英电影字幕、英文推文及中文歌词等多样化来源。
- NLP 数据集合集: 专注于英文的问答系统(QA)与目标导向对话系统(Goal-Oriented),可通过机器翻译转化为中文语料。
资源获取
项目 GitHub 地址:https://github.com/candlewill/Dialog_Corpus
注意事项
- 数据清洗: 部分语料(如电影对白)存在较高噪声,在投入模型训练前建议进行严格的预处理和过滤。
- 时效性: 由于数据集收集于数年前,部分表达方式可能与当前的互联网语言习惯有所出入。
- 语言转换: 英文数据集在翻译为中文使用时,需注意语境丢失或翻译偏差问题。
正文完