中英文对话系统训练集 Dialog Corpus:通过大规模多语言语料构建高性能交互模型

94次阅读
没有评论

Dialog_Corpus:多源中英文对话训练语料集

Dialog_Corpus 是一个集成多种公开对话数据的 GitHub 项目,旨在为构建中英文聊天机器人(Chatbot)提供基础训练语料。尽管项目更新时间较早,但其汇总的各类数据集在对话系统开发中依然具有参考价值。

核心数据集概览

  • 通用对话类
    • 小黄鸡语料: 包含分词与未分词两个版本,是业界知名的中文对话数据集。
    • ChatterBot 基本语料: 规模较小,但数据质量较高,适合作为基础对话引导。
    • The NUS SMS Corpus: 规模巨大的中英文短信息数据集,适合研究碎片化社交语言。
  • 垂直领域与问答类
    • 白鹭时代问答语料: 基于论坛“最佳答案”筛选并经人工审核,包含约 2907 组高质量问答对。
    • 保险行业 QA 库: 由 insuranceQA 翻译而来,包含训练集、测试集与验证集,正负样本比例为 1:10。
  • 多媒体与综合类
    • dgk_shooter_min: 中文电影对白语料(注:噪声较多,部分问答匹配度较低)。
    • Chat corpus repository: 涵盖开放字幕、中英电影字幕、英文推文及中文歌词等多样化来源。
    • NLP 数据集合集: 专注于英文的问答系统(QA)与目标导向对话系统(Goal-Oriented),可通过机器翻译转化为中文语料。

资源获取

项目 GitHub 地址:https://github.com/candlewill/Dialog_Corpus

注意事项

  • 数据清洗: 部分语料(如电影对白)存在较高噪声,在投入模型训练前建议进行严格的预处理和过滤。
  • 时效性: 由于数据集收集于数年前,部分表达方式可能与当前的互联网语言习惯有所出入。
  • 语言转换: 英文数据集在翻译为中文使用时,需注意语境丢失或翻译偏差问题。
正文完
 0
Administrator
版权声明:本站原创文章,由 Administrator 于2022-07-11发表,共计706字。
转载说明:除特别说明外,本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布,转载请注明来源并保留原文链接。 本站部分内容基于公开资料整理,并可能经 AI 技术辅助生成或优化,仅供参考,不构成任何专业建议,请读者自行判断与核实。 本站不对第三方资源的可用性、安全性或合法性承担任何责任。
评论(没有评论)
验证码