TUMCC中文语料库:揭秘Telegram地下市场的多维数据分析与语言特征研究

51次阅读
没有评论

TUMCC:Telegram 地下市场中文语料库

TUMCC 是一个专注于专业术语识别的中文语料库,旨在为研究人员提供一个真实、高质量的 Telegram 地下市场语言样本集。

TUMCC 中文语料库:揭秘 Telegram 地下市场的多维数据分析与语言特征研究

核心数据规模

该语料库通过对 12 个 Telegram 群组中 19,821 位用户的行为进行采样,共提取出 28,749 个句子,总计涵盖 804,971 个字符。由于其数据来源的特殊性,该库在识别特定领域术语和俚语方面具有较高的科研价值。

实用特性

  • 预处理完备: 数据在发布前已完成筛选与分词工作,极大地降低了后续的清洗成本。
  • 多种版本: 官方提供了整理后的版本,方便开发者直接调用或快速学习。

资源获取

项目已在 GitHub 开源,详细内容可通过以下地址访问:
https://github.com/m1-llie/TUMCC

正文完
 0
Administrator
版权声明:本站原创文章,由 Administrator 于2023-08-27发表,共计330字。
转载说明:除特别说明外,本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布,转载请注明来源并保留原文链接。 本站部分内容基于公开资料整理,并可能经 AI 技术辅助生成或优化,仅供参考,不构成任何专业建议,请读者自行判断与核实。 本站不对第三方资源的可用性、安全性或合法性承担任何责任。
评论(没有评论)
验证码