TUMCC:Telegram 地下市场中文语料库
TUMCC 是一个专注于专业术语识别的中文语料库,旨在为研究人员提供一个真实、高质量的 Telegram 地下市场语言样本集。
核心数据规模
该语料库通过对 12 个 Telegram 群组中 19,821 位用户的行为进行采样,共提取出 28,749 个句子,总计涵盖 804,971 个字符。由于其数据来源的特殊性,该库在识别特定领域术语和俚语方面具有较高的科研价值。
实用特性
- 预处理完备: 数据在发布前已完成筛选与分词工作,极大地降低了后续的清洗成本。
- 多种版本: 官方提供了整理后的版本,方便开发者直接调用或快速学习。
资源获取
项目已在 GitHub 开源,详细内容可通过以下地址访问:
https://github.com/m1-llie/TUMCC
正文完
