中文互联网敏感词与违禁词库分析指南

17次阅读
没有评论

中国互联网词库 ciku

ciku 是一个托管在 GitHub 上的开源项目,旨在为开发者提供免费的中国互联网敏感词库。该词库目前重点收录了两类内容:互联网脏话 色情词汇

该项目在数据覆盖面上表现强劲,收录了大量最新的网络流行语与变体词,能够为需要进行文本过滤或数据清洗的开发者提供高质量的参考基准。

核心特性

  • 完全免费: 无论是个人研究还是商业用途,均可永久免费使用。
  • 收录广泛: 实时跟进互联网新词,词库丰富度高,有效覆盖多种敏感表达方式。
  • 适用场景: 适用于社区评论审核、聊天机器人敏感词拦截、文本内容合规性检测等数据处理环节。

项目地址

GitHub 仓库:pennyliang/ciku

正文完
 0
Administrator
版权声明:本站原创文章,由 Administrator 于2023-06-14发表,共计283字。
转载说明:除特别说明外,本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布,转载请注明来源并保留原文链接。 本站部分内容基于公开资料整理,并可能经 AI 技术辅助生成或优化,仅供参考,不构成任何专业建议,请读者自行判断与核实。 本站不对第三方资源的可用性、安全性或合法性承担任何责任。
评论(没有评论)
验证码