中文科幻小说文本语料库
这是一个托管在 GitHub 上的大规模中文科幻小说数据集。该资源由前百度贴吧科幻吧吧主「比尔布莱克」整理,涵盖了 4675 本科幻小说 。其内容包含此前乌拉科幻小说网在被关闭后释放的压缩包资料,具有较高的文本量与代表性。
适用场景
- 自然语言处理(NLP): 可作为中文科幻领域的大规模文本语料库。
- AI 模型训练: 适用于构建或微调针对特定文学风格的人工智能语料库。
- 数据库研究: 用于科幻文学的文本分析与数据库构建。
资源获取
可通过以下 GitHub 仓库直接下载:
https://github.com/guhhhhaa/4675-scifi
正文完


