internet-dataset 是一个由开发者基于自研搜索引擎 sese-engine 运行半年所积累的互联网数据集。该项目将海量的网页抓取结果公开,为研究者提供了极具价值的域名与网页索引数据。
数据集规模
截至 2022 年 5 月,该数据集总量约为 48.9G,且规模在持续增长。具体分布如下:
- 域名数据 (2.7G): 涵盖约 625 万个域名,涉及 193 万个一级域名。
- 网页数据 (6.4G): 包含 5329 万个网页,其中约 4857 万个网页包含标题,3597 万个包含介绍信息。
- 反向索引数据 (39.7G): 包含 1766 万个词条,每个词条关联 1 至 28,000 个网页。
详细数据维度
数据集在不同层级提供了细粒度的信息:
1. 域名级别 (Domain Level)
- 基础信息: 包含 IP 地址、最后访问时间。
- 统计指标: 访问次数(数值越高,相关字段的可信度越高)。
- 语言分布: 基于 fasttext 的语种识别结果(对该域名下所有网页进行滑动平均处理)。
- 外链样本: 抽样约 200 个该域名指向其他域名的链接。
- 首页专项属性: 包含重定向状态、HTTPS 可用性、高频关键词以及 HTML 结构映射字符串(用于过滤模板生成的冗余域名)。
2. 网页级别 (Page Level)
- 标题: 网页的 Title 标签内容。
- 描述: Meta Description 介绍信息(截断至 256 字符)。
获取方式
你可以通过以下渠道下载数据集:
正文完
