48.9GB 规模的 internet-dataset 互联网数据集:核心资源概览与数据分布详情

101次阅读
没有评论

internet-dataset 是一个由开发者基于自研搜索引擎 sese-engine 运行半年所积累的互联网数据集。该项目将海量的网页抓取结果公开,为研究者提供了极具价值的域名与网页索引数据。

48.9GB 规模的 internet-dataset 互联网数据集:核心资源概览与数据分布详情

数据集规模

截至 2022 年 5 月,该数据集总量约为 48.9G,且规模在持续增长。具体分布如下:

  • 域名数据 (2.7G): 涵盖约 625 万个域名,涉及 193 万个一级域名。
  • 网页数据 (6.4G): 包含 5329 万个网页,其中约 4857 万个网页包含标题,3597 万个包含介绍信息。
  • 反向索引数据 (39.7G): 包含 1766 万个词条,每个词条关联 1 至 28,000 个网页。

详细数据维度

数据集在不同层级提供了细粒度的信息:

1. 域名级别 (Domain Level)

  • 基础信息: 包含 IP 地址、最后访问时间。
  • 统计指标: 访问次数(数值越高,相关字段的可信度越高)。
  • 语言分布: 基于 fasttext 的语种识别结果(对该域名下所有网页进行滑动平均处理)。
  • 外链样本: 抽样约 200 个该域名指向其他域名的链接。
  • 首页专项属性: 包含重定向状态、HTTPS 可用性、高频关键词以及 HTML 结构映射字符串(用于过滤模板生成的冗余域名)。

2. 网页级别 (Page Level)

  • 标题: 网页的 Title 标签内容。
  • 描述: Meta Description 介绍信息(截断至 256 字符)。

获取方式

你可以通过以下渠道下载数据集:

正文完
 0
Administrator
版权声明:本站原创文章,由 Administrator 于2022-06-01发表,共计591字。
转载说明:除特别说明外,本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布,转载请注明来源并保留原文链接。 本站部分内容基于公开资料整理,并可能经 AI 技术辅助生成或优化,仅供参考,不构成任何专业建议,请读者自行判断与核实。 本站不对第三方资源的可用性、安全性或合法性承担任何责任。
评论(没有评论)
验证码