MediaCrawler全平台数据采集方案：实现小红书、抖音、微博的自动化抓取与结构化存储

38次阅读

MediaCrawler 是一款强大的开源爬虫工具，旨在高效抓取小红书、抖音、快手、B 站及微博等主流平台的视频、图片、评论、点赞和转发等多维度数据。

该工具通过 Playwright 构建浏览器桥接，在登录成功后完整保留上下文浏览器环境。其核心逻辑是直接执行 JS 表达式来获取加密参数，从而巧妙地绕过了对复杂加密算法的逆向工程，极大降低了开发与维护难度。由于涉及浏览器环境操作，使用者需具备一定的技术基础。

首先创建并激活 Python 虚拟环境，以确保依赖隔离：

# 进入项目根目录 
cd MediaCrawler

# 创建虚拟环境 
python -m venv venv

# 激活虚拟环境 (macOS & Linux)
source venv/bin/activate

# 激活虚拟环境 (Windows)
venvScriptsactivate

依次安装项目所需的依赖库及 Playwright 浏览器内核：

pip3 install -r requirements.txt
playwright install

通过命令行参数指定平台和爬取模式。启动后请根据提示使用对应 APP 扫码登录。

# 模式 A：根据配置文件中的关键词搜索帖子及其评论 
python main.py --platform xhs --lt qrcode --type search

# 模式 B：根据配置文件中的指定帖子 ID 列表抓取详情 
python main.py --platform xhs --lt qrcode --type detail

# 查看更多平台支持及命令参数 
python main.py --help

MediaCrawler 提供了灵活的数据保存方案，可根据分析需求选择：

关系型数据库： 支持 MySQL、PostgreSQL 等主流数据库。
本地文件： 支持导出为 CSV 或 JSON 格式（文件存放于 data/ 目录下）。

GitHub 仓库： https://github.com/NanmiCoder/MediaCrawler

源码备份： 国内网盘下载

正文完

爬虫工具

发表至： GitHub项目创意工具

2024年3月16日

0

转载说明：除特别说明外，本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布，转载请注明来源并保留原文链接。本站部分内容基于公开资料整理，并可能经 AI 技术辅助生成或优化，仅供参考，不构成任何专业建议，请读者自行判断与核实。本站不对第三方资源的可用性、安全性或合法性承担任何责任。

猫看白噪音：无需安装的免费在线环境音平台

想快速补齐小约翰可汗视频里的历史梗？这份通辽宇宙知识库帮你系统梳理

ACGKNOW 免费汉化成人游戏下载与安装指南

Latent Box：AI 艺术创作资源库（含获取路径与适用场景指南）

随机金句生成器：构建提升学习与生活质感的交互式网页应用

如何使用 Zoom Earth 实时监测全球天气、雨雷达与气象预报

EmojiMyFace：将真实人脸照片快速转换为匹配 Emoji 的 AI 工具

想知道这张动漫截图出自哪部作品？用 Cleithral 快速锁定角色与番剧名称

如何像顶级工程师一样思考？一套帮你打破认知瓶颈的计算机思维训练指南