MediaCrawler全平台数据采集方案：实现小红书、抖音、微博的自动化抓取与结构化存储

41次阅读

MediaCrawler 是一款强大的开源爬虫工具，旨在高效抓取小红书、抖音、快手、B 站及微博等主流平台的视频、图片、评论、点赞和转发等多维度数据。

该工具通过 Playwright 构建浏览器桥接，在登录成功后完整保留上下文浏览器环境。其核心逻辑是直接执行 JS 表达式来获取加密参数，从而巧妙地绕过了对复杂加密算法的逆向工程，极大降低了开发与维护难度。由于涉及浏览器环境操作，使用者需具备一定的技术基础。

首先创建并激活 Python 虚拟环境，以确保依赖隔离：

# 进入项目根目录 
cd MediaCrawler

# 创建虚拟环境 
python -m venv venv

# 激活虚拟环境 (macOS & Linux)
source venv/bin/activate

# 激活虚拟环境 (Windows)
venvScriptsactivate

依次安装项目所需的依赖库及 Playwright 浏览器内核：

pip3 install -r requirements.txt
playwright install

通过命令行参数指定平台和爬取模式。启动后请根据提示使用对应 APP 扫码登录。

# 模式 A：根据配置文件中的关键词搜索帖子及其评论 
python main.py --platform xhs --lt qrcode --type search

# 模式 B：根据配置文件中的指定帖子 ID 列表抓取详情 
python main.py --platform xhs --lt qrcode --type detail

# 查看更多平台支持及命令参数 
python main.py --help

MediaCrawler 提供了灵活的数据保存方案，可根据分析需求选择：

关系型数据库： 支持 MySQL、PostgreSQL 等主流数据库。
本地文件： 支持导出为 CSV 或 JSON 格式（文件存放于 data/ 目录下）。

GitHub 仓库： https://github.com/NanmiCoder/MediaCrawler

源码备份： 国内网盘下载

正文完

爬虫工具

发表至： GitHub项目创意工具

2024年3月16日

0

转载说明：除特别说明外，本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布，转载请注明来源并保留原文链接。本站部分内容基于公开资料整理，并可能经 AI 技术辅助生成或优化，仅供参考，不构成任何专业建议，请读者自行判断与核实。本站不对第三方资源的可用性、安全性或合法性承担任何责任。

如何使用 AACMix 免登录收听 5.4 万个全球无广告电台：操作指南

NodeBE4 使用指南：突破海外媒体付费墙与恢复失效公众号文章

如何使用柠檬直播观看高清多赛事体育直播：操作指南与全流程步骤

如何构建高效的界面规范？参考这 150 多个全球顶尖 UX 设计系统

App Store 与 Steam 限免指南：实时追踪应用免费与特惠信息

imageSearch 使用指南：通过聚合反向搜索快速定位图片来源

基于Cloudflare构建的AI Web平台：通过集成Gemini Pro Vision与ChatGPT实现多模态能力融合

Salaryfly：互联网公司职级与薪酬福利对比工具（含访问指南与适用范围）

如何像顶级工程师一样思考？一套帮你打破认知瓶颈的计算机思维训练指南