课程概览
本课程为慕课网实战课 《Scrapy 打造搜索引擎》 的原版提取资源。这是一套在市场上畅销三年的经典 Python 分布式爬虫教程,旨在引导学习者从零开始,通过实战项目构建一套完整的搜索引擎系统。
核心学习路径
课程采取由浅入深的教学逻辑,涵盖了从环境搭建到搜索引擎落地的全过程:
- 基础夯实: 梳理爬虫基本原理,完成开发环境搭建与数据库设计。
- 实战演练: 通过爬取三个知名网站的真实数据,深入剖析 Scrapy 的核心原理、模块使用及组件开发。
- 进阶突破: 重点讲解反爬虫策略、Scrapy 进阶开发及分布式架构。
- 综合集成: 整合 Scrapy + Redis + Elasticsearch + Django,最终实现一个完整的搜索引擎网站。
课程大纲
- 环境与基础: 课程介绍、Windows 开发环境搭建、爬虫基础知识回顾。
- Scrapy 实战: 技术文章网站爬取、知名问答网站爬取、招聘网站整站爬取(CrawISpider)。
- 高级技术: 突破反爬限制、Scrapy 进阶开发、scrapy-redis 分布式实现。
- 专项攻坚: Cookie 池设计与实现、验证码识别、增量抓取技术。
- 系统构建: Elasticsearch 搜索引擎应用、Django 搜索网站搭建、Scrapyd 部署。
- 总结回顾: 课程全篇总结。
资源下载
提供两种主流网盘下载渠道,请根据需求选择:
正文完
