-
安装组件
pip install scrapy_redis
-
创建一个工程
-
创建一个基于CrawlSpider的爬虫文件
-
修改当前爬虫文件
- 导包:
from scrapy_redis.spiders import RedisCrawlSpider
- 将start_urls和allowed_domains进行注释
- 添加一个新属性:redis_key = ‘列队名称’ (可以被共享的调度器队列的名称)
- 编写数据解析相关的操作
- 将当前爬虫类的父类修改为 RedisCrawlSpider
- 导包:
-
修改配置文件settings
-
指定使用可以被共享的管道
ITEM_PIPELINES = {'scrapy_redis.pipelines.ReadisPipeline': 400 台州网站优化建网站建设网站推广建站软件设计开发丹阳做网站动态网站设计安卓软件开发设计制作网站建设合同网站制作一条龙深圳网站空间广州网站建设公司瑞安网站建设公司东莞做网站郴州网站seo苍南网站建设汕头网页设计企业免费建站成都网站建设龙兵科技广州网站建设公司制作企业网站的宝安网站建设安庆seo湖北建站闵行网页设计网站建设公司加盟重庆网站建设公司邵阳网站建设徐家汇网站建设武汉做网站公司网站制作方法
-