Scrapy爬虫笔记内容介绍

Scrapy爬虫笔记内容介绍

本博客地址【http://blog.csdn.net/xiantian7】

一、Scrapy 概览

Scrapy 是一款抓取网页并从中提取结构化数据的应用程序框架,它具有非常广泛的应用场景,如:数据挖掘、信息处理和历史信息归档等。

尽管 Scrapy 最初被设计用于屏幕抓取(准确地说是网页抓取),但您也可以仅使用它的 API 来提取数据(就像 Amazon Associates Web Services)或作为通用的网页爬虫来使用。

下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。

Scrapy爬虫笔记内容介绍

二、组件

1、Scrapy Engine(Scrapy引擎)

Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

2、Scheduler(调度)

调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。

3、Downloader(下载器)

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

4、Spiders(蜘蛛)

蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则

蜘蛛的整个抓取流程(周期)是这样的:

  • 首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。
  • 在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。
  • 在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项。
  • 最后,从蜘蛛返回的项目通常会进驻到项目管道。

    5、Item Pipeline(项目管道)

    项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

    项目管道通常执行的过程有:

  • 清洗HTML数据
  • 验证解析到的数据(检查项目是否包含必要的字段)
  • 检查是否是重复数据(如果重复就删除)
  • 将解析到的数据存储到数据库中

    6、Downloader middlewares(下载器中间件)

    下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。

    7、Spider middlewares(蜘蛛中间件)

    蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

    8、Scheduler middlewares(调度中间件)

    调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

    三、数据处理流程

  • Scrapy爬虫笔记内容介绍

     

    1. Engine打开一个domain,定位到控制domain的spider,向spider请求第一个url,把这个url作为抓取的对象

    2. Engine从spider得到用来抓取的第一个url,并作为request放到scheduler中,【等于把这个request放到一个任务队列里面,以后每次循环都从第二步开始】——向spider要url

    3. Engine向scheduler请求下一个用来抓取的url【准备使用向spider要来的url】——准备使用url

    4. scheduler返回下一个抓取的url给engine,engine将其发送到downloader,通过downloader middleware(请求方向)【downloader传送这个正在使用的url】——使用url

    5. 一旦网页完成下载downloader使用下载的页面生成一个response并将其发送到engine,通过downloader middleware(响应方向)【downloader完成对url下载后,返回处理结果】——返回使用结果

    6. engine接收从downloader发来的response并将其发送到spider进行处理,通过spider middleware(输入方向)把返回结果发送给spider处理】——处理返回结果

    7. spider处理response并返回scraped items和新的request给engine【处理返回结果后得到新的request——得到新的请求

    8. engine发送由spider返回的scraped item给item pipeline,发送spider返回的request给scheduler【下载的数据放入item pipeline,新的请求放入任务队列——准备进入下一循环

    9. 重复第二步直到scheduler没有多余的request,此时engine关闭domain

    四、驱动器

    Scrapy是由 Twisted 写的一个受欢迎的Python事件驱动网络框架,它使用的是非堵塞的异步处理。


 

 

文章参考

1 、http://uimeet.com/docs/scrapy/cn/0.15.1/intro/overview.html

2、http://www.tuicool.com/articles/2uaIve

3、http://hackecho.com/2012/02/glimpse-of-the-architechture-of-scrapy/