scrapy

scrapy问题的收集归类整理，scrapy是一个python中一个非常经典也是功能非常强大的一个数据采集软件。

scrapy学习之路(一)基础准备工作

scrapy的基础准备工作有点多，需要配置scrapy的环境，同时要学习python，努力吧。

scrapy的流程图初步过一下就可以了，先用scrapy尝试一下一个小站的抓取，然后再回过头来看一下这个流程图，会感觉非常适用！重点是scrapy的各个文件作用和目录。

scrapy如何查看Request Headers的方式挺多的，也比较简单；可以直接在浏览器中查看。

在进行scrapy抓取内容时，需要调整user_agent的内容，可以用以下的user_agent.

scrapy如何使用middlewares呢，需要了解middlewares命名规则和操作规则。然后在前面说的配置文件中启用middlewares。

一般可以先用scrapy shell url 抓取到网站内容；然后用response.xpath().extract()，来测试抓到的内容。

scrapy中parse多次给callback传参数。如上，可以灵活运用return request多次进行传递参数与循环抓取内容。

在scrapy爬到东东的时候，经常会需要提到某个html标签下面的所有内容，而不包括HTML的标签，这个时候可以用如下的方法

有时候只需要直接取第X个\"p\"标签，或者是第x个\"dl\"标签等等....

scrapy增加代理IP功能的示例及说明，HttpProxyMiddleware发现结果并不如意，还是被墙；

scrapy增加代理随机代理IP池HttpProxyMiddleware功能。

scrapy自带scrapy.downloadermiddlewares.retry.RetryMiddleware中间件，如果想通过重试次数，可以进行如下操作：