scrapy

scrapy问题的收集归类整理，scrapy是一个python中一个非常经典也是功能非常强大的一个数据采集软件。

scrapy-splash抓ajax页面

scrapy使用response.body时编码问题。如果在使用responses.body获取数据时，需要将其编码转换成unicode,即如下处理：

很多时候，我们并不需要时时的将scrapy的抓取信息显示出来，其实可以将cmd命令行里的爬取的提示信息保存到日志文件，以备查阅即可。

scrapy编码问题一般存在于python2.7版本，因为其默认使用ascii编码，python3及以上就比较少发生编码问题了。

scrapy之xpath常用使用方法，包括了xpath之常用的六种选择内容的方法和示例及说明。

scrapy学习之路(七)随机的user_agent，操作方法

user_agent（随机）与iptool（IP随机功能）的不同点记录。user_agent与iptool的不同点记录，在scrapy的middlewares.py中

scrapy正常情况下，会对访问正常的网页进行采集处理。但是对于400以上的http错误的页面忽视，也就是不采取任何动作。这个时候，就有可能忽略掉一些有用的页面。应该记录下来。scrapy 获取http错误代码并将网圵写入日志的2种方法

scrapy在函数之间传值问题，场景介绍：有时候，在 parse()里面取得的参数，需要传递到parse_u()里面去，如何传递值呢？

scrapy crawl somespider -s JOBDIR=crawls/somespider-1