Scrapy: python spider

用python写网络爬虫,当然不会从头写,需要用现成的:

install

用pip安装scrapy时候会自动安装一些依赖的库,其中lxml会报错,需要安装xcode command line工具

$ xcode-select --install

然后建立一个虚拟环境,以免把系统python环境搞乱

$ virtualenv scrapy
$ cd scrapy
$ . bin/activate
$ (scrapy) $

注意提示符出现了(scrapy),表示已经在虚拟环境中了

$ (scrapy) $ pip install scrapy

自动下载安装scrapy以及需要的twisted,zope等一堆库。

simple test

参考这里的一篇文章,可以做一个简单的爬虫,去爬豆瓣里面某剧的剧照。

注意最新版本的scrapy shell里预定义选择器的名字从hxs变成了sel,所以例子需要改一下

旧:

hxs.select('//ul/li/div/a/@href').extract()

新:

sel.select('//ul/li/div/a/@href').extract()