Scrapy: python spider

用python写网络爬虫,当然不会从头写,需要用现成的:

install

用pip安装scrapy时候会自动安装一些依赖的库,其中lxml会报错,需要安装xcode command line工具

$ xcode-select --install

然后建立一个虚拟环境,以免把系统python环境搞乱

$ virtualenv scrapy
$ cd scrapy
$ . bin/activate
$ (scrapy) $

注意提示符出现了(scrapy),表示已经在虚拟环境中了

$ (scrapy) $ pip install scrapy

自动下载安装scrapy以及需要的twisted,zope等一堆库。

simple test

参考这里的一篇文章,可以做一个简单的爬虫,去爬豆瓣里面某剧的剧照。

注意最新版本的scrapy shell里预定义选择器的名字从hxs变成了sel,所以例子需要改一下

旧:

hxs.select('//ul/li/div/a/@href').extract()

新:

sel ...
more ...

Tiger

April 29, apple will release there new OS X 10.4 aka Tiger. just after 40 days my buying mini which means I WILL NOT GET FREE TIGER.

anyway, i will install tiger after upgrade my mini to 1G ram.

more ...

Tora, Tora, Tora

Tora means Tiger in japanese :)

OS X 10.4 code name Tiger will be released soon. Acording to "/.":http://apple.slashdot.org/article.pl?sid=05/04/01/024257&from=rss :

bq. Posted by CowboyNeal on Friday April 01, @11:11AM from the on-the-prowl dept. bonch writes "Following up yesterday ...

more ...

新添书架装饰品若干

终于买到了战争风云,还有rg推荐的《人生舞台-阿西莫夫自传》

另外还有一本威尔士写的《你应该知道的世界史》,对,这个威尔士就是《时间机器》《隐身人》的作者,希望他的历史书籍容易看一点吧。以前买过一本世界史,总有点枯燥无味,读不下去的感觉。

还有一本平面设计基本教程,大学的时候上过平面设计的课,有时间复习一下吧。

今天还看到一套霍金编的《站在巨人的肩膀上》,若干经典物理学著作的简明读本,改天在拿下吧,首先要清理一下书架,把那些不好看的装饰品处理掉一些。

本来今天出门,准备买电脑的,结果Mac mini没有现货,HP的台式机也没有现货,郁闷。于是走到招商银行,申请信用卡,没想到也办不成,需要单位证明。

最郁闷的是Jerry打电话告诉我,我一个月前买的显示器跌了800。。。。

more ...