cleanup brew for python

mac升级到Maverick之后,python环境有点混乱,pip和virtualenv都出错,重新安装python,居然还是2.7.3,而不是最新的2.7.6,需要清理一下。

首先删除/usr/local/bin/下面的两个virtualenv执行文件,然后做一次brew更新:

$ sudo chown -R john /usr/local
$ cd /usr/local
$ brew update

这个更新似乎是从github更新了一堆东西。

然后删除原来的virtualenv

$ rm /usr/local/bin/virtuanenv*

重新安装python和virtualenv

$ brew install python
$ pip install virtualenv

这次安装的果然是最新的2.7.6了。然后在重新安装virtualenv

测试一下virtualenv可以使用了。Bingo,新python环境准备好了。

more ...

Scrapy: python spider

用python写网络爬虫,当然不会从头写,需要用现成的:

install

用pip安装scrapy时候会自动安装一些依赖的库,其中lxml会报错,需要安装xcode command line工具

$ xcode-select --install

然后建立一个虚拟环境,以免把系统python环境搞乱

$ virtualenv scrapy
$ cd scrapy
$ . bin/activate
$ (scrapy) $

注意提示符出现了(scrapy),表示已经在虚拟环境中了

$ (scrapy) $ pip install scrapy

自动下载安装scrapy以及需要的twisted,zope等一堆库。

simple test

参考这里的一篇文章,可以做一个简单的爬虫,去爬豆瓣里面某剧的剧照。

注意最新版本的scrapy shell里预定义选择器的名字从hxs变成了sel,所以例子需要改一下

旧:

hxs.select('//ul/li/div/a/@href').extract()

新:

sel ...
more ...

Pages

  • About