现在的项目需要一个爬虫,爬取论文内容,只有中文论文,基本都是文字内容。另外后期会增加多个网站。前期要一次性爬取现有几千万篇,同时每天更新几万篇左右。整个爬虫采用何种框架,以及为什么采用这种框架,有何优缺点?需不需要分布式?
http://www.cnblogs.com/skying555/p/5021257.html