请教爬虫大虾，采用何种python爬虫架构？

现在的项目需要一个爬虫，爬取论文内容，只有中文论文，基本都是文字内容。另外后期会增加多个网站。前期要一次性爬取现有几千万篇，同时每天更新几万篇左右。整个爬虫采用何种框架，以及为什么采用这种框架，有何优缺点？需不需要分布式？