爬虫的功能需求1.需要爬取海量数据2.爬取过程可能需要很久,几个月甚至一年3.将爬取的数据保存起来作为语料库使用4.需要提取网页中特定的信息,比如百度百科中的关于股票的所有词条信息或者其他网站的股票信息
问题:选取什么样的爬虫比较合适,存放地点是选择mysql数据库好还是其他
1.可以考虑使用python来实现爬虫;2.存储如果不考虑效率的话,可以使用数据库。
推荐使用云爬虫,百度一下