关于网络爬虫的一些问题(java)

爬虫的功能需求
1.需要爬取海量数据
2.爬取过程可能需要很久,几个月甚至一年
3.将爬取的数据保存起来作为语料库使用
4.需要提取网页中特定的信息,比如百度百科中的关于股票的所有词条信息或者其他网站的股票信息

问题:
选取什么样的爬虫比较合适,存放地点是选择mysql数据库好还是其他

1.可以考虑使用python来实现爬虫;
2.存储如果不考虑效率的话,可以使用数据库。

1.可以考虑使用python来实现爬虫;
2.存储如果不考虑效率的话,可以使用数据库。

推荐使用云爬虫,百度一下