这段时间朋友偶然提起爬虫,我就想试试,然后用了Jsoup进行爬取,过了入门,我就在想,怎么用Jsoup爬取一个网站最近一周发布的链接呢。我的问题总结就是:怎么用Jsoup根据时间和文章标题关键字进行筛选爬取。
如果要批量抓取页面的数据,个人建议用Webmagic,它对Jsoup进行了封装,入门快速,支持xpath语法,也支持Jsoup语法,功能强大,自带多线程爬取。
Java爬虫框架WebMagic入门——爬取列表类网站文章
Jsoup是用来解析网页代码的,具体下载哪些内容是程序决定的,Jsoup只是让你摆脱截取字符串定位想要的内容