谢谢了!新人不知道要怎么爬,这是老师论文中的内容,论文中写用了11种正则来抓取
请求大家支援QAQ
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect(" http://www.ccopyright.com.cn/cpcc/index.jsp")
.get();
Elements es = doc.getElementsContainingOwnText("版权所有");
System.out.println(es.html().replaceAll("<([^>]*)>", ""));
}
1 把网页源码下载
2 查看源码找到你要爬取的网站的copyright的标签(有些可能是直接放到图片上的,那就爬不了了)
3 然后再写正则抓取
例子
既然都提到正则了,那就是你java获取页面的返回内容,然后用对应的正则语法去匹配对应的字符串
主要就是分析各种页面的copyright的正则语法