如何用Java爬取网页的copyright?

谢谢了!新人不知道要怎么爬,这是老师论文中的内容,论文中写用了11种正则来抓取
请求大家支援QAQ

jsoup


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;


public static void main(String[] args) throws IOException {


        Document doc = Jsoup.connect("  http://www.ccopyright.com.cn/cpcc/index.jsp")
                .get();
        Elements es = doc.getElementsContainingOwnText("版权所有");
        System.out.println(es.html().replaceAll("<([^>]*)>", ""));
    }

1 把网页源码下载
2 查看源码找到你要爬取的网站的copyright的标签(有些可能是直接放到图片上的,那就爬不了了)
3 然后再写正则抓取
例子

建议用

既然都提到正则了,那就是你java获取页面的返回内容,然后用对应的正则语法去匹配对应的字符串
主要就是分析各种页面的copyright的正则语法