htmlparser抓取url的时候,含有中文字符抛出异常

我明确的看了网站的编码是gb2312,并且有设置
parser.setEncoding("gb2312");
但是最后抛出这个异常
Exception in thread "main" java.lang.IllegalArgumentException
原因是我的url里面含有中文,不知道该怎么结局诶

这个可能是htmlparser的弊端吧!还有好几种比较不错的解析html,比如Jsoup工具也不错

编码之后,,在抓取啊

可以试下把URL地址改为gb2312,看是否是setEncoding是否设置成功,如果不行的话,考虑换个工具