[color=#FF0000]最近有个需求需要用正则表达式过滤提取搜狐新闻重要新闻的连接,
小弟对正则表达式不是很清楚,所以请各位老大给个标准的表达式
谢谢了 [color]
[url]http://news.sohu.com/[/url]
正则不太方便,建议楼主看看这个java的html处理框架
JSOUP:http://jsoup.org/
中文API:这个很简单,看完这个就知道如何使用了
http://www.open-open.com/jsoup/
要闻连接的关键字是什么,用正则表达式也有依据
可以试试HtmlParser
如果要使用正则表达式的话,可以试试:
[code="java"]
String rex2 = "";
Pattern p1 = Pattern.compile(rex2, Pattern.CASE_INSENSITIVE);
Matcher m1 = p1.matcher(content);
String url_iframe = null;
while (m1.find()) {
System.out.println m1.group(1));
}[code]
2楼的思路可行。
我也推荐jsoup
jsoup采用了js访问dom结构的方式
很方便
虽然也是根据特定网站结构定制开发