对不规范的HTML如何使用XPath查询

刚接触ruby,目前需要用ruby做bot,遇到个棘手的问题

我发现REXML不能直接处理不规范的HTML (或者说非XHTML),
我做java的时候都是用htmlcleaner解决这个问题的,但是ruby就没啥概念了。

关于HTML的parser, 现在google下来也有好几个工具了

rubyful_soap
ymHtml
hTree

不过还是想问问各位都在用哪个开发包呢?

hpricot

[url]http://code.whytheluckystiff.net/hpricot/[/url]