如何使用C#提取新浪博客的某篇文章

如题,现在我能做到的就是提取目标网页的源码,但是如何将标签剔除,直接获取到博文正文这个问题一直无法解决,网上说可以用正则表达式,但是我尝试了一下发现还是不行。

例如这片博文:http://blog.sina.com.cn/s/blog_50afcbdf0102z6w7.html?tj=1

提取出目标中的博文标题以及正文,其他的内容筛除。

各位大佬能否提供一个参考的代码解决上述问题,非常感谢!

试试用HtmlAgilityPack这个包然后XPath解析路径呢?

            string titleStr="", contentStr="";
            var web1 = new HtmlWeb();
            HtmlAgilityPack.HtmlDocument doc = web1.LoadFromBrowser(@"http://blog.sina.com.cn/s/blog_50afcbdf0102z6w7.html?tj=1");
            //标题
            HtmlNode nodeHead = doc.DocumentNode.SelectSingleNode(@"//h2[@class='titName SG_txta']");
            if (nodeHead!=null)
                titleStr = nodeHead.InnerText;
            //内容
            HtmlNode nodeContent = doc.DocumentNode.SelectSingleNode(@"//div[@id='sina_keyword_ad_area2']");
            if (nodeContent != null)
                contentStr = nodeContent.InnerText;