如何用python爬取网页文字进行词频统计

爬取网页时除了文字还有不需要的内容，而且无法用utf-8解码，怎样可以过滤其他内容爬取网页的文本进行分词

re正则和jieba分词