如何用Python读取中文文档并且统计字汉字频

1.一元汉字二元汉字三元汉字

2.呈现要分析一下(汉字的多少,常见的有哪些,罕见的有哪些呈现方式等等)

3.所有文本内容都要统计(除空格回车无意义字符)

一元汉字二元汉字三元汉字,实际上就是NLP中的 N-Gram,推荐使用 NLTK 库中的 ngrams 来进行统计