1.一元汉字二元汉字三元汉字
2.呈现要分析一下(汉字的多少,常见的有哪些,罕见的有哪些呈现方式等等)
3.所有文本内容都要统计(除空格回车无意义字符)
一元汉字二元汉字三元汉字,实际上就是NLP中的 N-Gram,推荐使用 NLTK 库中的 ngrams 来进行统计