用nltk导入语料库,找出text1的语篇中长度大于5的高频词汇和文中常用的双联词固定搭配。并打印出来
是中文还是英文,中文的话,便利一遍存入以词汇为key的字典,统计每个字符的频率再排序固定搭配可以使用后缀数组