import jieba
s='电饭锅数据库电饭锅快递费官非督护贵'
n=len(s)
m=len(jieba.lcut(s))
print('中文字符数为{},中文词语数为{}'.format(n,m))
实例1:
import jieba #
f = open('data.txt','r') # 导入文本数据
lines = f.readlines()
f.close()
f = open('out.txt','r+') # 使用r+模式读取和写入文件
for line in lines:
line= line.strip() # 删除每行首尾可能出现的空格
wordList = jieba.lcut(line) # 用结巴分词,对每行内容进行分词
f.writelines('\n'.join(wordList)) # 将分词结果存到文件out.txt中
f.seek(0)
txt = f.read()
print(txt)
f.close()
由参考资料可以得知,jieba库可以完成中文分词和中文词性的判别,用于获取不同类型的中文字符串。其中分词后得到的每一个词语可以用于中文词语统计。因此,中文字符和中文词语统计的区别在于处理的对象不同。要完成中文字符和中文词语的统计,可以对中文文本进行分词后统计得到。
以下是以jieba库完成中文字符串和词语统计的示例代码:
import jieba
text = "我爱Python,因为Python太强大了。"
# 中文字符串统计
char_num = len(text) # 统计字符数
print("中文字符数:", char_num)
# 中文词语统计
seg_list = jieba.cut(text) # 分词
word_dict = {} # 统计词语
for word in seg_list:
if word in word_dict:
word_dict[word] += 1
else:
word_dict[word] = 1
print("中文词语统计:", word_dict)
在以上代码中,首先利用jieba库进行分词,然后分别对分词后的结果进行了中文字符和中文词语的统计。
需要注意的是,中文词语统计结果需要进行去重操作,否则可能会出现重复统计的情况。
另外,在实际应用中,为了更好地进行中文词语统计,可能需要针对特定领域使用自定义词典进行分词。可以使用jieba库提供的load_userdict()方法或手动添加词典实现。具体方法可以参考上述参考资料中的相关内容。