python pd.values_counts()

输入:

word_counts = pd.Series(' '.join(reviews['clean_text']).split()).value_counts()
word_counts.head(10)

reviews['clean_text']就是一列str格式的英文单词

结果:
br 264688
like 251866
good 195348
one 173390
taste 166633
great 163560
would 161917
coffee 160864
product 146853
it 146487
dtype: int64

但是br应该是单词的一部分,比如brother,怎么处理能让他不出现在这里面啊

你是想只保留数字吗?还是什么意思?

该回答通过自己思路及引用到GPTᴼᴾᴱᴺᴬᴵ搜索,得到内容具体如下:

如果 "br" 应该是单词的一部分,比如 "brother",那么可以使用正则表达式来匹配单词,并进行单词计数。可以使用 re 模块来进行正则表达式的匹配,同时需要将输入的文本转换为小写字母。

示例代码如下:

import pandas as pd
import re

# 将文本转换为小写字母
clean_text = reviews['clean_text'].str.lower()

# 使用正则表达式匹配单词
word_counts = pd.Series(re.findall(r'\b\w+\b', ' '.join(clean_text))).value_counts()

# 输出前10个单词
print(word_counts.head(10))

在上面的代码中,r'\b\w+\b' 是一个正则表达式,表示匹配单词,其中 \b 表示单词的边界,\w+ 表示匹配一个或多个字母、数字或下划线。将匹配到的单词转换为 pd.Series 对象,并使用 value_counts() 方法进行计数,最后输出前10个单词及其出现次数。


如果以上回答对您有所帮助,点击一下采纳该答案~谢谢