python pd.values_counts()

输入：

word_counts = pd.Series(' '.join(reviews['clean_text']).split()).value_counts()
word_counts.head(10)

reviews['clean_text']就是一列str格式的英文单词

结果：
br 264688
like 251866
good 195348
one 173390
taste 166633
great 163560
would 161917
coffee 160864
product 146853
it 146487
dtype: int64

但是br应该是单词的一部分，比如brother，怎么处理能让他不出现在这里面啊

你是想只保留数字吗？还是什么意思？

该回答通过自己思路及引用到GPTᴼᴾᴱᴺᴬᴵ搜索,得到内容具体如下：

如果 "br" 应该是单词的一部分，比如 "brother"，那么可以使用正则表达式来匹配单词，并进行单词计数。可以使用 re 模块来进行正则表达式的匹配，同时需要将输入的文本转换为小写字母。

示例代码如下：

import pandas as pd
import re

# 将文本转换为小写字母
clean_text = reviews['clean_text'].str.lower()

# 使用正则表达式匹配单词
word_counts = pd.Series(re.findall(r'\b\w+\b', ' '.join(clean_text))).value_counts()

# 输出前10个单词
print(word_counts.head(10))

在上面的代码中，r'\b\w+\b' 是一个正则表达式，表示匹配单词，其中 \b 表示单词的边界，\w+ 表示匹配一个或多个字母、数字或下划线。将匹配到的单词转换为 pd.Series 对象，并使用 value_counts() 方法进行计数，最后输出前10个单词及其出现次数。

如果以上回答对您有所帮助，点击一下采纳该答案～谢谢