词云分析时,出现的错误

大数据分析,使用python生成词云图时,发生一下错误:

import jieba
from wordcloud import WordCloud
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
with open('Dream_of_the_Red_Mansion.txt', 'r', encoding='utf-8') as f:
    text = f.read()
# 对文本进行分词
words = jieba.cut(text)
result = " ".join(words)
# 生成词云图
image_background = Image.open('Red.jpg')
MASK = np.array(image_background)
wordcloud = WordCloud(font_path='SimHei.ttf',background_color='white', width=4000, 
                      height=2000, margin=10, max_words=200, mask=MASK).generate(result)
plt.imshow(wordcloud)
plt.show()
wordcloud.to_file('final.png')
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-41-eaad86f251cc> in <module>
     16 MASK = np.array(image_background)
     17 
---> 18 wordcloud = WordCloud(font_path='SimHei.ttf',background_color='white', width=4000, 
     19                       height=2000, margin=10, max_words=200, mask=MASK).generate(result)
     20 

~/.local/lib/python3.8/site-packages/wordcloud/wordcloud.py in generate(self, text)
    637         self
    638         """
--> 639         return self.generate_from_text(text)
    640 
    641     def _check_generated(self):

~/.local/lib/python3.8/site-packages/wordcloud/wordcloud.py in generate_from_text(self, text)
    619         """
    620         words = self.process_text(text)
--> 621         self.generate_from_frequencies(words)
    622         return self
    623 

~/.local/lib/python3.8/site-packages/wordcloud/wordcloud.py in generate_from_frequencies(self, frequencies, max_font_size)
    451                 font_size = self.height
    452             else:
--> 453                 self.generate_from_frequencies(dict(frequencies[:2]),
    454                                                max_font_size=self.height)
    455                 # find font sizes

~/.local/lib/python3.8/site-packages/wordcloud/wordcloud.py in generate_from_frequencies(self, frequencies, max_font_size)
    506                     font, orientation=orientation)
    507                 # get size of resulting text
--> 508                 box_size = draw.textbbox((0, 0), word, font=transposed_font, anchor="lt")
    509                 # find possible places using integral image:
    510                 result = occupancy.sample_position(box_size[3] + self.margin,

AttributeError: 'ImageDraw' object has no attribute 'textbbox'

请问该如何解决?

该回答通过自己思路及引用到GPTᴼᴾᴱᴺᴬᴵ搜索,得到内容具体如下:
这个错误通常是由于Pillow版本不兼容导致的。

您可以尝试更新Pillow版本到最新版本来解决此问题。可以使用以下命令来更新Pillow:

pip install -U pillow

如果更新Pillow后仍然出现问题,您可以尝试使用旧版本的WordCloud库。可以使用以下命令来安装旧版本的WordCloud:

pip install wordcloud==1.8.1

如果仍然无法解决问题,您可以尝试使用不同的字体文件。可以在WordCloud初始化时使用其他中文字体文件,例如:

wordcloud = WordCloud(font_path='STKAITI.TTF', background_color='white', width=4000, height=2000, margin=10, max_words=200, mask=MASK).generate(result)

希望这些解决方案能够帮助您解决问题。


如果以上回答对您有所帮助,点击一下采纳该答案~谢谢

  • 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7629395
  • 你也可以参考下这篇文章:吴恩达机器学习作业二:利用逻辑回归模型预测一个学生是否被学校录取 ,二分类问题(python实现)
  • 除此之外, 这篇博客: 基于 python 的主成分分析步骤及应用实例中的 主成分分析:步骤、应用及代码实现。 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • 主成分分析(Principal Component Analysis)算法步骤:

    设有 m 条 n 维数据:

    1. 将原始数据按列组成 n 行 m 列矩阵 X
    2. 将 X 的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
    3. 求出协方差矩阵 C=1mXXTC=\frac{1}{m}XX^{T}C=m1XXT
    4. 求出协方差矩阵的特征值及对应的特征向量
    5. 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P
    6. Y=PX 即为降维到 k 维后的数据

    具体原理及步骤可以参考《机器学习实战》之十三——利用PCA来简化数据
    这篇介绍十分详尽,是唯一一份我每一步推导都能看懂的对于 PCA 原理的讲解)

    实际上,我们可以直接利用 sklearn 的 decomposition 模块进行主成分分析,只需要调整参数即可实现,例如:

    sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False)
    

    但是,sklearn 中 PCA 算法,并不是对协方差矩阵进行特征分解,因为当样本数和样本特征数都较多的时候,计算协方差矩阵的计算量会很大。所以,sklearn 中的 PCA 采用的是 SVD(奇异值分解),在不求解协方差矩阵的情况下,得到右奇异矩阵 V。也就是说 PCA 算法可以不用做特征分解,而是做 SVD 来完成,这个方法在样本量很大的时候很有效。

    应用实例:PCA example with Iris Data-set

    关于数据集:
    The iris dataset is a classic and very easy multi-class classification dataset.
    The dataset contains a set of 150 records under five attributes - petal length, petal width, sepal length, sepal width and species.

    以下是部分数据截图:
    部分数据截图
    Language: python
    IDE:jupyter notebook

    具体代码如下:

    print(__doc__)
    
    import numpy as np
    import matplotlib.pyplot as plt
    from mpl_toolkits.mplot3d import Axes3D
    
    
    from sklearn import decomposition
    from sklearn import datasets
    
    np.random.seed(5)
    
    centers = [[1, 1], [-1, -1], [1, -1]]
    iris = datasets.load_iris()
    X = iris.data
    y = iris.target
    
    fig = plt.figure(1, figsize=(4, 3))
    plt.clf()
    ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)
    
    plt.cla()
    pca = decomposition.PCA(n_components=3)
    pca.fit(X)
    X = pca.transform(X)
    
    for name, label in [('Setosa', 0), ('Versicolour', 1), ('Virginica', 2)]:
        ax.text3D(X[y == label, 0].mean(),
                  X[y == label, 1].mean() + 1.5,
                  X[y == label, 2].mean(), name,
                  horizontalalignment='center',
                  bbox=dict(alpha=.5, edgecolor='w', facecolor='w'))
    # Reorder the labels to have colors matching the cluster results
    y = np.choose(y, [1, 2, 0]).astype(np.float)
    ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=y, cmap=plt.cm.nipy_spectral,
               edgecolor='k')
    
    ax.w_xaxis.set_ticklabels([])
    ax.w_yaxis.set_ticklabels([])
    ax.w_zaxis.set_ticklabels([])
    
    plt.show()
    

    运行结果如图:
    运行结果
    最后,PCA 主要用于数据压缩或者数据降维减少内存或者硬盘的使用,能够加快机器学习的速度,也可以降维到2D或者3D从而实现数据可视化。
    它的应用场景十分广泛,包括但不限于人脸识别、二级市场选股等等。这里只是利用最经典的应用实例进行分析,关于 PCA 的使用还有待进一步探索。

  • 您还可以看一下 王进老师的跟着王进老师学开发Python篇:基础入门案例讲解课程中的 案例03:生成牌、发牌和输出牌小节, 巩固相关知识点