利用python,对《阿凡达1》的豆瓣影评数据进行分析和挖掘,做出不少于5个图表分析及结论。
(1) 绘制统计图分析评论数量及评分与时间的关系以及评论者的城市分布情况。
(2) 通过词云图分析好评与差评的关键信息。
(3) 构建文本分类模型识别每条评论的情感倾向,并对模型效果进行评估。
举例如下:注每个图表分析后书写分析结论说明,notebook单元格类型为 标记
数据文件字段说明如下:
name:用户名
city:居住城市
usertime:用户加入时间
scores:评分(50为力荐,40为推荐,30为还行,20为较差,10为很差)
times:发表时间
content:短评正文
votes:赞同数量
stoplist.txt:停顿词文件,可用于分词。
SimHei.ttf:字体文件,黑体,可用于词云。
数据在哪里?
哥们,这个咱写不出来就算了,挂不了的 :)