刚接触R语言不知道用哪一块的知识😭感觉是导入csv文件后将第一行的自变量归入四大方面,再考察四大方面对于作者被关注数的关系,以下是题目,希望能得到指点🙏🏻
案例背景:知乎是中文互联网最大的知识平台,也是目前国内最有名的知识问答社区。截至
2018 年 5 月,知乎网站已拥有 1.6 亿注册用户。在知乎社区里,那些拥有众多关注者,有
很大影响力的知乎用户,被称之为知乎大 V。在信息爆炸、知识碎片化的时代,知乎大 V 们
是知识领域金字塔顶端的人,是依靠专业技能吸引大批粉丝的特殊“网红”。且大 V 往往是优
质回答最主要的创造者,一方面,他们输出的优秀回答是网站流量的保证,流量越多,广告
收入就会越可观。另一方面,大 V 们在与平台合作提供付费知识时,知乎平台也会有相应的
利润分成。可见,生成知乎大 V 画像,除了对于用户具有启示作用,对于知乎平台而言,同
样意义非凡。
数据:我们从知乎网站上随机获取了截至 2017 年 8 月 8 日的 1918 条用户信息,以用户的
被关注数作为因变量,以回答数、提问数、性别等 13 个变量作为自变量。具体数据见
“zhihu.csv”。
任务:请自行构建指标,从活跃程度、回答质量、潜在因素和能力指标四大方面来分析,什
么样的人更可能成为知乎大 V,或者,成为知乎大 V 的人,都有哪些特征?请把你的所有回
答形成一篇完整的报告,包括相应的代码。
“zhihu.csv”的文件是这样的:
第一行包括姓名,性别,问答数,提问数,点赞数,感谢数等十三个指标,下面是一千多位博主的这十三条信息