1.剔除掉年发帖量小于10的用户
2.爬取并统计出在某财富论坛中任意在两个不同的股吧里面发过帖的网友数量,例如:2020年在腾讯和百度两个股吧里面都发过帖子的网友数量,最后导出来的应该是一个excel表。以企业为单位,统计出在两个不同企业发过帖子的网友数量,最后的excel表应该是百度腾讯发帖网友数量多少个、百度阿里、腾讯阿里、中国移动腾讯、中国移动阿里、等等
数据量大,不知道有什么方法可以较为简便的爬出数据。
(自己只能想到把每个上市公司的股吧数据都爬一次,然后再两两进行处理,这种方法3000多家企业工作量过大,想求一个大神教教有没有简单的办法。eg:从论文中得知已经有人做到了,但不知道是用何种方法。)
您可以尝试
1列出所有股吧网址
2爬取所有股吧用户以及年发帖总数,存入数据库
3本地查询在两个股吧发个帖子,且年发帖量大于10的用户
设计的好处,每个股吧只循环爬取一次
数据拿到电脑进行统计比网络递归爬取要快