用户名重复100次以上的数据全部删除,重复10-100次的用户数据随机删除一半,怎么操作?

因为数据灌水,所以想降低多次发言用户的数据权重。具体要求:希望可以将发言次数大于100的用户(author)数据全部删除,小于100,大于等于10的用户的数据,随机删除一半(希望是每个用户的数据随机去一半,不是整个数据集删除一半),最后导出excel文件。
数据大概是这个样子的:

img

img

等一个解决方法,感谢!

最方便是写句sql语句即可,思路如下:
1.groub by author having count (1) <100,只select发言次数小于100的用户信息,大于的author被过滤(删除)了
2.对每个用户发言条数进行排序rank
3.对每个用户的排序rank条数进行random随机选择一半数据,即可以得到每个用户的一半数据