因为数据灌水,所以想降低多次发言用户的数据权重。具体要求:希望可以将发言次数小于100,大于等于10的用户的数据,随机删除一半(希望是每个用户的数据随机去一半,不是整个数据集删除一半)
求各位指点!
用pandas处理数据,具体参考
https://blog.csdn.net/qq_40195360/article/details/84570503
解决问题的思路是:使用pandas对数据集切片取数,然后用random随机选取一半数据。参考代码片断:
r=df.loc[(df['PM2.5']>20) &(df['NO2']>30),]
print(r,len(r))
c=np.random.choice(r['日期'],len(r)//2)
print(len(c))
res=r.set_index('日期',drop=True).loc[c,:]
print(res,len(res))
直接数据库操作; ;with t as (select top 50 percent * from table where 条件 order by newid() ) delete a from table a join t on a.主键=t.主键