我有一个场景:
1、有10台设备,编号为station1,station2,到station10,这10个设备的任一台,每隔1小时都会发送一条测量数据(可以测ABCDEFG7种因子)。
2、编号字段为station_code,时间为recv_time
在上述场景中,数据表应该如何设计呢?
我设计的是用station_code+recv_time作为联合主键,来保证记录的唯一性。同时增加idx_code和idx_time两个索引。
我觉得,基于上述场景,如果再来一个id自增主键,岂不是没什么用吗?后期业务,我查询数据,无非也是基于编号查,或者基于时间查,单条记录的ID总感觉是多余的?
这种流水记录,不要使用时间作为主键,
打个比方,假设由于什么不可预知的原因,同一个设备1秒内连发两条,然后后面那条数据才是正确的,由于你设置了主键,数据就写不进去,然后假设这玩意做了失败异步重试,就会一直重试到设定的重试次数上限,最终数据还是丢了,而且还浪费了资源。
因此,宁愿数据多写进来几条,之后再去做数据清洗,也一定要保证数据的完整性,或者在程序逻辑里做好控制。
留着id,到时候在数据运维阶段就可以知道数据产生的先后顺序了,光靠时间其实无法判断先后顺序的,因为时间精度有限。最简单的例子,写个开窗函数发现有几行的时间都一样,无法排序,id就有用了
主键要有但不一定是id
要唯一
可以不用,主键索引查找速度快