您好,我有几千条重复数据,每一条有一个时间段,我想对每一个subjectid,构建一条完整的时间线
我的目的是求出每一个subject的总的duration,但是因为时间段很多,并且时间段与时间段存在重复,不能直接每条的duration相加;同时也存在,对于某个subject来说,时间段与时间段之间有空隙,所以也不能直接用最大时间减去最小时间。我目前的思路是,有没有可能先根据已知的时间段,对一个确定的subject构建一条完整的时间线(如果存在不连续,即时间段之间有空隙,则可以构建多条时间线),最后在尾减首,得到实际的真是duration
或者就是对每一个subject的每一条时间段,去找相互不连续的部分,然后用总的最晚时间减去总的最早时间,得到的时间再减去不连续的部分,也能达到同样的效果
没有举例说明,盲猜是不是这个意思?
https://blog.csdn.net/hhhhh_51/article/details/122924255