SELECT uid,days_window,ROUND(total* days_window/diff_time,2) avg_exam_cnt
FROM (
SELECT
uid,
COUNT(start_time) total, -- 用户2021年作答的次数
DATEDIFF(MAX(start_time),MIN(start_time))+1 diff_time, -- 头尾作答时间窗
DATEDIFF(MAX(start_time),MIN(start_time)) days_window -- 最大间隔天数
FROM exam_record
WHERE YEAR(start_time)=2021 -- 2021年的数据
group by uid
)t1
WHERE diff_time>1
ORDER BY days_window DESC,avg_exam_cnt DESC
;
我发现我的结果和正确答案总是差1天
WITH t2 AS (
SELECT
uid,
COUNT(start_time) total, -- 用户2021年作答的次数
DATEDIFF(MAX(start_time),MIN(start_time))+1 diff_time, -- 头尾作答时间窗
MAX(DATEDIFF(next_time,start_time))+1 days_window -- 最大间隔天数
FROM (
SELECT uid,start_time,
LEAD(start_time,1)OVER(PARTITION BY uid ORDER BY start_time) AS next_time -- 第二次作答时间
FROM exam_record
WHERE YEAR(start_time)=2021 -- 2021年的数据
) t1
GROUP BY uid
)
SELECT uid,days_window,ROUND(total* days_window/diff_time,2) avg_exam_cnt
FROM t2
WHERE diff_time>1
ORDER BY days_window DESC,avg_exam_cnt DESC
;
在计算“最大时间间隔”这一问题下,为什么我不能直接用
max(datediff(max(start_date),min(start_date))
得到呢?为什么求间隔都要用lead窗口函数?非常感谢!
正确答案有中有+1天,你的没有加
MAX(DATEDIFF(next_time,start_time))+1
max(datediff(max(start_date),min(start_date))
计算一年来两次的可以,2次以上的就不行了
这个肯定要用窗口函数来做比较好点,普通的方法写起来比较复杂
窗口函数使用 后n行LEAD(expr,n) 这个比较合适,按时间排序取本行和后n行的值
你 max(start_date)和min(start_date)时间干什么?抄袭代码都抄袭不正确吗?
正确代码里面的max都是放在外层的