Spark 数据分析求助大神

现在我有一组数据，第一列是入站口到出站口（OD），第二列是刷卡的卡号，第三列是出行总时间。
现在我想研究在相同的OD下，出行时长的分布，并从中筛选出出行时长异常的卡号，默认出行时长超过该OD最短出行时长2倍为异常。
图片说明

spark sql 分两步处理：
第一步:将文件映射成表1 求出每个OD的最短出行时长，结果注册为表2
第二步：表1和表2 join 筛选异常

Spark 数据分析 求助大神