一个5万条左右的数据(csv),数据表现形式如下:
trip_start_time | trip_end_time | trip duration |
---|---|---|
2022/6/16 16:45:01 | 2022/6/16 21:48:30 | 5:03:29 |
2021/8/28 0:23:15 | 2022/6/12 19:01:57 | 6930:38:42 |
数据是一个关于旅行时间的记录,有开始时间(trip_start_time),结束时间(trip_end_time)和实际旅程时长(trip duration),其中,实际旅程时长 = 结束时间 - 开始时间,现在只要实际旅程时长在10分钟到5小时的,其他全部视为异常值舍弃。
import pandas as pd
df = pd.read_csv('seat_data_utf_8.csv')
df = df.loc[(df['trip duration'] >= '00:10:00') & (df['trip duration'] <= '05:00:00')]
运行结果显示0 rows * 23 columns,没有符合的条件行,但实际上是有的
筛选出实际旅程在10分钟到5小时的代码
首先你要明确trip duration这一列是什么类型,然后根据类型去做比较