我有一个dataframe,其中一列类似
number |
---|
CN110 A; CN210 B; AU120 B |
... |
CN110 A; CN210 B |
CN210 B |
我希望提取这列每个“; ”分开的区间中的前两个字符,也就是表格中的CN, AU
我现在的代码是
target_list = cite_target["number"].str.split('; ')
target = target_list.apply(lambda x: x[:2])
但是apply那步只能提取每一行第一个区间的前两个字符,也就是CN。我也尝试将分开后的所有区间组成一个list,但是会报错“list no attribute to apply”,map也是同样
暴力拆解:
import pandas as pd
def sol(df_obj, tgt_column='number', tgt_pos_scope=[0,1]):
lst = list(df_obj[tgt_column])
results = []
for i in lst:
try:
tmp = i.split(';')
for x in tmp:
results.append(x.strip()[tgt_pos_scope[0]:tgt_pos_scope[1]+1])
except:
pass
return results
if __name__ == '__main__':
ser = pd.Series(range(3))
df_obj = pd.DataFrame([ser,ser,ser,ser,ser])
df_obj['number'] = pd.Series(['CN110 A; CN210 B; AU120 B',
'CN110 A; CN210 B',
'CN210 B'])
results = sol(df_obj)
print(results)
望采纳!!新年快乐!!
python中list不能用apply,你可以用map转换。
apply是需要dataFrame数据才可以用的。
import re
it=re.split(';+','CA110A;CN210B;HAHA092b')
result = list(map(lambda x: x[:2],it))
print(result)