有一个类似这样的pandas表:
df0 = pd.DataFrame([['x=6.2', 'y=6.3', 'z=6.7'], ['x=7.2', 'x=8.3','x=9.5']])
希望获得其中的所有数字,并存到numpy中。目前所使用的方法如下:
df0_np = np.zeros([df0.shape[0], 3])
for i in range(df0_np.shape[0]):
df0_np[i, :] = df0.iloc[i, :].str.extract(r'(\d+.\d+)').transpose()
print(df0_np)
得到结果如下:
[[6.2 6.3 6.7]
[7.2 8.3 9.5]]
由于str.extract()方法只能应用于series,不知道有什么更快捷的方法能够一次性应用于所有的dataframe,因此采用循环的方法解决。希望能够直接应用于dataframe对象获得最终的numpy数组,感谢。
可以使用pandas的apply函数来实现对整个DataFrame的操作。
import re
import numpy as np
import pandas as pd
def extract_numbers(s):
"""提取字符串中的数字"""
return list(map(float, re.findall(r'\d+.\d+', str(s))))
df0 = pd.DataFrame([['x=6.2', 'y=6.3', 'z=6.7'], ['x=7.2', 'x=8.3','x=9.5']])
df1 = df0.apply(extract_numbers, axis=1)
df1_np = np.array(df1.to_list())
print(df1_np)
输出
[[6.2 6.3 6.7]
[7.2 8.3 9.5]]