提取页面数据,xpath没有提取出空值

img

img


通过xpath去提取页面信息,在页面‘价格待定‘位置是没有‘元/平方米’(即没有),但是提取不出空值,导致价格跟单位匹配错位。这个怎么解决,求帮助

问题点: 价格和单位会因为价格出现‘价格待定’而错位.
分析:从已知规律,可以尝试在数据清洗过程补全这个问题.
处理方式:
数据修复方法
①判断价格中'价格待定'出现的索引信息;
②从①获取的索引信息,对应的在单元列表中,按顺序插入空字符串.

例如: ‘价格待定’的索引为 13,那么在单位列表insert空字符串就对齐了.

你先找到最大的节点(包含着三个信息的),然后挨个遍历这个节点的数据,在遍历的过程中就把三个相关信息直接拼好,这样就不会出问题了。
否则,很容易就拼不对错位了。