爬虫去掉多余的空格和标点符号,只想要文本信息怎么处理?

一楼带院子的  面积大 毛坯房 融合家园 下跃式的 看房方便
['4', '室', '2', '厅', '2', '卫']
['\n                            208㎡\n                        ', '南北', '\n                            低层(共11层)\n                        ', '\n                            2019年建造\n                        ']
['\n                            208㎡\n                        ']
['南北']

title = div.xpath('.//div[@class="property-content-title"]/h3/text()')[0]
print(title)

housetype = div.xpath('.//div[@class="property-content-info"]/p/span/text()')
print(housetype)

area = div.xpath('.//p[@class="property-content-info-text"]/text()')
print(area)


['\n                            低层(共11层)\n                        ']
['融合家园']
['95']
['4568元/㎡']
 

 

想去掉[]、''、多余的空格。就像第一排的只带文本信息

 代码如下:{如果对你有帮助,可以给我个采纳吗,谢谢!! 点击我这个回答右上方的【采纳】按钮}。

li1 =  ['4', '室', '2', '厅', '2', '卫']
li2 = ['\n                            208㎡\n                        ', '南北', '\n                            低层(共11层)\n                        ', '\n                            2019年建造\n                        ']
s1 = "".join(map(lambda x: x.strip(),li1))
print(s1)
s2 = " ".join(map(lambda x: x.strip(),li2))
print(s2)

用字符串的strip()就可以解决了,参考:https://www.runoob.com/python/att-string-strip.html?_t_t_t=0.08079562526721096

 

如果对你有帮助,可以点击我这个回答右上方的【采纳】按钮,给我个采纳吗,谢谢

问题主要是在获取的housetype数据上有换行。这样处理一下即可 htype=[x.strip() for x in housetype]

 

要csv分列,数据就应该还是列表

li2 = ['\n                            208㎡\n                        ', '南北', '\n                            低层(共11层)\n                        ', '\n                            2019年建造\n                        ']
s2 = list(map(lambda x: x.strip(),li2))
print(*s2)

您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632