爬虫入门,今天打算爬取一个网站的小说来着。用xpath提取后的列表里面都是有不间断空白符‘\x0’什么的,然后我打算将用‘ ’.join()来去除空白符的,但是没有反应。
def get_comment(url):
content_list=[]
html1 = requests.get(url).content.decode() # 调用requests.get().content获取网页源代码,用decode(0)函数将byte类型转换为字符类型
selector = lxml.html.fromstring(html1) # 将获得的字符串码进行ascall转换,存储到数组中
data = selector.xpath('//*[@id="content"]/text()')# 通过调用lxml中的xpath函数进行正则表达式类的筛选,注意后面需要添加/text()以显示文本形式
content_list.append(' '.join(data))
print(content_list)
#txt=re.findall(r"\xa0(.*?)\r",strl,re.S)
#save(info,'退后让为师来txt','chapter')
#url_list=find_comment('退后让为师来网址','location')
get_comment('https://www.shuquge.com/txt/87286/29736188.html')
这是我的问题代码块然后运行结果还是这个样子,我想的是把列表中的东西转换为字符串然后用''.join(data).split()来提取字符串去除空白字符,但是属实没有什么思路,所以希望各位提点一下
列表每一项都是字符串,直接替换就可以了
data = [i.replace('\xa0','') for i in data]
data = selector.xpath('//*[@id="content"]/text()')[0]
data = "".join(data.split())