url = 'https://sf.某宝.com/item_list.htm?&category=50025969&city=%D6%A3%D6%DD&page=1'
获取到了网页代码,需要获取中间的列表数据在下面这段代码里。
<script id="sf-item-list-data" type="text/json">
{"data":[xxxxxxxxxx]
}</script>
我写的是:
list = re.findall(r'<script id="sf-item-list-data" type="text/json">\s\S"data":(.*?)}</script>', response.txt)[0]
可是一直出错,得到的都是空列表list:[],请问应该怎么写才能正确匹配到数据?
中间的 ‘ \s\S ’ 是因为我觉得前面代码中有一个换行,可能还有空格,所以用\s代替换行或者空格之类,\S是因为前面还有个 ‘ { ’ 号,用\S替代。不知道这里这样写对不对。
将你的正则匹配代码中添加第三个参数re.S试一试
淘宝这么好爬吗,没反爬