1.需要爬取的文本:
2.这个文本对应的元素代码处:
但是他对应是一张图片,加载这个网址可以看到里面的内容,但是是一张图片。
所以遇到这种反爬机制该怎样破解!
最终目的,是爬取到上面的文字,并且按照相应的格式排列。
只能使用OCR识别了,没有什么好的办法,就是一张图片。你可以试试CSDN的图片识别,接口网址:https://bizapi.csdn.net/mp/ask/v1/ai/ocrText
提问题时检查图片功能进行识别
或者百度文字识别OCR: https://ai.baidu.com/ai-doc/OCR/9k3h7xuv6
在 控制台-免费资源领取页 可领取所需接口的免费测试资源。未实名认证 用户可领取 200 次/月,个人认证 1,000 次/月,企业认证 2,000 次/月。
我想到的是调用api完成文字识别,既然给的资源是图片,那你能拿到的应该也只是图片。
用OCR,tesserocr或者百度的ocr接口
文字识别
严格来说这不是反爬