python转义失败

各位experts,我最近在用playwright获取某视频网站首页document.body时,将其保存到text.txt文件内再读取出来进行转义解码时结果还是乱码,但是在我直接复制网页document.body到txt文件里面进行转码发现没有问题,想问问experts这是为什么,附代码截图,万分感谢(其中网页加密为u002f格式)

img

可能是由于保存的文本文件使用了不同的编码格式导致的问题。在保存文本文件时,如果不指定编码格式,则使用系统默认的编码格式,如果该编码格式与文本内容的编码格式不一致,则可能导致乱码。建议在保存文本文件时指定编码格式,例如使用UTF-8编码格式,以确保文本内容正确保存和读取。

另外,如果直接复制网页document.body到文本文件中,可能会自动使用与网页相同的编码格式进行保存,从而避免了乱码的问题。但这种方式不如通过代码直接读取文档对象的方式方便和稳定,因为复制的内容可能包含不必要的格式或标签,并且在复制的过程中可能会发生错误。

根据您提供的截图,我看到您使用了Python的 repr() 函数将 document.body 转换为字符串,然后将其写入文本文件中。这可能会导致转义字符被自动转换为其转义序列。

在读取文本文件时,如果您使用了Python的 open() 函数,那么默认情况下,它会将文件内容作为字符串读取。因此,如果您在读取文本文件时使用了 open() 函数,您将获得已经被转义的文本。如果您想要获得原始的未转义文本,您可以使用Python的 ast.literal_eval() 函数来反转义字符串。