python正则表达式如何利用关键词提高提取个人信息的精准度

我想问的就是如何利用python提取电脑中html文件,然后利用关键词精准地提取出电话号码、qq号、邮箱等等一些个人的虚拟身份。

 

用python提取电脑中html文件是:

with open("xxx.html","r",encoding="utf-8") as fileObj:

    data = fileObj.read()

 

要提取出电话号码、qq号、邮箱等信息, 需要根据这些信息的前后内容的特征写正则表达式。

你把html文件的内容发一下,正则表达式要根据文件内容的格式来写。

这个要解析文件内容吧,找出内容的规律

您好,我是有问必答小助手,你的问题已经有小伙伴为您解答了问题,您看下是否解决了您的问题,可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632