Python对专利文本数据处理

专利数据存储于文件" patent . txt "中
(1)打开文本文件进行内容读取,使用 Pandasdatafram 格式存储并展示结果(只需存储以下标签对应内容: PN 、 TI 、 AU 、 AB 、 IP ) (2)文本处理:对摘要内容( AB 标签内容)进行文本预处理(分词、停用词去除等),提取文本的关键词(词频或其他方法 并进行可视化展示。
(3) 利用词频或者其他方法对摘要文本进行向量化表示,选用任意向量聚类方法进行
聚类,输出聚类结果并存储于文件中。

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7586341
  • 除此之外, 这篇博客: 根据UA获取用户访问操作系统、浏览器名中的 如何调用 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:
    	 public static void main(String[] args) {
    	 
           //如果是通过http网络请求的话,应该这样写:
           //String agent = request.getHeader("user-agent");
    
            String agent = "user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.32 Safari/537.36";
    
            //解析agent字符串
            UserAgent userAgent = UserAgent.parseUserAgentString(agent);
            //获取浏览器对象
            Browser browser = userAgent.getBrowser();
            //获取操作系统对象
            OperatingSystem operatingSystem = userAgent.getOperatingSystem();
    
            System.out.println("浏览器id:" + browser.getId());
            System.out.println("操作系统:" + operatingSystem.getName());
            System.out.println("浏览器名:" + browser.getName());
        }
    

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^