专利数据存储于文件" patent . txt "中
(1)打开文本文件进行内容读取,使用 Pandasdatafram 格式存储并展示结果(只需存储以下标签对应内容: PN 、 TI 、 AU 、 AB 、 IP ) (2)文本处理:对摘要内容( AB 标签内容)进行文本预处理(分词、停用词去除等),提取文本的关键词(词频或其他方法 并进行可视化展示。
(3) 利用词频或者其他方法对摘要文本进行向量化表示,选用任意向量聚类方法进行
聚类,输出聚类结果并存储于文件中。
public static void main(String[] args) {
//如果是通过http网络请求的话,应该这样写:
//String agent = request.getHeader("user-agent");
String agent = "user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.32 Safari/537.36";
//解析agent字符串
UserAgent userAgent = UserAgent.parseUserAgentString(agent);
//获取浏览器对象
Browser browser = userAgent.getBrowser();
//获取操作系统对象
OperatingSystem operatingSystem = userAgent.getOperatingSystem();
System.out.println("浏览器id:" + browser.getId());
System.out.println("操作系统:" + operatingSystem.getName());
System.out.println("浏览器名:" + browser.getName());
}