Java对文章进行处理,能输出作者,关键词之类的,求代码和解析。
我谈谈我的看法,论文中的作者和其它一些前后没有什么特定符号的字符,估计正则表达式很难获取剩下的就是http://poi.apache.org/download.html,获取字体大小,来进行判断。
那你的待处理文本的内容是否有一定的规律呢,时本身是否是HTML文件格式,单纯对内容解析的话,可以直接用字符串截取处理,但是如果是HTML文件可以用htmlparser工具类进行解析 。