现在在准备一个项目的技术筹备,遇到一个难题。就是操作人员上传一份Word文档,我需要根据传入的Word文档的内容,提取出大部分关键有用的信息,生成新的Word。
比如说,上传的Word中有一段话:收款人李XX已经签收XXXXX包裹。。。那么现在我要提取出的信息就需要包括:收款人:李XX,事件:签收XXXXXX包裹;
有没有什么好的实现方法,希望各位有经验的大神不吝啬赐教!!!
方式不是问题,正则就可以
主要的问题是,语句的规范化,就像“主谓宾”结构,要不然不好匹配
所以,你只要把传入内容的格式规范化后,简单的正则匹配就好了
楼上说的对,读取肯定没问题,关键是读取规则。 最好是这个文档的规范你自己制定,然后让客户按你这个文档的模板,写内容。