对基于web的信息抽取的研究与实现的一些疑惑

   女朋友要做毕业设计,题目是:基于web的信息抽取的研究与实现。
    开始想着做个类似新闻发布的玩意儿就行了,但看过任务书后,迷惑了

任务书内容:


......
......
该系统为基于web的信息抽取的研究与实现。目前,对于Web信息挖掘分为两大类:一类称为使用挖掘,另一类称为内容挖掘,即使用挖掘工具队Internet上的信息进行挖掘。而在大量的Web资源中,表格是其中极为重要而又规律的。为此,本系统主要研究开发“Web表格信息抽取引擎”,其目的是提供一种以Web表格为信息抽取对象的,支持抽取方式选择的抽取工具。
“信息抽取引擎”由以下两个部分构成:
1、 Html文档分析工具
2、 信息抽取工具。
结构如下:
二叉树构建工具以Html文档作为输入数据,将文档内的标记与文本分开,将用户感兴趣的标记及其中的内容构造成一棵含有文本信息的二叉树。在此,我们仅对表格进行信息抽取,所以设定“title、table、td、tr”为感兴趣标记。

当Html文档转化成一棵二叉树后,信息抽取工具通过遍历二叉树查找用户感兴趣的关键词,然后将该关键词结点所在的行、列或所在的子表格中的所有内容作为信息抽取结果进行输出。
信息抽取关键字的之间的关系,可以是AND或OR(只有一个信息关键字时,忽略该参数)。信息抽取时,用信息抽取关键字和二叉树中所有结点的文本段进行匹配,有一个匹配成功时,认为该结点满足信息抽取条件。信息抽取时,用所有的信息抽取关键字和二叉树结点的文本进行交叉匹配或重复匹配。
查询条件“AND”表示:如果给定的信息抽取关键字集合K{e1,e2,e3,en,…}中的每一个元素都和结点(A)的文本相匹配时,则认为:“A结点满足信息抽取条件。”
查询条件“OR”表示:信息抽取关键字集合K{e1,e2,e3,en,…}中一个以上(包含一个)的元素和结点(A)的文本相匹配时,就认为:“A结点满足信息抽取条件。”
三、重点研究问题
1. 二叉树的模型的选择
2. 二叉树的构建

.....

.....


存在几个问题,有这方面经验的帮解答下吧:
1.为什么要用二叉树呢?搜索速度快? (由html生成dom树,遍历不好么)
2.“..关键字和节点文本匹配.." ,怎么算匹配呢?(等于、包含?)
3.“...信息抽取时,用所有的信息抽取关键字和二叉树结点的文本进行交叉匹配或重复匹配。....”.这里的交叉和匹配是什么意思?
4.楼下的做过web信息抽取吗?

1.用二叉树应该是为了数据的抽象.估计这个课题就是从数据挖掘的书里面搞出来的,可能数据挖掘用二叉树来推断页面模型. 例如: 节点的深度可能代表了信息的重要程度,节点的顺序可能代表了信息的先后次序.很明显的一点就是google非常重视页面最下方的copyright信息..

2.所谓的匹配,应该就是精确跟模糊2种都算吧.

3.交叉匹配重复匹配这术语有点玄,建议让你GF跟老师问清楚..我估计是几个关键字轮流的匹配吧..比如你搜索 a b c,那符合a 符合b,符合a b的都算,可能是这个意思吧.

4.信息提取啊,爬虫什么的我倒还真是写过不少.但是没搞这么复杂的.就是httpclient+一些html解析工具就搞定了,最多再加个正则.倒是你这个要转成二叉树还真够你忙活的了.

啥信息抽取,搞的那么高科技,就是spider嘛,python实现的spider一堆堆。。实现好的SGMLParser,想怎么用怎么用,,