基于统计的技术自动化程度是
基于统计的技术和基于视觉特征的技术在多数情况下都涉及对待抽取内容本身进行区域划分等处理,需要进行人工干预,因此,操作人员的主观行为可能会造成区域划分不合理,从而直接影响信息抽取的效果。基于模板的技术需要依赖于表示待抽取位置的节点串,通常需要针对某一类待抽取对象进行分析和标记,总结出一个统一的模板节点串。尽管利用模板来抽取信息较为便捷,但生成模板的过程却需要大量的人工操作。基于DOM树结构的技术针对Web网页本身的结构优势,通过对网页树进行对比操作,就可以确定页面内主题信息的位置进而实现信息的抽取,极少受到操作者主观因素的影响。
基于统计的复杂性是
基于统计的技术在理论上易于实现,但其难点在于确定一个合理的阈值。阈值的确定方法会对主题对象的确定产生直接的影响,并且对于不同种类的对象必须分别讨论阈值。基于视觉特征的技术对对象的分块更加注重可视化信息的组织形式。基于DOM树结构的技术不需要再对抽取对象进行分块处理,可以直接通过对比得出主题信息区域,但却需要对每个对象都进行同样的处理,没有充分利用已有的结果总结出针对同类相似对象进行处理的统一方法。基于模板的技术免去了对同类对象的重复操作,针对相似对象总结出统一的抽取模板,但在模板的生成方法和模板通用性方面还有待于改善。