首页 | 本学科首页   官方微博 | 高级检索  
     

一种Web文本的自动提取方法
作者单位:扬州大学,广陵学院,江苏,扬州,225009;扬州大学,广陵学院,江苏,扬州,225009;南京航空航天大学,信息科学与技术学院,江苏,南京,210016
摘    要:文本是Web上最主要的知识源,但现有的采用html表示的Web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向Web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于Web知识获取的预处理.

关 键 词:网页  文本  格式控制符  分离

Method for automatic acquisition of text from web pages
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号