一种Web文本的自动提取方法 Method for automatic acquisition of text from web pages期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种Web文本的自动提取方法

作者单位：	扬州大学,广陵学院,江苏,扬州,225009;扬州大学,广陵学院,江苏,扬州,225009;南京航空航天大学,信息科学与技术学院,江苏,南京,210016

摘要：	文本是Web上最主要的知识源,但现有的采用html表示的Web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向Web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于Web知识获取的预处理.
关键词：	网页文本格式控制符分离
Method for automatic acquisition of text from web pages

Abstract:

Keywords:
本文献已被 CNKI 万方数据等数据库收录！