一种Web文本的自动提取方法 |
| |
作者单位: | 扬州大学,广陵学院,江苏,扬州,225009;扬州大学,广陵学院,江苏,扬州,225009;南京航空航天大学,信息科学与技术学院,江苏,南京,210016 |
| |
摘 要: | 文本是Web上最主要的知识源,但现有的采用html表示的Web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向Web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于Web知识获取的预处理.
|
关 键 词: | 网页 文本 格式控制符 分离 |
Method for automatic acquisition of text from web pages |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 万方数据 等数据库收录! |
|