首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 419 毫秒
1.
将XML技术应用于搜索引擎,提出一种基于XML和DOM技术的Web信息抽取模型,对模型的数据采集、页面优化处理、抽取规则生成和信息抽取四个阶段进行了详细分析,讨论了网页爬虫、NekoHTML、Xerces-J、JTree、Xpath以及XSLT技术在Web信息抽取中的应用,实现了Web信息抽取的半自动化.  相似文献   

2.
基于Web服务的信息搜索机制的研究   总被引:1,自引:4,他引:1  
Web Service是WWW和XML结合的全新应用,文中介绍了Web Service的实现技术及其体系结构,并在此基础上实现了企业竞争情报系统.该系统可以有效地从多个企业门户网站中自动搜索出所需要的目标网页,并具有良好的可扩展性、安全性和有效性.  相似文献   

3.
基于中心性和PageRank的网页综合评分方法   总被引:1,自引:0,他引:1  
为准确、高效地对网页进行评分,提出了一种基于中心性(结点度、居间度和紧密度)和PageRank算法的网页评分方法CentralRank.它采用PageRank算法计算网页分数,借助中心性度量的方法计算页面在Web社会网络中的重要性.为了验证CentralRank的性能优势,设计了一个网页抓取器,可利用该抓取器自动、准确地下载网页信息.该网页抓取器集成了网络信息采集、页面内容分析和页面消重3项技术.基于大量真实数据的实验结果表明:CentralRank在保证网页评分时间性能的前提下,比单纯基于中心性的网页评分算法和PageRank算法更准确、有效,预测准确性分别提高约14.2%和7.5%.  相似文献   

4.
基于语义的自动文摘方法能解决自动文摘处理中语言复杂性问题,在克服领域局限性的同时从本质上提高文摘的质量.常用语义模型包括统计主题模型扣语义知识模型.基于语义的自动文摘是对传统文摘技术基于语义模型的扩充,在自动文摘的预处理、文档转换、文档候选片段提取和文摘生成4个基本过程中使用各种语义分析方法.  相似文献   

5.
在快速应用开发环境下,基于模板模块化的思想,利用组件应用架构(CAA)和Visual Studio开发了工程图图框、标题栏、明细表和更改标记的快速生成工具。利用提取的图纸文档属性信息实现了图框的匹配创建,通过获取三维模型的类型和产品属性实现了标题栏的智能创建和自动填写,通过获取用户在对话框中输入的信息实现了更改标记的交互式创建和自动拓展,通过遍历装配件的所有子级获取属性实现了明细表的自动生成。工程实例测试结果表明:文中开发的工具能快速生成符合国家或企业标准的图纸。  相似文献   

6.
提出了基于自适应谐振理论的Web文档聚类集成方法.该方法先用蚁群算法对Web文档进行聚类,再用ART神经网络对聚类结果集成.实验结果表明,集成后的聚类综合质量高于集成前的聚类综合质量.  相似文献   

7.
提出了基于Web Component的页面分解算法.首先将HTML页面格式化为XHTML形式,然后根据XHTML页面生成DOM Tree,从中分析、抽取Web Component作为独立实体,并给这些Web Component 分配标识,最后在数据库中存储页面结构、Web Component及相关信息.结果表明,此算法使得构建个性化页面成为可能.  相似文献   

8.
利用映射法生成全四边形网格时存在两个问题:一是网格疏密过渡难,二是自动化程度不高.模板法可以有效地解决第一个问题,文中介绍了它的基本思想和几种在正方形亲单元内部构建模板的思路.另外,为了提高网格生成的自动化程度,文中通过节点尺寸参数的定义自动完成网格的疏密布置,而且提出并实现了一种实体分组信息自动形成的算法.  相似文献   

9.
一种新的频集发现算法P&FP   总被引:1,自引:0,他引:1  
在分析已有关联规则挖掘算法的基础上,提出了应用于Web 文本集的特征关联规则挖掘框架,详细地论述了该框架所涉及的主要技术和实现过程中涉及的诸多问题,据此给出了该框架主要模块的实现算法.在该框架中,Web 文本集的特征关联规则挖掘以Web 文本的结构化处理和特征化处理为前提,核心的挖掘模块由频集发现算法P&FP 和关联规则生成算法GenNoRedundantRule 构成,算法P&FP 结合了Partition 算法的数据分片思想和FP-生成树算法的高效性,算法GenNoRedundantRule 可以避免大量冗余规则的产生.这两个算法较之已有的算法是比较高效的,而且它们还具有较好的扩展性和并行性.  相似文献   

10.
提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法.  相似文献   

11.
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容.  相似文献   

12.
在工程信息的长期安全保存和可靠调用过程中,存在着信息和其使用系统之间的兼容问题和对信息定期检查、移存、转化的时间和效率问题。目前国内外对这两类问题还没有可行的解决方法和技术。介绍了“六度分离”现象和经典的小世界网络模型,提出了WWW模型的架构,并在此基础上提出了万维网中任意两个网页间链接路径的搜索算法和计算万维网的特征路径长度,借此验证万维网具有小世界效应,为解决大量级和分散性信息的管理问题提供了可靠的科学依据。  相似文献   

13.
针对传统电子地图在生成时只包含路网拓扑关系,不具备路口转向规则的自动生成及更新能力,提出了利用大规模浮动车数据自动生成交叉口转向规则的算法.该方法建立转向规则数学表达和存储模型,并依托大规模浮动车数据分析和处理,引入置信点概念,提出基于首尾置信点控制的转向规则自动提取算法;以广州市为例,选取1d的浮动车GPS数据,对提出的算法进行效用评价,实验结果表明提出的算法准确率达90.4%,可准确实现多数交叉口转向规则的自动提取.  相似文献   

14.
IntroductionTraditional solutions for the integrity protec-tion of web pages are based on the File Digest tech-niques, usually called Digital Signatures[1]. Suchmethods generate a signature through Hash func-tions with the to-be-protected information as theinput and then attach it to the end of the originalinformation to form the signed message. When thesigned message arrives at the receiver, the correctsignature can ensure its integrity; in other words,no signature or a false one means that…  相似文献   

15.
IntroductionWeb usage mining is the application of datamining to the web server's log in order to discoverthe behavior patterns of the web site visitors.Thebehavior patterns found should be highly interest-ing.That is,they should be valid,novel,poten-tially useful,and ultimately understandable[1] .Finding frequently visited page groups is animportant topic in web usage mining.Intuitively,the frequently visited page group ( FVPG) is a setof web pages thatare often requested together by anumbe…  相似文献   

16.
公共交通个体出行信息的提取对掌握公共交通出行的时空特征,改善居民通勤出行效率具有重要意义.研究从公交刷卡数据、公交定位数据、轨道AFC数据等海量公共交通多源数据的关联匹配与处理方法入手,提出了公共交通出行链信息提取中,换乘关系判断、通勤行为判别及出行起讫点匹配的方法与规则,标定了出行链匹配阈值参数,建立了基于个体出行数据的公共交通通勤出行链提取模型.提取模型的准确度验证表明:出行链结构提取及通勤出行判别的成功率均达到100%,出行阶段起讫点匹配成功率为87.5%,准确性为97.1%,满足了公共交通出行特征提取的需求.该方法为公共交通通勤出行判别及基于个体的微观通勤出行时空特征的深入分析奠定了基础.  相似文献   

17.
With the rapid increase of educational resources, how to search for necessary educational resource quickly is one of most important issues. Educational resources have the characters of distribution and heterogeneity, which are the same as the characters of Grid resources. Therefore, the technology of Grid resources search was adopted to implement the educational resources search. Motivated by the insufficiency of currently resources search methods based on metadata, a method of extracting semantic relations between words constituting metadata is proposed. We mainly focus on acquiring synonymy, hyponymy, hypernymy and parataxis relations. In our schema, we extract texts related to metadata that will be expanded from text spatial through text extraction templates. Next, metadata will be obtained through metadata extraction templates. Finally, we compute semantic similarity to eliminate false relations and construct a semantic expansion knowledge base. The proposed method in this paper has been applied on the education grid.  相似文献   

18.
传统的网络数据请求方式在响应之前需要阻塞用户,为了提高响应性和增强用户体验,提出了一种在网页中异步请求数据的方法。  相似文献   

19.
基于视频的交通流检测在智能交通系统中具有重要意义.本文针对广泛采用的低位摄像机,提出了一种交通流特性参数的检测分析方法.首先基于三级虚拟检测线和自适应更新率局部背景建模来快速提取车辆特征点并消除活动阴影对提取精度的影响;然后基于Adaboost(Adaptive Boosting, 自适应增强)分类器实现特征点按车分组,并在跟踪过程中根据运动特征相关度消除分组误差,获取高精度的车辆轨迹;进而自动生成多车道轨迹时空图并提取各车道交通流的多种特性参数.实验结果验证了算法的高效性;同时,自动生成的多车道轨迹时空图也为更多的交通信息获取和更深入的交通流特性分析提供了有力支持.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号