首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
提出了基于W eb Component的页面分解算法.首先将HTML页面格式化为XHTML形式,然后根据XHTML页面生成DOM Tree,从中分析、抽取W eb Component作为独立实体,并给这些W eb Component分配标识,最后在数据库中存储页面结构、W eb Component及相关信息.结果表明,此算法使得构建个性化页面成为可能.  相似文献   

2.
基于Frame页面过滤的Web日志挖掘中的数据预处理方法   总被引:2,自引:0,他引:2  
提出了基于Fram e页面过滤的W eb日志预处理方法,将数据挖掘技术应用到W eb服务器的日志中,从而发现W eb用户的行为模式,数据预处理为日志挖掘提供理想的数据,实验证明了该方法有效地解决了数据预处理中的一些问题.  相似文献   

3.
数据挖掘能够较好地利用网络信息资源.基于面向W eb数据挖掘的特点,可以利用XML技术来解决W eb数据异构性,利用决策树算法实现W eb数据挖掘模型.  相似文献   

4.
提出了基于Web Component的页面分解算法.首先将HTML页面格式化为XHTML形式,然后根据XHTML页面生成DOM Tree,从中分析、抽取Web Component作为独立实体,并给这些Web Component 分配标识,最后在数据库中存储页面结构、Web Component及相关信息.结果表明,此算法使得构建个性化页面成为可能.  相似文献   

5.
对Apriori算法的一个改进   总被引:1,自引:0,他引:1  
随着Internet的蓬勃发展,商业W eb网站面临越来越激烈的竞争.面对大量的电子商务信息,用数据挖掘技术找出用户感兴趣的信息加以组织利用,加强客户关系的管理,提高客户满意度,从而改进W eb站点的设计、改善企业与客户的关系成为电子商务发展必须要解决的问题.数据挖掘是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的,事先未知的潜在的有用信息.主要包括的方法有:分类、回归分析、聚类、关联分析等.关联规则的提取主要针对大型事务数据库.由于关联规则提取需要重复扫描数据库,因而提高算法的效率是至关重要的.1 Apriori算…  相似文献   

6.
通过对人类视觉系统(HVS)的亮度特性、频域特性、图像类型特性的研究,提出一种基于离散小波变换和人类视觉系统数字水印算法,将秘密信息嵌入到小波变换不同的方位系数中.实现了水印信号在图像信息中的嵌入与提取,达到隐藏秘密信息的目的.实践证明该算法能提高水印的不可见性,同时具有很强的鲁棒性.  相似文献   

7.
针对常用增量信息提取方法中根据经验阈值确定新旧目标匹配的不足,提出一种导航电子地图中道路网增量信息的多尺度探测方法.该方法用最大类间方差法自适应地确定几何匹配阈值来探测增量信息,完善了基于道路网眼密度的增量变化目标渐进式选取算法,实现了增量信息在较小比例尺下的缩编提取.增量信息探测实验研究结果表明:基于自适应匹配阈值的新旧版本对应路网目标匹配准确率达到了90%,优于传统的经验阈值匹配精度;改进的增量变化目标渐进式选取算法可以满足路网增量更新的结构选取需求.   相似文献   

8.
为避免两点间某条链路失效而导致的网络拥塞问题,数据中心网络常采用具有多路径特性的胖树拓扑结构,传统路由算法通常只为收发端选择一条路径作为最终路径,没有考虑胖树拓扑的特性,容易造成数据中心网络中链路资源的巨大浪费.基于此,提出一种基于SDN的数据中心多路径负载均衡算法.该算法首先要获取数据中心的全局网络拓扑、链路带宽和时延信息;然后通过寻路算法计算出可用的转发路径;再根据获取的链路带宽及时延信息对可用转发路径进行链路权重评估;最后确定出最佳转发路径.仿真实验结果表明,多路径负载均衡算法在减少平均时延和丢包率方面均优于传统路由算法,能够实现有效的多路径负载均衡.  相似文献   

9.
基于中心性和PageRank的网页综合评分方法   总被引:1,自引:0,他引:1  
为准确、高效地对网页进行评分,提出了一种基于中心性(结点度、居间度和紧密度)和PageRank算法的网页评分方法CentralRank.它采用PageRank算法计算网页分数,借助中心性度量的方法计算页面在Web社会网络中的重要性.为了验证CentralRank的性能优势,设计了一个网页抓取器,可利用该抓取器自动、准确地下载网页信息.该网页抓取器集成了网络信息采集、页面内容分析和页面消重3项技术.基于大量真实数据的实验结果表明:CentralRank在保证网页评分时间性能的前提下,比单纯基于中心性的网页评分算法和PageRank算法更准确、有效,预测准确性分别提高约14.2%和7.5%.  相似文献   

10.
一种基于栈结构的HTML到XML的转换方法   总被引:2,自引:0,他引:2  
当前Web信息大多数都是HTML格式,对其数据进行抽取,从而达到重用是一个研究重点.提出了一种基于栈结构的将HTML页面转换成XML格式的方法,简化了HTML中的信息抽取问题.  相似文献   

11.
IntroductionTraditional solutions for the integrity protec-tion of web pages are based on the File Digest tech-niques, usually called Digital Signatures[1]. Suchmethods generate a signature through Hash func-tions with the to-be-protected information as theinput and then attach it to the end of the originalinformation to form the signed message. When thesigned message arrives at the receiver, the correctsignature can ensure its integrity; in other words,no signature or a false one means that…  相似文献   

12.
Web pages contain more abundant contents than pure text ,such as hyperlinks,html tags and metadata et al.So that Web page categorization is different from pure text. According to Internet Chinese news pages, a practical algorithm for extracting subject concepts from web page without thesaurus was proposed, when incorporated these category-subject concepts into knowledge base, Web pages was classified by hybrid algorithm, with experiment corpus extracting from Xinhua net. Experimental result shows that the categorization performance is improved using Web page feature.  相似文献   

13.
IntroductionWeb usage mining is the application of datamining to the web server's log in order to discoverthe behavior patterns of the web site visitors.Thebehavior patterns found should be highly interest-ing.That is,they should be valid,novel,poten-tially useful,and ultimately understandable[1] .Finding frequently visited page groups is animportant topic in web usage mining.Intuitively,the frequently visited page group ( FVPG) is a setof web pages thatare often requested together by anumbe…  相似文献   

14.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

15.
为了提高PageRank算法的准确性,从网络用户对已知网页进行评价的角度引入网页等级,从网页链接分析的角度解决权威性需求.结合网页链接分析和页面内容分析提出一种改进的PageRank算法PRP(PageRank based on Page-level).实验证明,算法为扩展PageRank提供了广阔的空间,通过选择合适的参数page-level,可以提高传统PageRank算法的网页排序的准确性,有效防止恶意链接对pagerank排序值(PR值)造成的影响.  相似文献   

16.
提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法.  相似文献   

17.
网页标准化是近年来提出的一种新型网页开发方法,它实现了网页表现、结构和行为的有效分离,极大提高了网页开发的质量和效率。文中通过对现有的网页制作方法存在的弊端进行分析,提出采用网页标准化开发方法的必要性,同时对网页标准化的含义作了充分的阐述,展现了如何实现网页标准化,最后介绍了网页标准化广阔的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号