首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
提出了基于Web Component的页面分解算法.首先将HTML页面格式化为XHTML形式,然后根据XHTML页面生成DOM Tree,从中分析、抽取Web Component作为独立实体,并给这些Web Component 分配标识,最后在数据库中存储页面结构、Web Component及相关信息.结果表明,此算法使得构建个性化页面成为可能.  相似文献   

2.
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容.  相似文献   

3.
基于Frame页面过滤的Web日志挖掘中的数据预处理方法   总被引:2,自引:0,他引:2  
提出了基于Fram e页面过滤的W eb日志预处理方法,将数据挖掘技术应用到W eb服务器的日志中,从而发现W eb用户的行为模式,数据预处理为日志挖掘提供理想的数据,实验证明了该方法有效地解决了数据预处理中的一些问题.  相似文献   

4.
数据挖掘能够较好地利用网络信息资源.基于面向W eb数据挖掘的特点,可以利用XML技术来解决W eb数据异构性,利用决策树算法实现W eb数据挖掘模型.  相似文献   

5.
对Apriori算法的一个改进   总被引:1,自引:0,他引:1  
随着Internet的蓬勃发展,商业W eb网站面临越来越激烈的竞争.面对大量的电子商务信息,用数据挖掘技术找出用户感兴趣的信息加以组织利用,加强客户关系的管理,提高客户满意度,从而改进W eb站点的设计、改善企业与客户的关系成为电子商务发展必须要解决的问题.数据挖掘是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的,事先未知的潜在的有用信息.主要包括的方法有:分类、回归分析、聚类、关联分析等.关联规则的提取主要针对大型事务数据库.由于关联规则提取需要重复扫描数据库,因而提高算法的效率是至关重要的.1 Apriori算…  相似文献   

6.
在分析PageRank算法模型基础上,针对该算法存在的对所链接页面平均分配权威值问题进行了说明,并分析了部分国内外学者的改进思想,提出了笔者的改进算法.在原算法基础上通过嵌入页面转移概率,保证了权威值的合理分配,实验结果表明,改进的算法提高了网页排序的精确度.  相似文献   

7.
基于中心性和PageRank的网页综合评分方法   总被引:1,自引:0,他引:1  
为准确、高效地对网页进行评分,提出了一种基于中心性(结点度、居间度和紧密度)和PageRank算法的网页评分方法CentralRank.它采用PageRank算法计算网页分数,借助中心性度量的方法计算页面在Web社会网络中的重要性.为了验证CentralRank的性能优势,设计了一个网页抓取器,可利用该抓取器自动、准确地下载网页信息.该网页抓取器集成了网络信息采集、页面内容分析和页面消重3项技术.基于大量真实数据的实验结果表明:CentralRank在保证网页评分时间性能的前提下,比单纯基于中心性的网页评分算法和PageRank算法更准确、有效,预测准确性分别提高约14.2%和7.5%.  相似文献   

8.
介绍移动收费系统无线网络配置,涉及系统的组成、W eb裁剪技术、通信协议、无线网络连接的相关设备及其功能;移动收费系统使用时安全设置,包括数据的机密性、完整性,对用户访问验证和许可、本地网络安全与防火墙设置。  相似文献   

9.
介绍便携式征费系统网络配置,涉及系统的组成、W eb裁剪技术、通信协议、无线网络连接的相关设备及其功能;便携式征费系统使用时的安全设置,包括数据的机密性、完整性,对用户访问验证和许可、本地网络安全与防火墙设置。  相似文献   

10.
依据数据的几何形态来推断变量间函数关系的原理和Fuzzy嵌入文法概念,提出以数据曲线特征为依据的商务数据识别及处理方法.该模式识别方法中,特征重心是在赋予原始数据不同特征度条件下实现的,更接近人为表述数据曲线的心理特征,适应于商务数据的预处理.同时重点讨论了处理商务数据过程中的W eb数据挖掘及有关的可行方法.  相似文献   

11.
12.
IntroductionTraditional solutions for the integrity protec-tion of web pages are based on the File Digest tech-niques, usually called Digital Signatures[1]. Suchmethods generate a signature through Hash func-tions with the to-be-protected information as theinput and then attach it to the end of the originalinformation to form the signed message. When thesigned message arrives at the receiver, the correctsignature can ensure its integrity; in other words,no signature or a false one means that…  相似文献   

13.
网络信息主要是通过网页来传达,网页信息内容高效表达需要有很好的网页设计.网页设计过程和表达形式涉及众多因素,文中针对网页设计中的设计任务、设计实现、色彩运用、网页布局、设计原则、网页优化等进行了具体的分析与探讨.  相似文献   

14.
网页标准化是近年来提出的一种新型网页开发方法,它实现了网页表现、结构和行为的有效分离,极大提高了网页开发的质量和效率。文中通过对现有的网页制作方法存在的弊端进行分析,提出采用网页标准化开发方法的必要性,同时对网页标准化的含义作了充分的阐述,展现了如何实现网页标准化,最后介绍了网页标准化广阔的应用前景。  相似文献   

15.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

16.
为了提高PageRank算法的准确性,从网络用户对已知网页进行评价的角度引入网页等级,从网页链接分析的角度解决权威性需求.结合网页链接分析和页面内容分析提出一种改进的PageRank算法PRP(PageRank based on Page-level).实验证明,算法为扩展PageRank提供了广阔的空间,通过选择合适的参数page-level,可以提高传统PageRank算法的网页排序的准确性,有效防止恶意链接对pagerank排序值(PR值)造成的影响.  相似文献   

17.
IntroductionIn adaptive web content delivery, two mainareas of research are the “world-wide-wait”(oruser' s retrieval latency) problem and the value-added intermediary services provided in the activenetwork[1,2]. Sometimes, intermediary services arealso related to the latency problem because theyperform content optimization (such as compre-ssion) for faster content delivery.User' s retrieval latency for web page is alwaysa big concern to most Internet content and serviceproviders. The argum…  相似文献   

18.
IntroductionWeb usage mining is the application of datamining to the web server's log in order to discoverthe behavior patterns of the web site visitors.Thebehavior patterns found should be highly interest-ing.That is,they should be valid,novel,poten-tially useful,and ultimately understandable[1] .Finding frequently visited page groups is animportant topic in web usage mining.Intuitively,the frequently visited page group ( FVPG) is a setof web pages thatare often requested together by anumbe…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号