首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于Frame页面过滤的Web日志挖掘中的数据预处理方法   总被引:2,自引:0,他引:2  
提出了基于Fram e页面过滤的W eb日志预处理方法,将数据挖掘技术应用到W eb服务器的日志中,从而发现W eb用户的行为模式,数据预处理为日志挖掘提供理想的数据,实验证明了该方法有效地解决了数据预处理中的一些问题.  相似文献   

2.
IntroductionTraditional solutions for the integrity protec-tion of web pages are based on the File Digest tech-niques, usually called Digital Signatures[1]. Suchmethods generate a signature through Hash func-tions with the to-be-protected information as theinput and then attach it to the end of the originalinformation to form the signed message. When thesigned message arrives at the receiver, the correctsignature can ensure its integrity; in other words,no signature or a false one means that…  相似文献   

3.
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容.  相似文献   

4.
Web pages contain more abundant contents than pure text ,such as hyperlinks,html tags and metadata et al.So that Web page categorization is different from pure text. According to Internet Chinese news pages, a practical algorithm for extracting subject concepts from web page without thesaurus was proposed, when incorporated these category-subject concepts into knowledge base, Web pages was classified by hybrid algorithm, with experiment corpus extracting from Xinhua net. Experimental result shows that the categorization performance is improved using Web page feature.  相似文献   

5.
为了提高PageRank算法的准确性,从网络用户对已知网页进行评价的角度引入网页等级,从网页链接分析的角度解决权威性需求.结合网页链接分析和页面内容分析提出一种改进的PageRank算法PRP(PageRank based on Page-level).实验证明,算法为扩展PageRank提供了广阔的空间,通过选择合适的参数page-level,可以提高传统PageRank算法的网页排序的准确性,有效防止恶意链接对pagerank排序值(PR值)造成的影响.  相似文献   

6.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

7.
Web page classification is an important application in many fields of Internet information retrieval, such as providing directory classification and vertical search. Methods based on query log which is a light weight version of Web page classification can avoid Web content crawling, making it relatively high in efficiency, but the sparsity of user click data makes it difficult to be used directly for constructing a classifier. To solve this problem, we explore the semantic relations among different queries through word embedding, and propose three improved graph structure classification algorithms. To reflect the semantic relevance between queries, we map the user query into the low-dimensional space according to its query vector in the first step. Then, we calculate the uniform resource locator (URL) vector according to the relationship between the query and URL. Finally, we use the improved label propagation algorithm (LPA) and the bipartite graph expansion algorithm to classify the unlabeled Web pages. Experiments show that our methods make about 20% more increase in F1-value than other Web page classification methods based on query log.  相似文献   

8.
提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法.  相似文献   

9.
网络信息主要是通过网页来传达,网页信息内容高效表达需要有很好的网页设计.网页设计过程和表达形式涉及众多因素,文中针对网页设计中的设计任务、设计实现、色彩运用、网页布局、设计原则、网页优化等进行了具体的分析与探讨.  相似文献   

10.
IntroductionIn adaptive web content delivery, two mainareas of research are the “world-wide-wait”(oruser' s retrieval latency) problem and the value-added intermediary services provided in the activenetwork[1,2]. Sometimes, intermediary services arealso related to the latency problem because theyperform content optimization (such as compre-ssion) for faster content delivery.User' s retrieval latency for web page is alwaysa big concern to most Internet content and serviceproviders. The argum…  相似文献   

11.
针对Internet上日益泛滥的色情信息,提出了一种语义链技术和向量空间模型相结合的方法,利用语义链技术找出待分类文本的语义链,由该语义链的各密度向量分量与色情(性文化)文本语义进行比较,来确定其与待分类文本的相似程度,从而将待分类文本分到对应的类中,最后可以使用先前的分类结果对色情信息实施过滤,通过实验表明,该方法能较好的识别色情网页并加以过滤.  相似文献   

12.
利用web数据挖掘方法对网站进行优化,提出了网站优化系统的基本框架,并给出相应的web数据挖掘算法:频繁模式发现及序列模式挖掘两个主要算法以找到网站访问者感兴趣的页面集合以及频繁使用的链接序列,该结果以改进网站的设计,提高网站的访问率.  相似文献   

13.
提出了基于W eb Component的页面分解算法.首先将HTML页面格式化为XHTML形式,然后根据XHTML页面生成DOM Tree,从中分析、抽取W eb Component作为独立实体,并给这些W eb Component分配标识,最后在数据库中存储页面结构、W eb Component及相关信息.结果表明,此算法使得构建个性化页面成为可能.  相似文献   

14.
混凝土箱梁顶板横向预应力框架效应分析   总被引:4,自引:0,他引:4  
针对目前预应力混凝土箱梁腹板开裂现象比较普遍这一现象,拟从预应力混凝土箱梁顶板横向预应力框架效应查找开裂原因。首先,分析了箱梁截面参数对顶板预应力横向框架效应的影响,然后结合具体预应力混凝土连续箱梁桥,分析了预应力混凝土箱梁顶板横向框架效应所引起的腹板竖向拉应力,得到了一些有意义的结论,可为改进该类桥梁的设计提供参考。  相似文献   

15.
基于中心性和PageRank的网页综合评分方法   总被引:1,自引:0,他引:1  
为准确、高效地对网页进行评分,提出了一种基于中心性(结点度、居间度和紧密度)和PageRank算法的网页评分方法CentralRank.它采用PageRank算法计算网页分数,借助中心性度量的方法计算页面在Web社会网络中的重要性.为了验证CentralRank的性能优势,设计了一个网页抓取器,可利用该抓取器自动、准确地下载网页信息.该网页抓取器集成了网络信息采集、页面内容分析和页面消重3项技术.基于大量真实数据的实验结果表明:CentralRank在保证网页评分时间性能的前提下,比单纯基于中心性的网页评分算法和PageRank算法更准确、有效,预测准确性分别提高约14.2%和7.5%.  相似文献   

16.
针对PC连续刚构桥梁底长束的张拉导致合龙段箱梁底板和腹板开裂问题,以黑崖沟2号桥为背景工程,探讨了采用不同次数梁底曲线对箱梁局部应力状态的影响。在此基础上,揭示了箱梁易于开裂的危险部位,分析了导致开裂的主要原因,提出PC连续刚构桥梁底曲线次数不低于1.6次的建议。同时,结合实际工程,通过对三种防裂设计方案的理论研究与实桥测试结果的比对发现,采用跨中设置实体隔板的设计方案,可有效地解决合龙段箱梁底板下缘和腹板内侧的开裂问题。  相似文献   

17.
Distributed architectures support increased load on popular web sites by dispatching client requests transparently among multiple servers in a cluster. Packet Single-Rewriting technology and client address hashing algorithm in ONE-IP technology which can ensure application-session-keep have been analyzed, an improved request dispatching algorithm which is simple, effective and supports dynamic load balance has been proposed. In this algorithm, dispatcher evaluates which server node will process request by applying a hash function to the client IP address and comparing the result with its assigned identifier subset; it adjusts the size of the subset according to the performance and current load of each server, so as to utilize all servers' resource effectively. Simulation shows that the improved algorithm has better performance than the original one.  相似文献   

18.
针对关联规则挖掘中存在的规则数量过多,难于理解和应用的问题,提出了一种基于闭项集的无冗余关联规则挖掘算法.首先,给出了无冗余关联规则的定义,并基于规则信任度的概念说明了该定义的合理性;其次,在生成子、闭项集和无冗余关联规则的基础上,给出了无冗余最小.最大精确规则基和无冗余最小.最大近似规则基的定义,并讨论了它们的剪枝策略.最后,讨论了生成子的性质及连接策略,并在包含索引的基础上,给出了一种宽度优先的无冗余关联规则挖掘算法.实验结果表明,本文提出的算法不仅可以发现规模较小的无冗余关联规则,提高了挖掘结果的可理解性,而且具有较高的挖掘效率.  相似文献   

19.
模糊关联规则的挖掘算法   总被引:3,自引:0,他引:3  
为了提高模糊关联规则挖掘的效率,定义了冗余模糊关联规则,并分析了强模糊关联规则的冗余性质,提出了通过删除冗余模糊关联规则提高挖掘效率的新算法.此外,针对利用支持度和蕴涵度定义的强模糊关联规则挖掘问题,将删除冗余模糊关联规则和不删除冗余模糊关联规则的计算结果与实验结果进行了比较.结果表明,当数据库中项目数较多时,删除冗余模糊关联规则能提高挖掘效率.  相似文献   

20.
为了改进现有的评估方法。在项目审查(评估)中,采用基于决策表的粗糙集模型算法。从众多专家的决策中找到潜在地存在于各个决策中的、公认的决策共识作为项目审查的依据和最终结果.应用该算法可以找出条件属性集中对决策最为重要的影响因素,确定实际应用中的数据采集规则.提出采用条件属性集的约简作为新的条件属性集的方法,以降低决策的复杂性,防止决策者个体的舞弊行为.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号