首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于中心性和PageRank的网页综合评分方法   总被引:1,自引:0,他引:1  
为准确、高效地对网页进行评分,提出了一种基于中心性(结点度、居间度和紧密度)和PageRank算法的网页评分方法CentralRank.它采用PageRank算法计算网页分数,借助中心性度量的方法计算页面在Web社会网络中的重要性.为了验证CentralRank的性能优势,设计了一个网页抓取器,可利用该抓取器自动、准确地下载网页信息.该网页抓取器集成了网络信息采集、页面内容分析和页面消重3项技术.基于大量真实数据的实验结果表明:CentralRank在保证网页评分时间性能的前提下,比单纯基于中心性的网页评分算法和PageRank算法更准确、有效,预测准确性分别提高约14.2%和7.5%.  相似文献   

2.
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容.  相似文献   

3.
IntroductionTraditional solutions for the integrity protec-tion of web pages are based on the File Digest tech-niques, usually called Digital Signatures[1]. Suchmethods generate a signature through Hash func-tions with the to-be-protected information as theinput and then attach it to the end of the originalinformation to form the signed message. When thesigned message arrives at the receiver, the correctsignature can ensure its integrity; in other words,no signature or a false one means that…  相似文献   

4.
Web page classification is an important application in many fields of Internet information retrieval, such as providing directory classification and vertical search. Methods based on query log which is a light weight version of Web page classification can avoid Web content crawling, making it relatively high in efficiency, but the sparsity of user click data makes it difficult to be used directly for constructing a classifier. To solve this problem, we explore the semantic relations among different queries through word embedding, and propose three improved graph structure classification algorithms. To reflect the semantic relevance between queries, we map the user query into the low-dimensional space according to its query vector in the first step. Then, we calculate the uniform resource locator (URL) vector according to the relationship between the query and URL. Finally, we use the improved label propagation algorithm (LPA) and the bipartite graph expansion algorithm to classify the unlabeled Web pages. Experiments show that our methods make about 20% more increase in F1-value than other Web page classification methods based on query log.  相似文献   

5.
基于Frame页面过滤的Web日志挖掘中的数据预处理方法   总被引:2,自引:0,他引:2  
提出了基于Fram e页面过滤的W eb日志预处理方法,将数据挖掘技术应用到W eb服务器的日志中,从而发现W eb用户的行为模式,数据预处理为日志挖掘提供理想的数据,实验证明了该方法有效地解决了数据预处理中的一些问题.  相似文献   

6.
IntroductionWeb usage mining is the application of datamining to the web server's log in order to discoverthe behavior patterns of the web site visitors.Thebehavior patterns found should be highly interest-ing.That is,they should be valid,novel,poten-tially useful,and ultimately understandable[1] .Finding frequently visited page groups is animportant topic in web usage mining.Intuitively,the frequently visited page group ( FVPG) is a setof web pages thatare often requested together by anumbe…  相似文献   

7.
网页标准化是近年来提出的一种新型网页开发方法,它实现了网页表现、结构和行为的有效分离,极大提高了网页开发的质量和效率。文中通过对现有的网页制作方法存在的弊端进行分析,提出采用网页标准化开发方法的必要性,同时对网页标准化的含义作了充分的阐述,展现了如何实现网页标准化,最后介绍了网页标准化广阔的应用前景。  相似文献   

8.
提出了基于W eb Component的页面分解算法.首先将HTML页面格式化为XHTML形式,然后根据XHTML页面生成DOM Tree,从中分析、抽取W eb Component作为独立实体,并给这些W eb Component分配标识,最后在数据库中存储页面结构、W eb Component及相关信息.结果表明,此算法使得构建个性化页面成为可能.  相似文献   

9.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

10.
介绍了铁路货车检修工序进展监控与管理软件的设计.系统通过Web服务器的串口所连接的无线通信模块与现场的无线手持机通信.主机通过轮询方式查询手持机发送的作业进展信息,利用多线程协调完成通信信息的获取与分析.同时,系统采用B/S模式在浏览器页面能对检修工序进展进行实时监视.在Web服务器端,利用Spring任务定时实现每天工作的启停,以及用Spring编写REST风格的Web服务.在浏览器端,利用AJAX技术实现对Web服务的访问,以及将显示结果在页面上动态显示.Web服务通过Json变换向浏览器传递对象消息.  相似文献   

11.
网络信息主要是通过网页来传达,网页信息内容高效表达需要有很好的网页设计.网页设计过程和表达形式涉及众多因素,文中针对网页设计中的设计任务、设计实现、色彩运用、网页布局、设计原则、网页优化等进行了具体的分析与探讨.  相似文献   

12.
为了提高PageRank算法的准确性,从网络用户对已知网页进行评价的角度引入网页等级,从网页链接分析的角度解决权威性需求.结合网页链接分析和页面内容分析提出一种改进的PageRank算法PRP(PageRank based on Page-level).实验证明,算法为扩展PageRank提供了广阔的空间,通过选择合适的参数page-level,可以提高传统PageRank算法的网页排序的准确性,有效防止恶意链接对pagerank排序值(PR值)造成的影响.  相似文献   

13.
本文分析了MVC架构模式的特点和优势。以用户注册登录和数据搜索引擎组件的设计为实例,从数据表现的视图层、封装业务数据和业务逻辑的模型层以及处理业务逻辑并选择视图的控制层的角度,全面、深刻地阐述了MVC模式在JSP数据库应用系统开发中的具体实现。采用MVC模式设计Web程序,可以将页面的显示、业务逻辑处理和流程控制很清晰地分离。JSP负责数据显示,JavaBean负责承载数据和处理业务逻辑,Servlet负责流程的控制。MVC模式充分体现了面向对象程序设计特有的“分层架构、组件复用、松耦合”的编程思想,完全满足大型Web应用开发的技术需求。  相似文献   

14.
Apriori and N-gram Based Chinese Text Feature Extraction Method   总被引:2,自引:0,他引:2  
A feature extraction, which means extracting the representative words from a text, is an important issue in text mining field. This paper presented a new Apriori and N-gram based Chinese text feature extraction method, and analyzed its correctness and performance. Our method solves the question that the exist extraction methods cannot find the frequent words with arbitrary length in Chinese texts. The experimental results show this method is feasible.  相似文献   

15.
针对Internet上日益泛滥的色情信息,提出了一种语义链技术和向量空间模型相结合的方法,利用语义链技术找出待分类文本的语义链,由该语义链的各密度向量分量与色情(性文化)文本语义进行比较,来确定其与待分类文本的相似程度,从而将待分类文本分到对应的类中,最后可以使用先前的分类结果对色情信息实施过滤,通过实验表明,该方法能较好的识别色情网页并加以过滤.  相似文献   

16.
文章通过分析单篇文档与期刊信息页割裂带来的问题,阐述了内文版面自我宣传设计的原则及要素,并进行了实例解析,对高校学报的自我宣传具有一定的借鉴意义。  相似文献   

17.
为满足用户希望通过搜索引擎查询综合联系信息的需求,设计了基于中文网页中的综合联系信息提取系统。研究与阐述了在搜索引擎返回结果的基础上提取有关联系方面的综合信息(例如邮箱、电话等)的实现方法,并通过构建特有的内置"实体"判断、SV值算法提高系统的提取精度。  相似文献   

18.
IntroductionA recent finding is that noise signal may con-tain hidden information.Such information promis-es to be of application value(forecasting suddencardiac death in patients,or analyzing financialmarkets fluctuation,or predicting the properties ofelectric devices).We must use some approachesfor extracting such hidden information from noise.Conventional approaches include analysis ofmeans,standard deviations and other features ofhistograms,along with classical power spectrumanalysis.Thos…  相似文献   

19.
目的构建基于Web文本层面的孤立性肺结节(SPN)计算机辅助系统,探讨计算机帮助医生对SPN性质进行辅助诊断的可能性及价值。方法系统硬件设备包括1台路由器、1台交换机、2台服务器以及若干计算机和其他外部设备。Web服务器采用的操作系统为Windows 2000 Server,Web服务程序为Web Logic 8.1。数据库服务器采用的操作系统为RedHat Linux9.0,数据库系统为Oracle9i for Linux,在J2EE架构下开发SPN辅助诊断系统。SPN辅助诊断系统包括病例上传子系统、辅助诊断子系统以及维护和管理子系统。结果将待诊的SPN临床及CT图像原始文字信息录入辅助诊断子系统,该诊断模型依据输入的SPN属性,自动访问诊断规则数据库并提取相应SPN诊断规则进行比对分析,其诊断结果以报告的形式出现,包括典型层面的CT图像和诊断意见两部分,诊断意见分为5个层次:恶性、可能恶性、良性、可能良性、不能确定,并附有可信度值。结论基于Web的SPN计算机辅助诊断系统构建的方法是可行的,该系统可以辅助医师对SPN的良恶性做出辅助诊断。  相似文献   

20.
针对目前基于WINFORM的物流管理系统更新困难,升级代价大,而基于web的物流管理系统又受困于浏览器性能限制而产生画面加载速度慢,细节信息表现方式不灵活等问题,设计并实现了一种基于ATLAS的物流管理系统.该系统无需增加网络带宽和浏览器插件,使用浏览器端对物流进行准确实时地监控.降低了客户端与服务器之间的通信量,加快了信息加载速度,丰富了信息表现形式,使系统的性能得到了显著提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号