首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
使用向量空间模型表示的文本邮件数据高维而稀疏,不利于邮件过滤分类模型的建立,通常需在分类器训练前进行维数约减。Lasso回归是一种基于l1正则化的多元线性模型,其在模型参数估计的同时实现了变量选择。提出使用Lasso回归进行垃圾邮件过滤,建立Lasso回归邮件分类模型、Lasso回归词条选择结合逻辑回归的分类模型,结合中文文本垃圾邮件数据集TREC06C进行垃圾邮件过滤实验。实验结果表明Lasso回归词条选择结合逻辑回归的邮件分类模型性能更佳。  相似文献   

2.
张量分解是处理大规模数据的一种方法,它能有效的对数据进行降阶,由于高阶张量具有唯一性、对噪声更鲁棒、不破坏原数据的空间结构和内部潜在信息等优点,被广泛应用于神经科学、信号处理、图像分析、计算机视觉等领域。论文首先对传统的降维方法进行了介绍,指出这些方法存在的问题和不足。其次对张量分解的三种经典算法:CP分解、Tucker分解以及非负张量分解从算法的求解、基本思想、算法框架以及算法应用等方面进行概括分析,对CP分解算法和Tucker分解算法从多角度进行对比分析。最后对张量分解的现状以及实际应用进行了归纳和总结,并对未来的研究发展趋势进行了分析和展望。  相似文献   

3.
王晖 《黑龙江交通科技》2009,32(4):158-158,F0003
研究分析了贝叶斯分类算法的原理,流程及优缺点,采用基于最小风险的贝叶斯决策方法对电子邮件的内容进行分析来识别出垃圾邮件,提高了邮件过滤系统的整体性能。  相似文献   

4.
提出了将人脸图像的小波分解和线性判别分析结合以达到人脸识别的方法.首先对人脸图像作小波分解,并将分解后的低频系数进行线性判别分析进一步降低人脸特征向量的维数,最后利用最近邻分类器进行分类识别.实验表明,该方法的正确识别率高于传统的特征脸识别方法.  相似文献   

5.
提出了可控变异和随机变异方法,改进了动态克隆选择算法,建立并实现一种改进的基于人工免疫系统的邮件过滤算法.并采用SpamAssassin垃圾邮件样本对算法性能进行测试.实验结果表明,引入改进的动态克隆选择算法后,该算法对具有变异特性的垃圾邮件能保持较高的正确识别率,具有较好的自适应性和多样性.  相似文献   

6.
为了提高舰船辐射噪声信号分类的准确率,即在水下进行舰船目标识别的准确率,采用了小波包提取信号能量谱特征的方法和支持向量机的分类算法.简介了小波包变换及支持向量机的基本原理,然后针对舰船辐射噪声信号进行多层小波包分解,提取各子频段能量谱作为特征量,归一化处理后构建特征向量,最后用支持向量机算法进行分类.仿真实验结果表明,利用对信号的多层小波包分解提取能量谱特征和支持向量机的分类算法能对舰船辐射噪声信号进行有效识别.  相似文献   

7.
基于LLE和LS_SVM的胃粘膜肿瘤细胞图像分类   总被引:1,自引:1,他引:0  
胃粘膜肿瘤细胞图像的复杂性,组织器官形状的不规则性以及不同细胞的差异性,使得采用一般的线性分类方法对其进行分类很困难,结合局部线性嵌入(LLE)在处理非线性数据及最小二乘支持向量机(LS_SVM)在处理小样本、高维数及泛化问题方面的优势,文章提出一种基于LLE+LS_SVM的胃粘膜肿瘤细胞图像分类方法,并采用LS_SVM的线性拟合误差来判断实验效果,最后比较本文方法与其他分类方法的优越性。实验结果表明,该方法在分类准确率和运行时间方面都有很大的优势。  相似文献   

8.
基于K-L变换的人脸识别系统   总被引:2,自引:0,他引:2  
围绕人脸识别问题对人脸特征提取及识别技术进行了研究.主要有:运用灰度投影提取出在简单背景中的人脸图像,进行归一化操作;以类间散布矩阵作为产生矩阵,通过K-L变换降维并提取出代数特征,为了减少计算量,运用了奇异值分解,最后用最小距离分类器分类对图像进行分类.实验结果表明本方法的有效性.并且对人脸姿态,表情,光照等都具有一定的免疫性.  相似文献   

9.
公路信息基础数据元二维分类及其应用   总被引:1,自引:0,他引:1  
对我国公路建设、养护和管理的层次进行了抽象,基于信息粒度理论,提出并建立了"管理维度"分类标准.将2种分类方法结合形成二维数据元分类方法,并对现有公路信息基础数据元重新进行了分类,指出存在问题并给出了数据元扩充的思路,对二维数据元的关键属性进行了研究.将该分类方法在公路工程质量检验评定中进行了应用,提出质量检验评定的软件设计层次.应用结果表明,二维分类模式对于规范数据格式、实现信息共享、明确系统边界都有重要的作用.  相似文献   

10.
针对拥挤数据分布不平衡问题,提出了一种新的重采样方法———交叉组合重采样法。该方法是将随机向下采样法与 smote法相结合,对原始数据进行交叉采样,以减少采样法对原始数据的非均匀性破坏。通过仿真,得到比例为1∶10.1的非拥挤数据和拥挤数据原始样本。根据实际情况,通过交叉采样法,分别得到类比例为1∶5,1∶3以及1∶1的数据集,并对3种情况下的分类结果进行对比分析。选择朴素贝叶斯分类器、贝叶斯网络分类器及神经网络分类器,在不同比例数据集下,针对交叉组合重采样法和一般组合重采样法进行对比实验。实验结果证明:交叉组合重采样法能够更好地解决拥挤数据不平衡给分类器带来的问题。  相似文献   

11.
网络反垃圾邮件技术探讨   总被引:1,自引:0,他引:1  
大量的垃圾邮件的出现对网络的安全造成很大威胁.本文系统分析了垃圾邮件产生的根源、危害和常见的反垃圾邮件技术,并比较了各种反垃圾邮件策略和不同部署方案的各自特点.  相似文献   

12.
针对传统的支持向量机(SVM)算法在速度方面的缺陷,本文提出将序列最小优化(SMO)算法引人到垃圾邮件过滤系统中,实验结果证明,该模型训练时间快,过滤效果好.  相似文献   

13.
Web page classification is an important application in many fields of Internet information retrieval, such as providing directory classification and vertical search. Methods based on query log which is a light weight version of Web page classification can avoid Web content crawling, making it relatively high in efficiency, but the sparsity of user click data makes it difficult to be used directly for constructing a classifier. To solve this problem, we explore the semantic relations among different queries through word embedding, and propose three improved graph structure classification algorithms. To reflect the semantic relevance between queries, we map the user query into the low-dimensional space according to its query vector in the first step. Then, we calculate the uniform resource locator (URL) vector according to the relationship between the query and URL. Finally, we use the improved label propagation algorithm (LPA) and the bipartite graph expansion algorithm to classify the unlabeled Web pages. Experiments show that our methods make about 20% more increase in F1-value than other Web page classification methods based on query log.  相似文献   

14.
文中阐述了采用1985年7月4日和8月5日的陆地卫星TM数据对纽约州西里卡县进行农作物自动分类的研究。农作物主要指玉米和小麦。使用监督的最大似然率数字图象分类法。分类结果的精度:玉米为72~91%的正确分类率,小麦为82~88%的正确分类率,同时分类的附加误差很小。文中对如何选择训练数据,以提高分类的精度和可靠性作了研究。  相似文献   

15.
完成了邮件过滤系统中的预处理工作。实现了信息增益特征选择算法,通过实验对比,得出了PU系列语料库合适的特征维数。使用词频反文档频率公式计算了特征词的权重,通过算法把标准邮件集处理成了支持向量机算法可以直接处理的向量空间模型的形式。  相似文献   

16.
基于云变换和特性关系下粗糙集的决策树构造   总被引:2,自引:0,他引:2  
为了从不完备信息系统中挖掘分类知识,提出了一种基于云变换和特性关系下粗糙集的决策树构造算法(DTCCRSCR).其核心思想是,利用云变换离散化连续型数据,选择特性关系下加权平均粗糙度最小的属性作为当前的分裂节点.实验表明,由DTCCRSCR构造的决策树不仅结构简单,分类准确率较高,而且分类规则也容易理解.  相似文献   

17.
人们对交通流状况的判断常常是比较模糊的,本文根据实测快速路交通流数 据,利用模糊聚类的方法对交通流状况的分类进行了研究,分别把交通流分成了2类、3类和6类.论文对实验结果进行了分析,并给出了适用于北京快速路交通流状况分类的一些关键参数.分析结果表明:用模糊聚类进行交通流状况分类是一种可行的方法;速度对交通流分类的影响最大,其次是占有率,流量的作用最低;除了在速度很高、速度很低或者占有率很大的情况下可直接判断交通流状况,其他情况下需要根据交通流三个变量来综合判断.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号