首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
提出了改进的最小风险贝叶斯邮件过滤算法,将其应用于客户端中文邮件过滤,以适应邮件分类的个性化需求.实验结果表明,将改进算法应用于中文邮件过滤是可行的,且与传统贝叶斯算法相比,使垃圾邮件的误报率明显降低;实验测试了损失因子、特征数量对过滤效果的影响,得出了较优的参数设定,对中文邮件过滤提出了有益的思路.  相似文献   

2.
研究探讨了传统贝叶斯模型的原理和优缺点,指出朴素贝叶斯算法没有考虑到合法邮件和垃圾邮件被误判带来的不同损失,因而有一定的局限性,而后以朴素贝叶斯为基础,结合最小风险的贝叶斯邮件过滤算法,提出改进的基于垃圾单词的单一表文件垃圾邮件过滤算法,提高了系统的执行效率,减少合法邮件的误判对用户造成的损害,并构建了邮件过滤模型.  相似文献   

3.
提出了可控变异和随机变异方法,改进了动态克隆选择算法,建立并实现一种改进的基于人工免疫系统的邮件过滤算法.并采用SpamAssassin垃圾邮件样本对算法性能进行测试.实验结果表明,引入改进的动态克隆选择算法后,该算法对具有变异特性的垃圾邮件能保持较高的正确识别率,具有较好的自适应性和多样性.  相似文献   

4.
随着垃圾邮件的不断增多,它的危害性越来越严重,为了消除这种危害性,垃圾邮件的过滤技术就显得异常重要。由于垃圾邮件数据具有稀疏性、高特征维数和多重相关性等,所以直接对它进行分类的话会造成运算量很大和错误分类的问题。本文针对这些问题,先用非负矩阵分解的方法对实验数据进行特征提取,然后再用分类方法对它进行分类。在实验中,比较之后发现经过分解之后的数据比没有经过分解的数据有更高的分类准确率。  相似文献   

5.
王晖 《黑龙江交通科技》2009,32(4):158-158,F0003
研究分析了贝叶斯分类算法的原理,流程及优缺点,采用基于最小风险的贝叶斯决策方法对电子邮件的内容进行分析来识别出垃圾邮件,提高了邮件过滤系统的整体性能。  相似文献   

6.
针对Internet上日益泛滥的色情信息,提出了一种语义链技术和向量空间模型相结合的方法,利用语义链技术找出待分类文本的语义链,由该语义链的各密度向量分量与色情(性文化)文本语义进行比较,来确定其与待分类文本的相似程度,从而将待分类文本分到对应的类中,最后可以使用先前的分类结果对色情信息实施过滤,通过实验表明,该方法能较好的识别色情网页并加以过滤.  相似文献   

7.
完成了邮件过滤系统中的预处理工作。实现了信息增益特征选择算法,通过实验对比,得出了PU系列语料库合适的特征维数。使用词频反文档频率公式计算了特征词的权重,通过算法把标准邮件集处理成了支持向量机算法可以直接处理的向量空间模型的形式。  相似文献   

8.
目的 本研究通过列线图构建普通人群罹患重度阻塞性睡眠呼吸暂停(obstructive sleep apnea, OSA)风险的预测模型,探究重度OSA的独立危险因素,指导临床早期诊断和治疗。方法 回顾性纳入1 656名患者,并按7∶3将其随机分为训练集与验证集。根据呼吸暂停低通气指数>30次/h将患者分为重度OSA与非重度OSA组。用最小绝对收缩、选择算子(the least absolute shrinkage and selection operator, Lasso)和逻辑回归(logistic regression, LR)对所有备选预测因子进行进一步筛选,基于LR建立重度OSA患者的预测模型,在验证集中对列线图模型进行验证,使用C指数、校准曲线和决策曲线分析(Decision Curve Analysis, DCA)评价列线图的区分能力、校准性和临床有效性。此外,我们将该模型与临床上广泛使用的问卷,包括STOP-Bang、柏林问卷通过受试者工作曲线进行了比较。结果 通过单因素及多因素Logistic回归分析和Lasso Logistic回归确定吸烟、憋气病史、BMI、腰...  相似文献   

9.
离场航空器滑行时间预测研究   总被引:1,自引:0,他引:1  
为准确预测离港航班滑行时间,结合北京首都国际机场实际运行情况,分析航空器滑行距离、场面滑行航空器数量(进,离港)、跑道运行模式对航班滑行时间的影响;并运用DBSCAN算法按每小时航班流量对机场运行时间段进行分类;根据分类结果建立多元回归模型,分别采用传统统计学和机器学习(Lasso回归)预测航空器离场滑行时间.结果表明:与传统统计学多元线性回归模型相比,机器学习交叉训练集下模型的预测准确度较高,预测与实际误差值在5 min内的占87%.研究结果可用于大型机场实际运行航班滑行时间预测.  相似文献   

10.
针对互联网中信息内容的安全问题,提出了一种基于双层规则的内容安全过滤方法,即通过基于逻辑规则提取的EOCAT分类算法和针对非法文本的特殊词规则构造文本分类器,实现对非法文本的识别.最后进一步讨论了针对各层规则的相关反馈的实现.实验结果表明,该分类方法对于非法文本具有较好的识别效果.  相似文献   

11.
为了解决航班运行风险高维数组运算过于复杂的问题,同时为防止模型过度拟合影响预测精度,基于中国民航局发布的风险评估体系,以某航450组真实航班数据为标准样本,首先使用自适应套索算法(Adaptive Lasso)进行降维,从63项风险自变量中筛选出15项独立变量;然后,使用随机森林算法(Random Forest,RF)进行防过拟合处理,结果显示当使用重要度排序前12项变量拟合时,结果误差达到最小值,即得到最终预测指标;最后,构建Adaptive Lasso和RF的二阶段混合模型,同时选取主成分分析(Principal Component Analysis,PCA)、径向基函数(Radial Basis Function,RBF)网络、支持向量机(Support Vector Machine,SVM)3种对比方法,使用十折交叉验证精度.结果表明:Adaptive Lasso方法在筛选掉48项指标后,结果精度未见下降;经RF处理后4种方法评估精度均大于未处理前;Adaptive Lasso-RF混合模型的预测准确率和稳定性均优于PCA、RBF神经网络和SVM等方法.综上说明混合模型实现了有效降维和防过拟合,可大幅提升预测精度,用于解决航班风险预测问题可行并有效.  相似文献   

12.
纯电动汽车行驶里程预测是驾驶者最关心的问题之一,为解决现有预测算法模型精度低、相对误差大的问题,本文采用融合片段回归与单点分类的机器学习方法对行驶里程进行预测.以真实车辆各项状态参数、环境信息等作为输入,通过聚类和过滤封装式特征筛选,提取最优特征集合,并基于行驶片段样本量选择预测方法,通过对环境温度和电池健康状态(SOH)进行分层耦合提高片段回归预测精度,通过单点分类和片段回归预测模型融合优化最终预测结果.行驶里程测试集预测结果中均方根相对误差(RMSRE)为0.035,平均相对误差为1.71%,能够精确稳定地实现行驶里程预测.  相似文献   

13.
纯电动汽车行驶里程预测是驾驶者最关心的问题之一,为解决现有预测算法模型精度低、相对误差大的问题,本文采用融合片段回归与单点分类的机器学习方法对行驶里程进行预测.以真实车辆各项状态参数、环境信息等作为输入,通过聚类和过滤封装式特征筛选,提取最优特征集合,并基于行驶片段样本量选择预测方法,通过对环境温度和电池健康状态(SOH)进行分层耦合提高片段回归预测精度,通过单点分类和片段回归预测模型融合优化最终预测结果.行驶里程测试集预测结果中均方根相对误差(RMSRE)为0.035,平均相对误差为1.71%,能够精确稳定地实现行驶里程预测.  相似文献   

14.
针对支持向量机对训练样本内的噪声和孤立点比较敏感,影响了支持向量机分类性能的弱点,利用模糊支持向量机的学习方法,构建了变压器故障诊断模型.采取一种基于二叉树的多分类方法,使用模糊C均值聚类算法求取模糊支持向量机的模糊隶属度,采用径向基核函数,并利用遗传算法对模糊支持向量机的参数进行寻优.实验结果表明,基于二叉数的模糊支持向量机模型相比BP神经网络、支持向量机有更高的诊断准确率,基于二叉树模糊支持向量机的变压器故障诊断方法是可行的.  相似文献   

15.
鄢敏 《交通标准化》2009,(9):142-146
利用S型曲线模型,选择人均GDP、人均可支配收入、私人小汽车使用费、城市人口密度作为影响私人小汽车需求的主要因素,以某城市市区私人小汽车增长的相关数据为例,对影响城市私人小汽车增长的因素进行定量分析,通过多元回归分析发现,人均GDP和私人小汽车使用费是现阶段影响城市私人小汽车需求的两个最主要因素。  相似文献   

16.
无信号控制路段人车冲突等级的划分对于采取交通安全策略有重要意义,本文采用交通调查和数据分析的方法探索人车冲突严重程度的影响因素.通过视频采集确定了综合人、车、路 3方面特性的 14个解释变量,通过变量间相关性分析对解释变量进行筛选,再建立基于Odered Probit回归分析的人车冲突量化模型确定了影响显著的因素.  相似文献   

17.
为了分析交通事故起数与时间、道路空间结构及交通运行环境等潜在影响因素之间的关系,从时间和空间角度选择9个自变量,分别从路段长度一致和路段坡度一致2个角度,构建交通事故起数时段、周日和月分布模型。以某典型交通事故多发段为例,分别运用泊松回归模型、负二项回归模型、零堆积泊松回归模型和零堆积负二项回归模型拟合交通事故起数时段、周日和月分布模型,根据模型的拟合优度检验,分别确定3个模型的最佳形式,从而构建交通事故起数时空分析模型。研究结果表明:从AIC准则和BIC准则来看,基于路段长度一致的交通事故起数时段、月分布模型采用负二项回归模型拟合效果较好,其他模型选择泊松回归模型拟合效果较好;基于路段长度一致的交通事故起数时段、周日、月分布模型的预测误差小于基于路段坡度一致的交通事故起数时段、周日、月分布模型。  相似文献   

18.
突发事件一旦发生,应急物资需求种类是纷繁复杂的,应急物流中的物资需求又是紧迫的、动态变化的. 为了提高应急物流的运作效率,救援管理人员需要对应急物资进行分级. 本文提出一种基于后验概率支持向量机的应急物资分类方法,并在此基础上建立应急物资分类模型. 把物资的重要性、时效性和缺口程度三个因素作为物资需求分级的评价标准,将模糊化后的评价值作为PPSVM的输入,选择后验概率最大所的类别作为测试样本的类别输出来完成整个分类过程,从而得到对应的分级结果. 实验结果表明,PPSVM用于应急物资分类是可行的,能够很好地解决应急物资的分类问题.  相似文献   

19.
突发事件一旦发生,应急物资需求种类是纷繁复杂的,应急物流中的物资需求又是紧迫的、动态变化的. 为了提高应急物流的运作效率,救援管理人员需要对应急物资进行分级. 本文提出一种基于后验概率支持向量机的应急物资分类方法,并在此基础上建立应急物资分类模型. 把物资的重要性、时效性和缺口程度三个因素作为物资需求分级的评价标准,将模糊化后的评价值作为PPSVM的输入,选择后验概率最大所的类别作为测试样本的类别输出来完成整个分类过程,从而得到对应的分级结果. 实验结果表明,PPSVM用于应急物资分类是可行的,能够很好地解决应急物资的分类问题.  相似文献   

20.
作者对246例资料完整的急性心肌梗塞患者经过5年~10年随访,应用逐步Logistic回归方法,分析影响急性心肌梗塞的远期预后因素。结果预测生存或死亡总符合率为92.68%。证明这一方法可信而且具有一定的临床使用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号