首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
基于粗约简的数据流增量聚类算法   总被引:1,自引:1,他引:0  
针对数据流聚类算法CluStream需预先指定微聚类数目无法准确描述数据流的变化,进而影响最终聚类结果的缺陷,提出了基于粗约简的数据流增量聚类算法RICStream(rough incremental clustering stream).该算法在保证聚类精度的前提下,对参与聚类的数据流属性进行动态调整,有效地减少了聚类时间和计算量.提出了一种可增量调整的网格结构以存储数据流,保证了聚类结果能有效反映数据流的变化情况.基于真实数据集和仿真数据集的实验结果表明,RICStream算法具有较高的效率和聚类精度.  相似文献   

2.
一种有效的数据流二次聚类算法   总被引:2,自引:1,他引:1  
为提高数据分布不规则和含有噪音时的数据流聚类质量,提出了一种有效的数据流二次聚类算法TCLUSA.该算法基于分区思想,采用DBSCAN方法对每块分区进行聚类,以得到的簇的均值点作为其代表点,再用k-means对所获得的代表点进行聚类,算法采用分层结构保存每次聚类获得的簇参考点,直至获得最终结果.理论分析和实验结果表明,TCLUSA算法能有效提高数据流的聚类质量.  相似文献   

3.
密度峰值聚类(DPC)是一种新提出的基于密度和距离的聚类算法,由于其原理简单,无需迭代和能处理形状数据集等优点,正在数据挖掘领域得到广泛应用。但DPC算法也有着一定的缺陷,如:对截断距离参数敏感,初始聚类中心的选择非自动化,后续标签分配存在链式问题,时间复杂度较高等。文章对DPC算法的研究现状进行了总结与整理,首先介绍了DPC的算法原理和流程;其次,针对DPC算法的不足对DPC算法的优化进行概括和分析,指出了优化算法的核心技术以及优缺点;最后,对DPC算法未来可能面对的挑战和发展趋势进行展望。  相似文献   

4.
交通事故特征受地域分布影响显著,本文对交通事故特征进行优化聚类研究.基于 2019年无锡市交通事故数据,调用开放地图接口地理编码解算事故地点经纬度,使用密度聚类算法对事故地点与事故原因进行密度聚类.传统的密度聚类算法依赖距离阈值和样本数阈值的准确输入,为解决这一局限,建立一种自适应搜索距离阈值和样本数阈值的密度聚类模型,并与原始聚类模型进行对比.结果表明,优化算法在参数确定上更加智能,对簇的划分更加准确,对噪声点的识别更加合理.通过机器学习中轮廓系数计算方法计算模型得分,证明了该算法在城市道路交通事故地理位置聚类中的适用性.  相似文献   

5.
交通事故特征受地域分布影响显著,本文对交通事故特征进行优化聚类研究.基于 2019年无锡市交通事故数据,调用开放地图接口地理编码解算事故地点经纬度,使用密度聚类算法对事故地点与事故原因进行密度聚类.传统的密度聚类算法依赖距离阈值和样本数阈值的准确输入,为解决这一局限,建立一种自适应搜索距离阈值和样本数阈值的密度聚类模型,并与原始聚类模型进行对比.结果表明,优化算法在参数确定上更加智能,对簇的划分更加准确,对噪声点的识别更加合理.通过机器学习中轮廓系数计算方法计算模型得分,证明了该算法在城市道路交通事故地理位置聚类中的适用性.  相似文献   

6.
为了改善聚类分析的质量,提出了一种基于阈值和蚁群算法相结合的聚类方法.按此方法,首先由基于阈值的聚类算法进行聚类,生成聚类中心,聚类个数也随之初步确定;然后将蚁群算法的转移概率引入K-平均算法,对上述聚类结果进行二次优化.实验表明,与尽平均算法等相比,该聚类方法的F-测度值(F-measure)更高.  相似文献   

7.
K-均值算法聚类速度快,易于实现,且对数据依赖度低,在文本聚类中得到广泛应用.然而,由于聚类初始中心点选择的随机性,传统K-均值算法以及其变种的聚类结果会产生较大的波动.文章对K-均值算法进行了改进,通过自适应选择最佳密度半径进而优化聚类初始中心选择的方法,得到一种适合文本数据聚类分析的改进算法.实验表明,该算法能够生成质量较高而且波动性较小的聚类结果.  相似文献   

8.
K-均值算法聚类速度快,易于实现,且对数据依赖度低,在文本聚类中得到广泛应用.然而,由于聚类初始中心点选择的随机性,传统K-均值算法以及其变种的聚类结果会产生较大的波动.文章对K-均值算法进行了改进,通过自适应选择最佳密度半径进而优化聚类初始中心选择的方法,得到一种适合文本数据聚类分析的改进算法.实验表明,该算法能够生成质量较高而且波动性较小的聚类结果.  相似文献   

9.
为了提高快速路交通运行状态的判别精度,利用地点交通参数与交通状态之间的映射关系,提出了基于投影寻踪动态聚类模型的快速路交通状态判别方法.该方法综合投影寻踪技术和动态聚类方法构造投影指标函数,采用混合蛙跳算法优化投影指标函数的投影方向获得最佳投影方向,并利用仿真数据标定了交通状态判别阈值.结合仿真数据和实测数据进行了实验验证和对比分析.实验结果表明,投影寻踪动态聚类模型能够有效提高快速路交通状态判别精度,平均判别率为97.01%,平均误判率为0.86%,平均判别精度分别比BP神经网络模型和模糊C均值聚类模型方法提高了8.9%和4.5%.   相似文献   

10.
提出了一种基于遗传算法的聚类数据挖掘新算法,并在某钢铁集团CIMS工程的销售管理系统中成功进行了应用,新算法与已有算法进行了对比研究。新方法对其他类似的实际应用也有参考价值。  相似文献   

11.
高速公路收费数据是一种高维、海量、分布特征未知的数据集,因此难以选择 何种算法和参数最适合此类数据的聚类.针对此问题,提出一种基于簇形均衡的聚类评估 指标IBCS,对各簇的形状、分布、密度和尺寸等多种形态进行均衡综合评估.该指标根据 数据集稀疏程度自适应调整邻域置信区间来度量簇结构的分散度和分离度;度量密度使 得IBCS 具有面向数据集的算法选择能力;度量簇大小避免簇划分过于悬殊的问题.UCI 数据集上多种候选算法评估比较实验验证了该指标灵活有效,能获得准确簇数并合理划 分.最后,基于IBCS 评估的西宝高速公路收费数据聚类结果表明,采用K-means 算法,簇 数为5时聚类模式最佳.  相似文献   

12.
为解决具有复杂超网络特点的流线优化问题,求解以供需匹配度最大化为目标,以能力和资源限制为约束条件的流线网络优化模型,利用向量概念,对流线网络优化模型的目标函数和约束条件进行了简化和修正,将其转换为变分不等式形式,给出了基于投影算法的求解步骤,并以某市物流节点布局规划为例进行分析.案例研究表明:利用投影算法得到的区域物流网络供需匹配度为0.999 7,高于经验比较法得到的供需匹配度0.947 6,更接近实际物流需求;并验证了基于变分不等式的流线优化模型存在唯一解.  相似文献   

13.
基于CLIQUE的聚类算法研究   总被引:4,自引:0,他引:4  
聚类分析是数据挖掘研究领域中一个非常活跃的研究课题.本文重点分析了高维度数据的自动子空间聚类算法(CLIQUE)及其各类改进算法,并对其未来发展方向进行了简要展望.  相似文献   

14.
基于数据规模导致难以应对的存储量、数据规模导致传统算法失效、大数据复杂的数据关联性导致高复杂度的计算等问题,对大数据下的k-means聚类优化算法进行研究,给出了适用于大数据任务处理的MapReduce软件架构的模型机制,通过改进k-means初始聚类中心的选取,提出了一种基于MapReduce模型的k-means聚类优化算法.最后将改进的算法应用于煤炭煤质的分析中,结果显示较传统算法,改进算法的效率有明显提高.  相似文献   

15.
快速查找初始聚类中心的K_means算法   总被引:3,自引:0,他引:3  
传统的k_means算法对初始聚类中心十分敏感,聚类结果随不同的初始输入而波动,容易陷入局部最优.为消除这种敏感性,针对k_means算法,提出了一种新的基于数据样本分布选取初始聚类中心的方法,对公共数据库UCI里面的数据实验表明改进后的k_means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性.  相似文献   

16.
都市圈已经逐渐成为国家新型城镇化发展的主体形态之一,在区域经济一体化建设中起着十分重要的作用.本文基于顺风车数据,使用聚类分析方法,围绕北京都市圈区域划分与层级结构展开相关研究.首先,通过网格模型将研究区域网格化处理并作为基本处理单元,匹配获取的顺风车数据与POI数据到网格中,利用基于网格的改进K-means++聚类算...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号