首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
完成了邮件过滤系统中的预处理工作。实现了信息增益特征选择算法,通过实验对比,得出了PU系列语料库合适的特征维数。使用词频反文档频率公式计算了特征词的权重,通过算法把标准邮件集处理成了支持向量机算法可以直接处理的向量空间模型的形式。  相似文献   

2.
笔者详细讨论并成功开发了"法律案例分析系统"的一个子系统—"法律案例自动归类系统".系统首先通过大量的法律案例训练文档得到树结构中每个类(叶子类和中间类)的类特征词权值表,然后在此基础上计算新法律案例文档相对于各个类的累加权值,最后累加权值最大并且是叶子类的类即是该法律案例应归入的类.笔者还给出并分析了用到的两个重要公式(特征词权值公式和类累加权值公式),详细介绍了系统的核心—基于词典的分词算法.实验表明本系统具有很好的通用性和扩展性,归类准确率较理想.  相似文献   

3.
笔者详细讨论并成功开发了“法律案例分析系统”的一个子系统一“法律案例自动归类系统”,系统首先通过大量的法律案例训练文档得到树结构中每个类(叶子类和中间类)的类特征词权值表,然后在此基础上计算新法律案例文档相对于各个类的累加权值,最后累加权值最大并且是叶子类的类即是该法律案例应归入的类,笔者还给出并分析了用到的两个重要公式(特征词权值公式和类累加权值公式),详细介绍了系统的核心—基于词典的分词算法,实验表明本系统具有很好的通用性和扩展性,归类准确率较理想。  相似文献   

4.
为有效识别高速公路交通状态,提高路网服务水平,基于改进的模糊C均值(Fuzzy CMeans, FCM)聚类算法对高速公路交通数据进行分析。首先,采用熵权法确定交通流量、空间占有率、平均速度和路网充裕度4个交通状态分类指标的权重,并对每个样本赋予不同的加权系数。然后,将样本权重计算纳入算法迭代过程,进而实现高速公路交通状态识别。最后,比较改进FCM算法与传统FCM算法的目标函数值、迭代次数及运行时间,结果表明:与传统FCM算法相比,改进FCM算法的目标函数值较小,迭代次数较少,运行时间较短,在数据中表现出更好的适应性;由改进FCM算法得到的聚类结果能准确、全面地反映交通数据的变化情况,实现道路交通状态的有效识别。  相似文献   

5.
针对灾害应急情况下的制图需求进行用户建模研究有助于提高灾前应急能力、灾中救灾效果和灾后恢复重建效率.以地震灾害为例,根据地震灾害中用户、时间阶段、场景的分类,对向量空间模型进行改进;在分析地震灾害中各类用户感兴趣的历史文本的基础上,通过对地震灾害有关特征词提取和权重计算,获取不同用户在地震灾害发生前、中、后期不同时间阶段,用户对关于地震灾害特征词信息的兴趣度,建立面向应急制图需求的地震灾害的向量空间模型,在此基础上利用场景特征词匹配对应的应急制图需求,使用户信息需求转化为应急地图需求进而进行用户推荐.并通过实验证明模型得到的用户兴趣度结果较符合人们的直观认知,对应急救灾制图具有一定的指导作用.  相似文献   

6.
为有效识别任意两篇报道的相似性,提出了一种基于语义相似度的话题关联检测算法.该算法首先通过计算特征词之间的相对熵作为两篇报道中特征词之间的语义相似度;其次,通过计算平均语义相似度获得特征词和报道之间的关联度;最后,结合特征词在语料库中的TF-IF(term frequency-inverse document frequency)权重计算两篇报道之间的关联度,实现报道之间的关联度检测.本文提出的方法与现有的向量空间模型方法和仅依赖于平均点互信息的方法进行了比较,并通过TDT4中文语料进行测评,结果表明,基于语义相似度的关联检测方法能够更好地利用文本的语境信息,提高了现有检测系统的性能,其最小DET(detection error tradeoff)代价降低了3%.   相似文献   

7.
文本分类经过多年的发展,已经产生了很多成熟高效的算法.将隐马尔科夫模型用于文本分类,对每个文本类构建一个隐马尔科夫模型,x2检验获得类别特征词集,其状态转移表示按照一指定顺序对类别特征词集进行遍历,状态输出符号为特征词的词频,隐马尔科夫模型的状态转移过程隐含的表示了属于该类的文本的形成过程.具有最大概率的HMM分类器就是所属的类别.该算法不仅将特征词考虑进去,而且还将词频信息融入隐马尔科夫模型中,实验结果表明该方法分类效率较高  相似文献   

8.
为了快速高效地找出最优的联运路径,在现有模型的基础上,考虑时间窗约束,建立了具有多目标、多运输方式、多货种的路径选择改进模型,并设计了2层搜索算法求解该模型.第1层在已知每条路径标签的基础上,根据时间窗删除规则并利用改进的Martins算法,计算出有效路径集;第2层将第1层的有效解作为其初始解,删除不满足货物运输总时间、中转次数和运输方式容量3个限制条件的路径,得到最优路径集合.根据货主的需求,采用序数偏好方法,组合不同的费用权重和时间权重得到综合权重值,找出对应最大综合权重值的最优路径.实例分析表明:相比已有的标签算法,改进算法增加了运算方式容量限制条件,缩小了解空间,避免了生成无效路径;相比拉格朗日松弛算法只能求得解的上下限,本文算法能够求得精确解,耗时在30 s以内,计算时间减少75%.   相似文献   

9.
在《民用机场道面评价管理技术规范》的基础上,根据跑道单元板块相对位置的重要性不尽相同,提出道面状况指数(PCI)及结构状况指数(SCI)的改进算法,得到更为准确的跑道整体的PCI/SCI值。为机场运行人员准确了解跑道运行情况及适时开展维护提供科学依据。文中先对机场道面进行分区,运用熵值法客观评判跑道区域的相对重要性,得到每块道面区域的权重,由区域PCI/SCI值乘以权重相加得整体道面PCI/SCI值。  相似文献   

10.
针对XML文本文档信息查询中查询准确率不高的情况,本文提出一种基于权重树间编辑距离的XML查询方案,通过计算关键词内容权重和树间编辑距离结构权重,可以找到最能代表用户查询意图的相关文档.实验结果表明,与传统的查询方法相比,改进后查询有比较高的准确率,具有良好的效果.  相似文献   

11.
As a fundamental and effective tool for document understanding and organization,multi-document summarization enables better information services by creating concise and informative reports for large collections of documents.In this paper,we propose a sentence-word two layer graph algorithm combining with keyword density to generate the multi-document summarization,known as Graph Keywordρ.The traditional graph methods of multi-document summarization only consider the influence of sentence and word in all documents rather than individual documents.Therefore,we construct multiple word graph and extract right keywords in each document to modify the sentence graph and to improve the significance and richness of the summary.Meanwhile,because of the differences in the words importance in documents,we propose to use keyword density for the summaries to provide rich content while using a small number of words.The experiment results show that the Graph Keywordρ method outperforms the state of the art systems when tested on the Duc2004 data set.  相似文献   

12.
一种改进的LDA主题模型   总被引:1,自引:0,他引:1  
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高.  相似文献   

13.
常规公共交通是城市居民出行的基本交通方式之一,为保障公交出行效率和降低运营成本,有必要对公交车辆的运营调度进行量化分析和系统研究。文中以居民出行和公交公司运营两者总成本最小为目标,提出了基于乘客到站率的多目标公交发车频率优化模型,以实现乘客和运营者双方的利益最大化。利用乘客到站率函数计算乘客的等车时间,使得模型在优化计算中具有更加趋近真实的等车时间;考虑到遗传算法良好的收敛性,以及发车频率易于二进制化编码的特征,文中设计相应的遗传算法对上述模型进行求解;以常州市B1路公交车线路高峰时段为例进行求解,得到最优发车频率为13.9,与三类经典发车频率确定方法进行对比分析,结果显示该模型的总成本相较于其他三种方法分别降低18.1%、1.5%、1.2%。以上研究结论表明,研究提出的发车频率模型通过协调乘客的等车时间成本、车内拥挤成本与公交运营的车辆购置成本、燃油成本,能够有效减少公交出行的整体成本。  相似文献   

14.
针对城市区域物流无人机路径规划问题,采用栅格法进行环境建模,综合考虑无人机性能、任务性质和城市环境等影响要素,以航程、高度变化和危险度最小为目标函数,构建多约束物流无人机路径规划模型.改进A*(A-star)算法求解:为合理预估距离,采用欧氏距离与曼哈顿距离线性组合的方式设计启发函数;为提高搜索效率,引入双向搜索策略;为保证平稳飞行,采用B样条(B-spline)法进行路径优化.结果表明:模型可以实现多目标优化,具有有效性;算法与传统A*算法相比,规划时间少,规划路径航程短,高度变化少,飞行安全稳定.分析参数权重值得出:当3个子目标代价权重系数分别为0.4、0.1和0.5,2种距离权重系数分别为0.15和0.85时,规划路径最优.  相似文献   

15.
城市区域物流无人机路径规划   总被引:1,自引:0,他引:1  
针对城市区域物流无人机路径规划问题,采用栅格法进行环境建模,综合考虑无人机性能、任务性质和城市环境等影响要素,以航程、高度变化和危险度最小为目标函数,构建多约束物流无人机路径规划模型.改进A*(A-star)算法求解:为合理预估距离,采用欧氏距离与曼哈顿距离线性组合的方式设计启发函数;为提高搜索效率,引入双向搜索策略;为保证平稳飞行,采用B样条(B-spline)法进行路径优化.结果表明:模型可以实现多目标优化,具有有效性;算法与传统A*算法相比,规划时间少,规划路径航程短,高度变化少,飞行安全稳定.分析参数权重值得出:当3个子目标代价权重系数分别为0.4、0.1和0.5,2种距离权重系数分别为0.15和0.85时,规划路径最优.  相似文献   

16.
为提高交通标志的视认性,促进道路交通安全,对指路标志视认性的影响因素进行了定量 研究。首先,基于人类工效学理论对评价指标进行分析,得到11 个指路标志视认性的影响因素,建立指路标志视认性的评价模型,采用定性评估与定量评价相结合的方法对模型参数进行标定。然后,在大量问卷调查的基础上,通过层次分析法得到了不同影响因素的权重值,结果表明标志的设置位置、遮挡情况、字型尺寸以及字数多少对其视认性的影响最为显著,且其权重值分别为0.140, 0.130, 0.127和0.106。最后,通过对南京市虎踞北路高架桥处的指路标志进行分析,验证了 该模型的合理性与可靠性。  相似文献   

17.
为有效提取非平稳特性的滚动轴承振动信号特征,提高故障诊断效率,提出一种采用集合经验模态分解(empiricalmode?decomposition,EEMD)、Hilbert变换的特征提取方法,并利用烟花算法优化支持向量机(support vector machine,SVM)分类参数的滚动轴承故障诊断方法. 通过EEMD方法将目标信号分解成若干个模态函数,采取Hilbert变换获取模态函数的瞬时频率,并对模态函数及其瞬时频率进行统计特征提取,从而实现特征的有效降维. 结果表明:信号经过EEMD-Hilbert处理后特征能有效提取,将训练集和测试集各600组数据代入烟花算法优化SVM模型得到测试集正确率为99.63%;比传统的遗传算法和粒子群算法优化模型分别提高0.4%和0.2%左右;同时收敛时间更短,验证了该算法模型的可行性与有效性.   相似文献   

18.
Web page classification is an important application in many fields of Internet information retrieval, such as providing directory classification and vertical search. Methods based on query log which is a light weight version of Web page classification can avoid Web content crawling, making it relatively high in efficiency, but the sparsity of user click data makes it difficult to be used directly for constructing a classifier. To solve this problem, we explore the semantic relations among different queries through word embedding, and propose three improved graph structure classification algorithms. To reflect the semantic relevance between queries, we map the user query into the low-dimensional space according to its query vector in the first step. Then, we calculate the uniform resource locator (URL) vector according to the relationship between the query and URL. Finally, we use the improved label propagation algorithm (LPA) and the bipartite graph expansion algorithm to classify the unlabeled Web pages. Experiments show that our methods make about 20% more increase in F1-value than other Web page classification methods based on query log.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号