首页 | 本学科首页   官方微博 | 高级检索  
     检索      

POMDP基于点的值迭代算法中一种信念选择方法
引用本文:冯奇,周雪忠,黄厚宽,张小平.POMDP基于点的值迭代算法中一种信念选择方法[J].北方交通大学学报,2009(5):77-80.
作者姓名:冯奇  周雪忠  黄厚宽  张小平
作者单位:北京交通大学计算机与信息技术学院,北京100044
基金项目:国家自然科学基金资助项目(90709006);国家“973”项目资助(2006CB504601);北京市科委重大计划项目资助(H020920010130);国家科技支撑计划项目资助(2007BA110B06-01);致谢:感谢Guy Shani教授提供的基于Java语言的POMDP软件,本文的实验是在其框架下完成的.
摘    要:部分可观察马尔可夫决策过程(POMDP)是描述不确定环境下进行决策的数学模型.基于点的值迭代算法是求解POMDP问题的一类近似解法.针对基于点的算法中信念选择这一关键问题,提出了一种基于熵的信念选择方法(EBBS).EBBS算法通过计算可以转移到的信念点的不确定性,选择熵较小且到当前信念点集距离大于一定阈值的信念点扩充信念点集合.实验结果表明,通过熵选择信念点的值迭代算法只需要在较少数量的信念点上进行值迭代操作就能得到预期的折扣报酬.

关 键 词:POMDP  值迭代  基于点的算法  信念选择  不确定性

A Belief Selection Method in POMDP Point-Based Value Iteration Algorithm
FENG Qi,ZHOU Xuezhong,HUANG Houkuan,ZHANG Xiaoping.A Belief Selection Method in POMDP Point-Based Value Iteration Algorithm[J].Journal of Northern Jiaotong University,2009(5):77-80.
Authors:FENG Qi  ZHOU Xuezhong  HUANG Houkuan  ZHANG Xiaoping
Institution:(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)
Abstract:Partially Observable Markov Decision Process (POMDP) provides a mathematical model for decision making under uncertainty. Point-Based value iteration algorithms are effective proximate algorithms to solve POMDP problems. In this paper we propose a belief selection method, Entropy-Based Belief Selection (EBBS), based on the entropy of belief points to the crucial issue of point-based algorithms. The EBBS algorithm first sorts the belief points by entropy and then selects belief that has lower entropy and whose distance to the current set is more than a threshold. And the experimental results illustrate that this method could perform value iteration operation on fewer belief points to gain an expected discounted reward.
Keywords:POMDP  value iteration  point-based point algorithm  belief selection  uncertainty
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号