首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
介绍了一种基于定点DSP的特定人的孤立词语音识别系统,着重讨论了算法中参数快速提取的实现.该算法采用基于动态规划(DP)技术的动态时间弯折算法(DTW),采用VAD两极端点检测方案以提高端点检测的精度,以Mel尺度倒谱系数为语音识别参数.首先讨论了标准浮点实现方法,然后结合算法特点和定点DSP的结构,采用了一种优化的快速定点实现方法.测试结果表明,定点算法时间比浮点算法大大降低,使系统的性能得到了提高.  相似文献   

2.
讨论了基于MFCC (Mel-frequency cepstral coefficients)特征参数的语音质量客观评价方法Mel-CD (Mel-cepstral distance measure).根据心理声学原理将Johannesma提出的人耳听觉模型和非线性压缩变换引入MFCC特征参数的提取过程,用Gammatone滤波器组对人耳基底膜进行仿真.利用改进后的MFCC作为语音信号特征参数,提出了一种更加符合人耳听觉感知特性的客观评价方法——Mel-GD (Mel-cepstral gammatone filter bank distance measure).性能测试结果表明:所提算法与Mel-CD算法在时间复杂度上保持一致,评价结果的主观与客观的相关度提高了4.9%,平均估计偏差改善了45.5%.   相似文献   

3.
以声学元音图评定腭裂术后语音效果的初步研究   总被引:1,自引:0,他引:1  
对35例腭裂未手术、36例腭裂术后患者和16例正常儿童应用腭裂语音字表测试其语音清晰度;并借助计算机语音分析系统分析其元音共振峰模式。结果表明:腭裂术后组语音清晰度明显高于腭裂未手术组(P<0.01),定量分析了对元音有质的规定性的各元音头三个共振峰频率,利用各元音头两个共振峰绘制出声学元音图,显示腭裂术后感知空间增大。作者认为,声学元音图直观、量化地显示了声学空间与听辨感知相一致的关系,并可作为评价代偿性不良发音习惯存在与否及程度的手段。  相似文献   

4.
针对如何 描述语音信号的时间动态特征,本文主要研究基于多层感知器网络的神经预测模型在非特定人汉语词组识别系统中的应用。神经预测模型使用一组多层感知器网络(MIP)作为非线性预测器,采用动态匹配(DynamicProgramming)技术进行非线性时间规整,完成时间轴上的映射。本文提出了神经预测模型的简单训练算法和识别算法。基于这种模型建立了一个非特定人的汉语词组识别系统。该系统训练集内音节识别率为83%,词组识别率为86%;训练集外音节识别率为80%,词组识别率为82.5%。  相似文献   

5.
为了提高认知无线电中感知用户对授权用户(主用户)的检测概率,提出一种新的基于循环谱统计量的主用户信号检测算法.该算法利用循环谱离散频域平滑方法,对信号的循环谱在循环频率处建立合理的检测统计量,然后求解得到对应不同虚警概率的判决门限,以使感知用户能检测信噪比更低的授权用户信号.该算法具有检测结构简单,易实现的特点.仿真结果表明,在高斯白噪声信道中,虚警概率为0.1,频域平滑累积次数为255,在信噪比为-16dB的条件下,与Dandawate-Giannakis(DG)方法相比,本文算法的检测概率提高23%.  相似文献   

6.
对于一类非线性中立型时滞微分系统。x(t)=A(t)x(t)+g(t,x(t),x(t-r),x(t-r))的平稳振荡,利用S-稳定性概念和矩阵测度,得到其存在平稳振荡的判据。  相似文献   

7.
研究了听觉感知系统对于动态语音特征的响应特点,在此基础上提出了半波差分频谱的概念,接着研究了半波差分谱对于汉语普通话声韵母的区分度,并通过一组非特定人全音节实验证实半波差分谱是一种优于差分倒谱的语音动态特性。  相似文献   

8.
电子收费系统项目用户满意度的模糊测评   总被引:1,自引:0,他引:1  
智能运输系统项目用户满意度的测度问题在国内至今尚属一个无人问津的课题.本文以电子收费系统(ETC)项目为研究对象,提出了基于感知质量的ETC项目用户满意度模糊测评模型,并通过基于交通仿真软件模拟设计的评价方案,测算出了在不同ETC装备车辆占有率情况下相应的用户满意度指数.该模型方法为国家和地方政府的交通运输部门深入了解ETC项目可能给用户带来的各方面影响提供定量支持.  相似文献   

9.
为了从服务学的视角准确考量公交系统运行服务的质量,本文基于交通调查和系统采集数据,通过统计分析解析了公交系统运行服务的过程和出行者出行的内在特性;基于对出行策略的定义,分析了出行者出行对时间、成本与体能消耗三方面的预算对其出行决策的影响;探讨了公交运行服务质量评价的系统边界,以价值、能耗与信息为基本维度,提出了评价公交运行服务质量的三维体系架构;最后分析提出三大预算对于从公交出行生理因素和心理过程两个基础层面揭示出行行为机理,是从乘客对服务感知视角对公交运行服务质量进行评价的更为客观有效的手段.  相似文献   

10.
为了从服务学的视角准确考量公交系统运行服务的质量,本文基于交通调查和系统采集数据,通过统计分析解析了公交系统运行服务的过程和出行者出行的内在特性;基于对出行策略的定义,分析了出行者出行对时间、成本与体能消耗三方面的预算对其出行决策的影响;探讨了公交运行服务质量评价的系统边界,以价值、能耗与信息为基本维度,提出了评价公交运行服务质量的三维体系架构;最后分析提出三大预算对于从公交出行生理因素和心理过程两个基础层面揭示出行行为机理,是从乘客对服务感知视角对公交运行服务质量进行评价的更为客观有效的手段.  相似文献   

11.
ANANALYSISOFACOUSTICCHARACTERISTICSOFCLEFTPALATESPEECHWITHCOMPUTERIZEDSPEECHSIGNALPROCESSINGSYSTEMLiJinfeng;LiuJianhua;(Depar?..  相似文献   

12.
研究了听觉感知系统对于动态语音特征的响应特点,在此基础上提出了半波差分频谱的概念,接着研究了半波差分谱对于汉语普通话声韵母的区分度,并通过一组非特定人全音节实验证实半波差分谱是一种优于差分倒谱的语音动态特性。  相似文献   

13.
为表征与量化人对路面冲击声的主观感受,首先,对减速带工况冲击非平稳噪声信号进行声时感知时长定义,同时根据人耳听声可辨性将声时历程分为冲击段、峰值段及衰减段;进而,以小波变换提取冲击噪声中的主冲击与多重微冲击特征信息,组成冲击声品质评价的基础特征阵;然后,类比峰值因子法定义频域滤波因子,并基于序关系分析法确定时变感知加权系数,组建时频滤波网络对基础特征阵加权且建立冲击声品质时频感知评价指标;最后,基于实车过减速带冲击噪声测试数据计算声品质指标,并进行对比验证.研究结果表明:所提时频感知加权评价指标与主观评价的相关系数在车速20 km/h时为0.927,在车速30 km/h时为0.922;在考虑路面冲击声声时历程全程评价时,经典的声品质评价指标(特征频带时变响度)与主观评价的相关系数在车速20 km/h时为0.933,在车速30 km/h时为0.649;所提时频感知加权评价方法对于车速为20 km/h与30 km/h的情况具有较好的适用性.  相似文献   

14.
@周志杰@胡光锐@李群IntroductionSpeechproductionisaccomplishedbyvariousacousticalexcitationsofthehumanvocaltract.Voicedspeechisgeneratedb...  相似文献   

15.
Thefractalmodeliseffectiveondescribingthenonlinearphenomenainspeechsignalsduetothefactthatthedynamicsofspeechproductionmaycre atesomedegreeofchaos[1 ] .Ithasbeenprovedthatwithinanutterance,thenoise likeconsonantshavehigherfractaldimensionsthanthemoreregularvowels.Thus,speechsignalscanbesegmentedac cordingtothechangesinthefractaldimensiontra jectories[2 ] .Windowsizeandslidingwindowstepareveryimportanttocalculatethefractaldimensiontrajecto ry .Ifthewindowsizeistoolarge ,therelativelyweakerfract…  相似文献   

16.
Parkinson's disease patients suffer from disorders of speech.The most frequently reported speech problems are weak,hoarse,nasal or monotonous voice,imprecise articulation,slow or fast speech,difficulty starting speech,impaired stress or rhythm,stuttering,and tremor.To improve the speech quality and assist the patient with speech rehabilitation therapy,we have proposed the speech recognition model for Parkinson's disease patients using transfer learning technique (PSTL),where we have pre-trained the long short-term memory (LSTM)neural network model with our developed publicly available dataset that has been obtained from healthy people through the social media platform.Then,we applied the transfer learning technique to improve the performance of the PSTL framework.The frequency spectrogram masking data augmentation method has been used to alleviate the over-fitting problem so that the word error rate (WER) is further reduced.Even with a limited dataset,our proposed model has effectively reduced the WER from 58% to 44.5% on the original speech dataset and 53.1% to 43% on the denoised speech dataset,which demonstrated the feasibility of our framework.  相似文献   

17.
IntroductionEndpointdetectionofspeechsignalisimportantinmanyareasofspeechprocessingtechnology,suchasspeechenhancement,speechr...  相似文献   

18.
IntroductionTo improve the robustness of recognition sys-tems in real environment,many theories and ap-proaches have been brought forward to suppressthe environmental noise ( background noise,chan-nel distortion,etc) ,and they can be divided intothree types according to their thoughts:speech en-hancement,robust feature vector and model com-position. The approach of speech enhancementconsiders extracting clean speech signal fromspeech signal corrupted by noise,typically as SSmethod[1] ( to supp…  相似文献   

19.
Image denoising is a classical problem in image processing. Its essential goal is to preserve the image features and to reduce noise effectively. The nonlocal means (NL-means) filter is a successful approach proposed in recent years due to its patch similarity comparison. However, the accuracy of similarities in this algorithm degrades when it suffers from heavy noise. In this paper, we introduce feature similarities based on a multi- channel filter into NL=means filter. The multi-bank based feature vectors of each pixel in the image are computed by convolving from various orientations and scales to Leung-Malik set (edge, bar and spot filters), and then the similarities based on this information are computed instead of pixel intensity. Experiments are carried out with Rician noise. The results demonstrate the superior performance of the proposed method. The wavelet-based method and traditional NL-means in term of both mean square error (MSE) and perceptual quality are compared with the proposed method, and structural similarity (SSIM) and quality index based on local variance (QILV) are given.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号