- 赵欣然;刘柏;刘小康;吴锡欣;燕楠;王甦菁;
构音障碍是一种由中枢或者外周神经系统受损引发的言语障碍,往往伴随着发音混乱、发音错误、声音忽大忽小,以及音调失常等情况,导致构音障碍者的语音很难被他人听清,从而极大地影响到他们与社会之间的交流。近年来,智能语音技术慢慢走进了人们的生活。怎样利用智能语音技术助力构音障碍患者更好地融入社会,而不是造成更多的技术障碍,这应当是亟需解决的问题。本文首先论述构音障碍的疾病种类及其声学特征,其次阐述如何评定构音障碍的严重程度,再次介绍有关构音障碍语音识别、语音修复与语言合成的关键技术发展情况,针对标注数据缺乏、个体差异较大这些主要难点,提出自监督学习、多模态信息融合等解决办法,最后对未来智能语音技术在构音障碍领域的发展走向作出预测,期望给构音障碍领域的语音技术革新以及项目落地等提供一些理论支撑和参照。
2025年05期 1-19页 [查看摘要][在线阅读][下载 767K] - 潘中甲;吴恒;陈永鑫;洪青阳;李琳;
跨域说话人验证是在训练域及测试域存在分布差异的条件下进行的说话人身份验证任务。在当前深度学习技术飞速发展的时代背景下,说话人验证系统在匹配域的条件下已取得显著进展,但在面临域间差异时,系统性能往往会出现大幅下降的情况。本综述系统梳理了跨域说话人验证的主要研究进展,介绍了针对不同跨域场景中问题的具体解决方法,如基于对抗学习的特征解耦方法、ADDA(Adversarial Discriminative Domain Adaptation)方法、CORAL++算法、双模型自正则化等,并且分析了这些方法在对应场景中的优劣。通过对不同场景下代表性方法的深入分析,阐述其技术原理、实验设计和性能表现。最后,本文展望了跨域说话人验证领域的未来发展方向,为相关研究提供参考。
2025年05期 20-34页 [查看摘要][在线阅读][下载 975K] - 陈丽萍;何靖豪;盛峥彦;李功益;凌震华;
本文聚焦于语音信号中所含音色信息的可解释性,并提出了一项名为语音音色属性检测(voice Timbre Attribute Detection,v TAD)任务,该任务定义了一组基于人类感知的音色描述属性,给定一对来自不同话者的语音段,并指定一个音色属性,比较两段语音在此属性上的强度。基于此任务,我们组织了第一届语音音色属性检测挑战赛,并搭建了一个基线系统。该系统采用预训练话者编码器提取特征,并由一个Diff-Net模块对特征进行比较判别。实验结果表明,采用FACodec作为前端编码器的系统在未见场景下展现出显著优于ECAPA-TDNN的性能与泛化能力,平均准确率达到90.77%。此外,本文通过对挑战赛多种先进方法的系统性总结,得出结论:选择能够有效解耦话者身份信息的预训练模型是实现强泛化性的关键;设计精巧的后端网络以深度建模话者表征间的交互关系,是提升性能的核心;模型复杂性需在已见、未见场景的性能之间进行权衡。本文工作为语音音色属性的量化比较及可解释性研究提供了新的范式与见解。
2025年05期 35-45页 [查看摘要][在线阅读][下载 1005K] - 张雯;江文斌;吴开颖;张杨;蔡轩昊;
语音增强的主要目标是从含噪语音中提取干净的语音。近年来,声码器技术在语音增强中广泛应用,提高了增强语音的质量。现有的方法一般生成增强后的梅尔频谱图,通过声码器合成增强的语音,但这种方法通常只优化幅度而忽略了相位信息,导致重建语音质量受限。针对这一问题,本文提出了一种融合声码器技术与相位估计技术的语音增强算法,实现了端i到端的相位信息优化。实验结果表明,在VoceBank+DEMAND数据集上,PPVNet模型在...PESQ、STOI和SI-SNR指标上分别达到304、087和1731,显著优于基线模型,当去除相.位分支后,模型的PESQ指标下降至266,验证了相位优化对语音增强的关键作用。
2025年05期 46-53页 [查看摘要][在线阅读][下载 644K] - 詹宗毅;洪青阳;李琳;
多样化终端与复杂声学环境对声学回声消除(AcoustcEchoCanceaton,AEC)系统的性能与效率提出更高需求,而当前优秀的解决方案常伴随大量计算资源消耗。针对该问题,本文提出一个两阶段的回声消除框架:首先应用Speex自适应滤波器抑制线性回声;其输出信号被送入一个轻量级神经网络,以进一步消除非线性残余回声。在ICASSP2023AEC ll.Chaenge盲测集上的实验结果表明,本文提出的方案(Speex+AEC&NS)在仅需012GMACs.的极低计算量下,取得了311的综合平均意见分(MOSAvg),该分数优于级联式处理方案,..(AEC→NSMOSAvg307)和不含Speex的端到端方案(MOSAvg309)。这一结果证明了该方案在具备极低计算量的同时,在回声抑制与近端语音保真度之间也实现了最优的平衡。
2025年05期 54-62页 [查看摘要][在线阅读][下载 645K]
- 李盛;葛佳琪;李刚;李汶东;
大模型与智能体(Agent)在企业端的应用场景愈加广泛,特别是与企业流程结合的场景。但当前对多智能体协同下的企业流程的量化建模方法比较匮乏。本文提出一种融合形式化建模的新方法,以推动多智能体协同的企业流程由自动化向自治化演进。本文基于图灵完备性理论,创新性地将多智能体协同下的企业流程抽象为可计算系统。研究根据AG六因子分析模型对流程动作进行向量化编码,并设计统一的可行性评估函数实现AI介入的多维量化判定。在此基础上,构建了从动作—智能体分配优化、通信约束建模到成熟度指标映射的系统性计算框架,结合企业流程智能化五级成熟度模型,实现智能进程可度量管理。以某医药企..业合规流程为案例验证,该方法使企业成熟度从031提升至044,成功实现从L2(人机协作)向L3(智能执行)的实质性跃迁。本方法为构建自治式多智能体流程计算平台提供理论工具链,其创新性可扩展至制造、金融等领域,显著加速企业数智化转型进程。
2025年05期 72-86页 [查看摘要][在线阅读][下载 778K] - 杨海龙;李语燕;李太福;
在油气勘探中,岩性的准确分类是一项既基础又极为重要的环节,但是现今传统的岩性分类方法通常是一些物理和化学分析方法,具有很大的局限性。太赫兹光谱具有非破坏性和高穿透率的特点,在岩性分类中展示出了很大的潜力。本文主要选用了五类较为常见的沉积岩(页岩、石灰岩、三种不同产地的红砂岩)作为实验样本,通过太赫兹时域光谱技术(THz-TDS)获得样本的时域光谱数据,并进行快速傅立叶变换以获得频域光谱。再通过提取的光学参数(折射率谱和吸收系数谱)展示出岩石的特征差异。本文以支持向量机(SVM)分类模型为基础,通过正则化、交叉验证和贝叶斯超参数优化提升模型的性能,同时对比了PLS-DA、DNN、逻辑回归和KNN等一些常见的分类方法。其中,BO-SVM模型在四种类型.光谱数据的分类精度都达到了09以上,对比其他的分类方法,展现出了优异的分类效果。本文为岩性的准确分类提供了全新的技术方案,为太赫兹时域光谱技术在油气勘探中的应用奠定了良好的理论基础。
2025年05期 87-95页 [查看摘要][在线阅读][下载 922K]