期刊名称:人工智能
创刊时间:2017年12月
主管单位:工业和信息化部
主办单位:中国电子信息产业发展研究院、赛迪工业和信息化研究院(集团)有限公司
刊期:双月刊
国内统一连续出版物号:CN 10-1530/TP
国际标准连续出版物号:ISSN 2096-5036
邮发代号:80-381
电话:010-88558766
邮箱:aiview@ccidmedia.com


专题序言

  • 专题序言

    凌震华;

    <正>以科技创新催生新产业、新模式、新动能,是发展新质生产力的核心要素。智能语音技术作为人工智能重要组成部分,正逐渐发展成为新质生产力的关键引擎和显著标志之一。智能语音技术旨在通过信号处理、模式识别、深度学习等技术手段,赋予机器像人一样听、说、理解人类语音的能力,在人机之间构建起自然且直接的交互桥梁。当前,智能语音技术正在以前所未有的深度及广度渗透至社会生产各个环节,催生出一系列全新的产品形态(如智能音箱、虚拟主播等)、服务模式(如智能客服、智能翻译等)和产业形态(如语音内容创作、语音安全认证等)。

    2025年05期 0页 [查看摘要][在线阅读][下载 526K]

专题:智能语音

  • 智能语音技术在构音障碍方向的研究进展与趋势

    赵欣然;刘柏;刘小康;吴锡欣;燕楠;王甦菁;

    构音障碍是一种由中枢或者外周神经系统受损引发的言语障碍,往往伴随着发音混乱、发音错误、声音忽大忽小,以及音调失常等情况,导致构音障碍者的语音很难被他人听清,从而极大地影响到他们与社会之间的交流。近年来,智能语音技术慢慢走进了人们的生活。怎样利用智能语音技术助力构音障碍患者更好地融入社会,而不是造成更多的技术障碍,这应当是亟需解决的问题。本文首先论述构音障碍的疾病种类及其声学特征,其次阐述如何评定构音障碍的严重程度,再次介绍有关构音障碍语音识别、语音修复与语言合成的关键技术发展情况,针对标注数据缺乏、个体差异较大这些主要难点,提出自监督学习、多模态信息融合等解决办法,最后对未来智能语音技术在构音障碍领域的发展走向作出预测,期望给构音障碍领域的语音技术革新以及项目落地等提供一些理论支撑和参照。

    2025年05期 1-19页 [查看摘要][在线阅读][下载 767K]
  • 跨域说话人验证技术综述

    潘中甲;吴恒;陈永鑫;洪青阳;李琳;

    跨域说话人验证是在训练域及测试域存在分布差异的条件下进行的说话人身份验证任务。在当前深度学习技术飞速发展的时代背景下,说话人验证系统在匹配域的条件下已取得显著进展,但在面临域间差异时,系统性能往往会出现大幅下降的情况。本综述系统梳理了跨域说话人验证的主要研究进展,介绍了针对不同跨域场景中问题的具体解决方法,如基于对抗学习的特征解耦方法、ADDA(Adversarial Discriminative Domain Adaptation)方法、CORAL++算法、双模型自正则化等,并且分析了这些方法在对应场景中的优劣。通过对不同场景下代表性方法的深入分析,阐述其技术原理、实验设计和性能表现。最后,本文展望了跨域说话人验证领域的未来发展方向,为相关研究提供参考。

    2025年05期 20-34页 [查看摘要][在线阅读][下载 975K]
  • 语音音色属性检测方法研究——基于首届NCMMSC2025-VTAD挑战赛的案例分析

    陈丽萍;何靖豪;盛峥彦;李功益;凌震华;

    本文聚焦于语音信号中所含音色信息的可解释性,并提出了一项名为语音音色属性检测(voice Timbre Attribute Detection,v TAD)任务,该任务定义了一组基于人类感知的音色描述属性,给定一对来自不同话者的语音段,并指定一个音色属性,比较两段语音在此属性上的强度。基于此任务,我们组织了第一届语音音色属性检测挑战赛,并搭建了一个基线系统。该系统采用预训练话者编码器提取特征,并由一个Diff-Net模块对特征进行比较判别。实验结果表明,采用FACodec作为前端编码器的系统在未见场景下展现出显著优于ECAPA-TDNN的性能与泛化能力,平均准确率达到90.77%。此外,本文通过对挑战赛多种先进方法的系统性总结,得出结论:选择能够有效解耦话者身份信息的预训练模型是实现强泛化性的关键;设计精巧的后端网络以深度建模话者表征间的交互关系,是提升性能的核心;模型复杂性需在已见、未见场景的性能之间进行权衡。本文工作为语音音色属性的量化比较及可解释性研究提供了新的范式与见解。

    2025年05期 35-45页 [查看摘要][在线阅读][下载 1005K]
  • 融合相位估计的声码器语音增强算法

    张雯;江文斌;吴开颖;张杨;蔡轩昊;

    语音增强的主要目标是从含噪语音中提取干净的语音。近年来,声码器技术在语音增强中广泛应用,提高了增强语音的质量。现有的方法一般生成增强后的梅尔频谱图,通过声码器合成增强的语音,但这种方法通常只优化幅度而忽略了相位信息,导致重建语音质量受限。针对这一问题,本文提出了一种融合声码器技术与相位估计技术的语音增强算法,实现了端i到端的相位信息优化。实验结果表明,在VoceBank+DEMAND数据集上,PPVNet模型在...PESQ、STOI和SI-SNR指标上分别达到304、087和1731,显著优于基线模型,当去除相.位分支后,模型的PESQ指标下降至266,验证了相位优化对语音增强的关键作用。

    2025年05期 46-53页 [查看摘要][在线阅读][下载 644K]
  • 结合信号处理与神经网络的回声消除研究

    詹宗毅;洪青阳;李琳;

    多样化终端与复杂声学环境对声学回声消除(AcoustcEchoCanceaton,AEC)系统的性能与效率提出更高需求,而当前优秀的解决方案常伴随大量计算资源消耗。针对该问题,本文提出一个两阶段的回声消除框架:首先应用Speex自适应滤波器抑制线性回声;其输出信号被送入一个轻量级神经网络,以进一步消除非线性残余回声。在ICASSP2023AEC ll.Chaenge盲测集上的实验结果表明,本文提出的方案(Speex+AEC&NS)在仅需012GMACs.的极低计算量下,取得了311的综合平均意见分(MOSAvg),该分数优于级联式处理方案,..(AEC→NSMOSAvg307)和不含Speex的端到端方案(MOSAvg309)。这一结果证明了该方案在具备极低计算量的同时,在回声抑制与近端语音保真度之间也实现了最优的平衡。

    2025年05期 54-62页 [查看摘要][在线阅读][下载 645K]

技术研究

  • 结合对比学习的GhostNet-BiLSTM加密流量分类方法研究

    向瑜;葛继科;凌劲;王子宁;何明坤;

    随着互联网流量增加与加密技术发展,加密流量的识别和分类对于网络安全至关重要。深度学习为网络流量分析提供了新的解决方法,但对加密流量数据潜在交互模式的特征提取不充分,对加密流量的分类精度欠佳。为了解决以上问题,本文提出了一种结合对比学习的i i GhostNet-BLSTM加密流量分类方法,GhostNet提取流量像素矩阵的空间特征,BLSTM对映射到稠密空间的流量字节提取时序特征,将空间特征与时序特征融合后进行对比优化,再输入到softmax分类器实现最终分类。实验在数据集ICSXVPN-nonVPN2016上进行验证,..与现有方法相比,本文方法分类准确度平均提高了35%,精确度平均提高了58%,分类精.度平均提高了473%。本文结合了自然语言处理对流量字节进行扩维提高了对流量数据的上下关联的捕获能力,将空间和时序特征融合增强了算法鲁棒性和泛化能力,利用了不同模态的信息全面地描述数据特征,通过对比学习提高模型的特征提取能力,最终达到了提升加密流量分类能力和泛化能力的目的。

    2025年05期 63-71页 [查看摘要][在线阅读][下载 1100K]

探索与创新

  • 企业流程计算新方法:多智能体协同的流程可计算性建模

    李盛;葛佳琪;李刚;李汶东;

    大模型与智能体(Agent)在企业端的应用场景愈加广泛,特别是与企业流程结合的场景。但当前对多智能体协同下的企业流程的量化建模方法比较匮乏。本文提出一种融合形式化建模的新方法,以推动多智能体协同的企业流程由自动化向自治化演进。本文基于图灵完备性理论,创新性地将多智能体协同下的企业流程抽象为可计算系统。研究根据AG六因子分析模型对流程动作进行向量化编码,并设计统一的可行性评估函数实现AI介入的多维量化判定。在此基础上,构建了从动作—智能体分配优化、通信约束建模到成熟度指标映射的系统性计算框架,结合企业流程智能化五级成熟度模型,实现智能进程可度量管理。以某医药企..业合规流程为案例验证,该方法使企业成熟度从031提升至044,成功实现从L2(人机协作)向L3(智能执行)的实质性跃迁。本方法为构建自治式多智能体流程计算平台提供理论工具链,其创新性可扩展至制造、金融等领域,显著加速企业数智化转型进程。

    2025年05期 72-86页 [查看摘要][在线阅读][下载 778K]
  • 基于太赫兹时域光谱技术与BO-SVM的岩性分类方法研究

    杨海龙;李语燕;李太福;

    在油气勘探中,岩性的准确分类是一项既基础又极为重要的环节,但是现今传统的岩性分类方法通常是一些物理和化学分析方法,具有很大的局限性。太赫兹光谱具有非破坏性和高穿透率的特点,在岩性分类中展示出了很大的潜力。本文主要选用了五类较为常见的沉积岩(页岩、石灰岩、三种不同产地的红砂岩)作为实验样本,通过太赫兹时域光谱技术(THz-TDS)获得样本的时域光谱数据,并进行快速傅立叶变换以获得频域光谱。再通过提取的光学参数(折射率谱和吸收系数谱)展示出岩石的特征差异。本文以支持向量机(SVM)分类模型为基础,通过正则化、交叉验证和贝叶斯超参数优化提升模型的性能,同时对比了PLS-DA、DNN、逻辑回归和KNN等一些常见的分类方法。其中,BO-SVM模型在四种类型.光谱数据的分类精度都达到了09以上,对比其他的分类方法,展现出了优异的分类效果。本文为岩性的准确分类提供了全新的技术方案,为太赫兹时域光谱技术在油气勘探中的应用奠定了良好的理论基础。

    2025年05期 87-95页 [查看摘要][在线阅读][下载 922K]

思考与探讨

  • 脑机接口风险的刑法规制研究

    张怡辰;刘夏;

    脑机接口(BCI)作为人机交互的革新性突破,在医疗、司法等领域的应用日益广泛,但其引发的法律风险亦呈现多元化、复杂化特征。本研究剖析脑机接口的安全与伦理风险,聚焦刑法规制困境:人机混合体的主体地位模糊导致刑事责任能力认定困难;传统“行为”内涵难以涵盖神经信号操控行为;事故责任因技术复杂性而难以归属,并对此提出规制路径:首先,主张构建以精神隐私权、精神完整权和自主决策权为核心的神经权利法益体系,为法律保护脑机接口受损奠定理论基础;其次,通过分析自然人的本质属性,明确人机混合体作为“自然人”的刑事主体地位,通过法教义学将神经信号操控纳入“行为”范畴,以证明BCI下的犯罪行为具备刑事可罚性;再次,应当以用户对设备的控制力确定事故责任承担范围,提出根据信息传输方向差异化确定事故发生的归责原则;最后,针对相关事故诉讼问题,提出“同时建立医疗型和增强型分类的监管机制”“主观思维数据未经当事人同意不得成为证据”“技术方举证责任倒置”的完善建议。

    2025年05期 96-108页 [查看摘要][在线阅读][下载 648K]
  • 下载本期数据