期刊名称:人工智能
创刊时间:2017年12月
主管单位:工业和信息化部
主办单位:中国电子信息产业发展研究院、赛迪工业和信息化研究院(集团)有限公司
刊期:双月刊
国内统一连续出版物号:CN 10-1530/TP
国际标准连续出版物号:ISSN 2096-5036
邮发代号:80-381
电话:010-88558766
邮箱:aiview@ccidmedia.com


专题序言

  • 专题序言

    刘聪;

    <正>人工智能是引领新一轮科技革命和产业变革的战略性技术,也是发展新质生产力的主阵地,已成为推动我国科技跨越发展、产业优化升级、生产力整体跃升的核心引擎。智能交互是万物互联时代的重要标志,以语音为主,以键盘触摸为辅,以肢体语言动作为补充的自然人机交互时代正在到来。以GPT-4o为代表,智能交互已初步实现语音、视觉等多模态实时交互,这不仅是技术的进步,更是用户体验的一次飞跃。

    2024年03期 0页 [查看摘要][在线阅读][下载 742K]

专题:多模态交互

  • 基于多尺度自适应注意力机制的视听语音分离

    吴亮;王甲祥;施汉琴;郑爱华;盛小飞;

    在混合音频分离过程中,通常使用与音频信息相关的视觉信息引导混合音频分离,这些视觉信息包含人脸图像、嘴唇运动和面部地标等,目前的方法对这些视觉信息的利用还不充分,并且音频信息和对应的视觉信息之间的关联性较弱。本工作设计了一种基于多尺度自适应注意力机制的视听语音分离网络,该网络联合人脸图像、嘴唇运动和面部地标这些视觉信息引导混合音频进行分离,并设计了一种交叉注意融合模块,该模块可以融合嘴唇运动特征和面部地标特征以得到增强且互补的视觉表示。此外,音频信息和视觉信息之间的相关性较弱,本文还设计了一种多尺度自适应注意力机制,并将其加入语音分离网络解码器中,使音频信息和对应的视觉信息更好地相互关联。实验结果验证了该方法的有效性。

    2024年03期 1-14页 [查看摘要][在线阅读][下载 1707K]
  • 多模态虚拟人交互的技术进展和应用

    殷兵;周良;何山;殷保才;胡金水;刘聪;卫萌;

    随着人工智能技术的飞速发展,以虚拟人为载体的人机交互方式被认为是5G+AI时代的新一代交互方式。本文综述了虚拟人交互技术的发展历程,并从多模态交互的感知、认知和表达三个阶段分别介绍科大讯飞相关技术进展,包括多模态语音识别的多模感知技术、基于知识学习的对话生成技术、基于认知大模型的认知智能技术,以及包含SMART-TTS和虚拟人动作合成的多维表达技术。此外,还介绍了科大讯飞虚拟人交互平台自发布以后在媒体、教育、文旅等行业应用情况。最终,本文认为多模态虚拟人交互技术需要向情感化、拟人化、个性化不断发展,持续带来更好的交互体验。

    2024年03期 15-26页 [查看摘要][在线阅读][下载 1046K]
  • 基于大模型的多模态具身智能研究与展望

    汪群博;刘静;

    随着大模型展现出越来越强大的通用知识和多模态能力,其可以更好地处理信息和决策推理,将大模型应用到物理世界中成为实现通用人工智能的一个重要发展方向。具身智能目标让智能体能够在物理世界中进行感认知与环境交互,以及自主学习与决策。近期,越来越多的研究团队使用大模型赋能机器人以提高具身智能系统的智能能力,为具身智能的发展提供了全新思路。相比传统方法,这些具身智能系统让机器人更加地像人一样在物理世界中进行行动。因此,具身智能有望引领人工智能(AI)的下一个浪潮。

    2024年03期 27-35页 [查看摘要][在线阅读][下载 1233K]
  • 基于多模态波束方向特征的多模语音分离及识别

    屠彦辉;霍伟明;高建清;王海坤;马峰;殷兵;王瑞;付中华;樊其锋;

    最近,研究人员开始探索不同模态之间的互补关系。由于视频信息对背景噪声和干扰说话者的自然免疫性,已经开发了音频-视觉语音分离技术。本文提出了一种基于多模态语音活动检测(Voice Activity Detection,VAD)和波束形成器的多模态波束方向特征(Multi-Modal Beamformed Directional Feature,MMBDF)。由于多模态VAD模型的鲁棒性,该特征可以提供目标说话者的鲁棒位置信息。此外,本文还提出了MMBDF的在线版本,以提高说话者移动时的性能。本文使用语音识别器性能作为评估指标,假设语音识别器是一个黑盒。模拟和真实数据集上的实验结果也证明了提出的多模态方向特征的有效性。

    2024年03期 36-44页 [查看摘要][在线阅读][下载 1181K]
  • 多模态情感对话技术:研究综述与发展趋势

    吴江照;李伟;张其隆;劳春峰;王喆;喻建琦;

    本文围绕人机交互系统中使用的多模态情感对话技术展开。为提供更高质量的用户体验和更人性化的服务,对话系统的应用不仅需要满足基本功能,还需要满足情感的感知、分析、整理和调整能力。在对话系统中处理情感可以减少对话障碍,促进用户更积极地参与对话。目前,情感对话任务可以分为对话情绪感知和情感对话生成两个子任务。前者侧重于对话中情感的分类,而后者专注于生成带有情感色彩的回复。特别地,多模态情感融合旨在通过整合来自不同模态的信息提高情感的感知准确性,是情感对话技术的重要方向。本文将针对多模态情感识别和对话生成任务进行广泛地研究与深入地探讨。

    2024年03期 45-56页 [查看摘要][在线阅读][下载 1428K]
  • 基于深度学习的音视频语音识别技术回顾与展望

    张景宣;万根顺;

    音视频语音识别旨在基于语音以及对应唇形视频输入识别语音的文本内容信息。音视频语音识别技术在噪声场景下可以有效地提升语音识别的准确率,因而其具有广泛的应用前景。本文聚焦深度学习框架下的音视频语音识别技术,总结音视频语音识别的发展现状。具体而言,本文针对音视频语音识别的端到端框架、唇形表征提取、音视频融合模块的相关研究进行回顾。除此之外,本文还对音视频语音识别的学习范式,包括有监督学习、自监督学习,以及半监督学习的相关研究进行了总结。进一步地,本文对音视频语音识别当前面临的挑战进行分析,并对未来的研究方向进行展望。

    2024年03期 57-66页 [查看摘要][在线阅读][下载 1105K]

综述分析

  • 人工神经网络在质谱领域的应用研究进展

    郭海谦;周航;刘培;徐燕;邱凯贤;武寒梅;秦玲;

    质谱分析作为关键分析技术,在多个领域具有广泛应用。与此同时,人工神经网络可利用计算机模拟大脑的认知过程,在处理大数据、分类和识别等方面展现出显著优势。随着计算机处理能力的提升和算法的发展,人工神经网络已广泛应用于各个学科领域,尤其在化学领域取得了突破性进展。本文对理解人工神经网络在质谱领域的应用提供了基本信息,讨论了人工神经网络在处理化学数据集及质谱数据的潜力。人工神经网络在化学质谱分析中的应用仍面临一些挑战,但其前景广阔,为复杂样品分析提供了新的思路。针对这些问题,通过描述化学信息的不断丰富和算法的不断优化,人工神经网络在化学质谱领域的应用将会取得更加显著的进展。

    2024年03期 67-76页 [查看摘要][在线阅读][下载 1015K]

应用实践

  • 基于深度学习的风机叶片缺陷识别

    张永贺;吴砚辉;马本言;霍道明;李鉴衡;魏巍;

    本研究提出了一种基于深度学习的风机叶片缺陷识别方法,旨在提高风机维护效率和可靠性。方法包括数据采集与预处理、多特征融合残差网络设计、损失函数定义、迁移学习,以及实验验证等步骤。实现了对风机叶片缺陷的高效识别,通过对模型的时间性能和F1分数的比较,实验结果表明,多特征融合残差网络在计算效率和识别性能方面都具有显著优势。该方法为风机叶片巡检提供了有力的技术支撑。

    2024年03期 77-84页 [查看摘要][在线阅读][下载 1044K]

思考与探讨

  • 我国AI大模型数据集建设发展刍议

    张文娟;邓辉;艾政阳;唐彬;

    伴随生成式人工智能技术的加速演进,以大语言模型为代表的新兴技术已成为全球科技竞争的新高地、未来产业的新赛道、经济发展的新引擎。当前,我国正处于发展新质生产力的战略机遇期,作为新质生产力的核心关键技术,人工智能技术是否能够得到充分发展,数据是必不可少的关键要素。然而,当前中文领域数据的种种不足也给我国生成式人工智能技术发展带来种种挑战。本文旨在深入分析当前我国AI大模型数据集建设中具备的有利条件以及面临的突出问题,结合当前政府和企业的应对举措,提出适应我国AI发展需要的对策建议。

    2024年03期 85-95页 [查看摘要][在线阅读][下载 900K]
  • ChatGPT参与论文写作对学术伦理的挑战与防范

    王朝晖;冯中姝;

    生成式人工智能正在为学术界带来一场深刻变革。在海量数据基础和强大算力的技术支持下,生成式人工智能参与论文写作,在传统科研方法的基础上进一步创新,但也产生不少学术伦理方面的挑战,包括学术研究科学性待考量、学术诚信遭质疑、学术成果所有权难界定等问题。为了加强学术伦理道德建设,坚守诚实、负责和公正的基本原则,本文提出相关措施以防范ChatGPT为代表的生成式人工智能参与学术论文写作,包括技术监测、提升透明度、完善考核制度等,使学术研究在新的技术背景下合宜有效进行,并获得社会的信赖与支持。

    2024年03期 96-102页 [查看摘要][在线阅读][下载 835K]
  • 下载本期数据