腾讯天籁AI音频技术“破圈”背后的“密码”

  近日,由 LiveVideoStack 举办的以“多媒体开启新视界”为主题的 LiveVideoStackCon 2020 北京站如期召开。作为多媒体技术领域的盛会,大会聚焦在音频、视频、图像等技术的最新探索与应用实践,覆盖教育、娱乐、医疗、安防、交通、制造、旅游、电商、金融、社交、游戏、智能设备、IC 等行业领域。会上,腾讯多媒体实验室专家研究员肖玮进行了《腾讯天籁:“下行最后一厘米” 音频体验提升》主题分享,重点介绍了腾讯天籁如何将经典信号处理技术与深度学习进行有机融合,围绕网络下行终端,提升音频体验。

腾讯多媒体实验室专家研究员肖玮

  腾讯天籁音频 AI 技术,打造端到端的音频通信体验

  年初的疫情黑天鹅事件,让数字通信手段成为了人与人沟通的重要手段,同时也对实时音视频通信的稳定性和通讯效果带来了极大考验。肖玮指出,为了解决实时音视频应用场景下的各种挑战,腾讯多媒体实验室围绕音频通信核心体验的技术和框架进行了多年的探索。在今年 9 月份举办的腾讯全球数字生态大会上,正式发布了“面向实时音视频应用的新一代实时音频技术品牌”——腾讯天籁。该解决方案旨在提供实时端到端音频通信的完整解决方案,致力于让用户在实时音视频会议时可以“听得见,听得清,听得真”。

  肖玮表示,RTC 场景复杂、处理链条长;每个节点均会影响用户的终极体验。然而,下行终端侧,是最接近于用户的终级体验的节点;如果进行合理的设计,可以非常高效地提升用户的终极体验。因此,腾讯天籁提出“下行最后一厘米”音频体验提升的概念,将经典的音频信号处理和深度学习技术结合,设计并实现了基于上下文分析的前向纠错、丢包补偿方案。信源侧单独可抗 40% 丢包率,整体方案可抗 80% 丢包率。用户在弱网环境下的通话体验可以获得极大保障。

  基于领先的腾讯天籁音频解决方案,腾讯天籁不仅可以让不同地点、场景、设备终端同时远程接入,让远程线上沟通更加高效,并且还扩展了实时音频的语音带宽。与传统 PSTN 电话音质相比,使用了腾讯天籁技术后的音频音质更加明亮、干净。同时,整套音频算法能力也进行了有针对性的优化,可以在用户多种客户端进行部署,最终提升了音频通信的可懂度、自然度、舒适度。

  此外,以腾讯会议为例,肖玮现场展示了基于深度学习的语音增强方案在真实场景中的增强效果。在长达两分钟的展示环节,分别演示了地铁站、菜市场、街道等多种噪声场景。在这些场景下,腾讯天籁基于深度学习语音增强方案均能提供高质量的处理效果,现场展示获得现场观众的广泛关注。

  另一方面,肖玮强调了端到端质量评价和认证体系的建立,对 RTC 场景下的体验提升也是非常关键的。截止目前,腾讯多媒体实验室已经建立了完整的端到端通话质量评价和认证体系。借助这一体系,腾讯天籁品牌下的各种技术,在产品落地前,均要通过该体系的严格测试。此外,在技术的研发过程中,该体系的测试结果,可以给研究人员提供非常重要参考信息,用于方案的打磨和优化。

  从技术到公益,腾讯天籁“技术外溢”的产品力

  目前,腾讯天籁已经在腾讯会议、腾讯云、全民K歌、微视等腾讯内外部产品、场景中广泛应用落地,并助力相关应用在音视频体验方面取得了良好的用户口碑。

  不仅如此,在腾讯的一些无障碍项目交流当中,腾讯多媒体实验室的团队成员们了解到听障人士即使佩戴了人工耳蜗,在机场、商场等比较嘈杂的公共环境中,依然面临“听不清”的困扰。基于此,腾讯多媒体实验室联合国内最大的人工耳蜗厂商之一—诺尔康(Nurotron)一起展开相关讨论和研究,经过长达半年的技术验证,从架构上最终确定了“手机伴侣+人工耳蜗”的联合解决方案。通过多种技术的优化和整合,实现了语音清晰度和可懂度提升 40% 的效果。经过提升后的信号,传递给人工耳蜗后,可以极大改善听障人士的听觉体验,让听障人士在“听得见”的基础上“听得清、听得真”。

  9 月 27 日国际聋人日之际,腾讯多媒体实验室联合腾讯公益慈善基金会、深圳市信息无障碍研究会等机构召开发布会,宣布发起“天籁行动”,通过面向公益开发者、设备厂商、NGO 及行业免费开放腾讯天籁 AI 音频技术,帮助听障人群解决“听不清”难题,并邀请歌手周深作为公益大使,呼吁全社会关注听障人士身心康复,构建信息无障碍环境。

腾讯天籁行动发布

  值得一提的是,天籁行动并不是一次“普通”的公益实践,而是腾讯基于“科技向善”的愿景,进行体系化、持续性建设的科技公益落地。其背后的驱动机制,正是腾讯技术积累的“技术外溢”,以及技术快速场景化落地的强大产品力。

  作为腾讯旗下顶尖的音视频通信和处理研发团队,腾讯多媒体实验室致力于实时音视频通信、音视频编解码前沿算法研究、音视频国际标准、计算机视觉图像处理、端到端音视频质量评测。其中,天籁技术是其经验和技术能力积累重要成果之一。

  在 5G 浪潮下,多媒体的技术和形式不断发生改变,高效率低延迟的传输带来了更丰富的落地场景。未来,腾讯天籁音频技术也将会加速接入腾讯旗下金融、政务、教育等行业场景下的实时音视频需求,让更多更丰富的场景落地,为用户带来极具 5G 时代色彩的沉浸式体验。

共有 0 条评论

Top