腾讯多媒体实验室:让腾讯天籁“下行最后一厘米”,聚焦打造端到端音频通信体验

发布时间:2022年07月23日
       腾讯多媒体实验室专家研究员肖薇利用腾讯天籁音频AI技术打造了端到端的音频交流体验。年初的疫情黑天鹅事件, 让数字通信方式成为人与人之间重要的交流方式, 实时音视频交流也很重要。稳定性和沟通效果带来了极大的考验。肖伟指出, 为了解决实时音视频应用场景中的各种挑战, 腾讯多媒体实验室多年来一直在探索音频通信核心体验的技术和框架。在今年9月举行的腾讯全球数字生态大会上,

面向实时音视频应用的新一代实时音频技术品牌腾讯天籁正式发布。该解决方案旨在为实时端到端音频通信提供完整的解决方案, 致力于让用户在实时音视频会议中听得见、清晰、真实。
       肖伟表示, RTC场景复杂, 处理链条长;每个节点都会影响用户的体验。
       但是, 下行终端侧是最接近用户最终体验的节点;如果设计合理,

可以非常有效地提升用户体验。因此, 腾讯天籁提出了提升下行最后一厘米音频体验的概念。它结合经典的音频信号处理和深度学习技术, 设计并实现了基于上下文分析的前向纠错和丢包补偿方案。源端单独可以抵抗40%的丢包率, 整体方案可以抵抗80%的丢包率。可以极大地保证用户在弱网环境下的通话体验。基于腾讯天籁音频解决方案, 腾讯天籁不仅可以制作不同的地点、场景、设备终端同时远程接入, 使远程在线交流更加高效, 同时也扩大了实时音频的语音带宽。与传统PSTN电话音质相比, 使用腾讯天籁技术后的音频音质更加明亮、干净。同时, 整套音频算法能力也进行了针对性的优化, 可以部署在多种用户客户端, 最终提升音频交流的可懂度、自然度和舒适度。此外, 肖薇以腾讯会议为例, 演示了基于深度学习的语音增强解决方案在真实场景中的增强效果。在两分钟的演示环节中, 演示了地铁站、菜市场、街道等各种噪声场景。在这些场景中, 腾讯天籁基于深度学习的语音增强解决方案能够提供高质量的处理效果, 现场展示受到了观众的广泛关注。另一方面, 肖伟强调建立端到端的质量评估和认证体系, 这对于提升RTC场景的体验也很关键。
       截至目前, 腾讯多媒体实验室已经建立了完整的端到端通话质量评估和认证体系。借助这套系统, 腾讯天籁品牌下的各项技术,

在产品上市前, 都必须通过系统的严格测试。此外, 在技术研发过程中, 系统的测试结果可以为研究人员对程序的打磨和优化提供非常重要的参考信息。从科技到公益, 腾讯天籁技术外溢的产品力 目前, 腾讯天籁已广泛应用于腾讯会议、腾讯云、全民K歌、微视等腾讯内外部产品和场景。, 并帮助相关应用在音视频体验方面取得了良好的用户口碑。
       不仅如此, 在腾讯一些无障碍项目的交流中, 腾讯多媒体实验室的团队成员了解到, 即使听障人士佩戴人工耳蜗, 在机场、购物等嘈杂的公共环境中, 依然面对听不见的人。商场。困扰。基于此, 腾讯多媒体实验室与国内人工耳蜗厂商之一的诺尔创展开了相关的探讨和研究。经过半年的技术验证, 最终在架构上确定了手机伴侣人工耳蜗的联合方案。通过各种技术的优化和整合, 实现了语音清晰度和可懂度提升40%。
       增强后的信号传输到人工耳蜗后, 可以大大提高听障者的听力体验, 让听障者在听力的基础上, 听得清清楚楚、真实地听到。 9月27日国际聋人日之际, 腾讯多媒体实验室联合腾讯慈善基金会、深圳市信息无障碍研究会等组织召开新闻发布会, 宣布天籁行动启动。以及行业免费的腾讯天籁AI音频技术帮助听障人士解决听不懂的问题, 并邀请歌手周深担任公益大使, 呼吁全社会关注听力的身心康复——残疾人, 构建无障碍信息环境。腾讯天籁行动发布 值得一提的是,

天籁行动不是普通的公益实践, 而是腾讯本着科技向善的愿景, 进行系统、持续建设的科技公益项目。土地。其背后的驱动机制是腾讯技术积累的技术溢出, 以及技术快速、场景化落地的强大产品力。作为音视频通信与处理R