杏鑫娱乐手机版登录链接_一群工程师，让听障群体“看见”了声音

分类：杏鑫谘询
发表：2022-04-13
围观(383)
评论(0)

　　鱼羊发自凹非寺

　　量子位报道公众号 QbitAI

　　看到这样一张图，你是否会露出“暴露年龄”的会心一笑？

一群工程师，让听障群体“看见”了声音

　　电脑还只有 dos 系统的年代仿佛还没过去多久，智能手机却已俨然成为在现代社会中生活的标配。

　　科技的进步，无疑给大多数人的生活带来了便利。但其高速的发展，却也不免带来了这样一个问题：

　　如果有人跟不上技术发展的节奏，怎么办？

这其实就是技术人员要做的事，让弱势群体也能够感受到科技的温度。

　　有人给出了这样的答案，并且就在最近，身体力行实践了这句话——

　　把 AI 实时字幕，带进了中国聋人协会的手语课堂。

　　不一样的课堂

　　疫情期间，上网课成为了一种常态。对于经常为听障人群组织培训、会议的中国聋人协会而言，这种线上远程开会、上课的需求也越来越多。

　　问题是，对于听障人士而言，这样的工作、学习方式天然存在着种种障碍。

　　视频没有字幕，就是其中一种。

　　虽然很大一部分聋人群体，能在助听器和人工耳蜗的帮助下听见外界的声音，但“听到”不代表“听清”，他们的声音世界仍像是被打上了马赛克，日常的沟通交流往往还是需要辅以文字。

　　如何能让这个特殊群体更简单地获取学习资源，参与培训、会议？

　　中国聋协想到了 AI——现在在很多会议活动里，都能见到 AI 实时字幕的身影，那么能不能把这样的 AI 能力带到聋协的培训课堂里呢？

　　说来也巧，当中国聋协主席杨洋在同钉钉的一次工作会议上提出这一想法，立即便得到了对方的响应。

　　彼时，钉钉的工程师们正好在为钉钉的视频会议、直播产品开发类似的功能。得知聋协的诉求，钉钉技术团队当即决定，联合阿里达摩院团队，为听障群体搭建一套基于钉钉的无障碍工作平台。

　　初战未捷

　　实战的机会很快就到来。

　　深圳聋协组织了一场手语翻译培训，需要钉钉进行 AI 实时字幕的技术支援。

　　据钉钉直播智能翻译技术负责人卜瑞回忆，当时，留给技术团队的准备时间并不多：周一周二功能刚在钉钉上线内测，周六就要第一次公开使用。

　　不过一开始，卜瑞和他的同事们都颇有信心——虽然功能刚刚上线，但背后的技术方案其实已经相对成熟。

　　钉钉这次提供给聋协的 AI 实时字幕解决方案，核心采用的是达摩院语音实验室的 E2E-ASR（端到端语音识别）技术。早在 2020 年 9 月的云栖大会上，达摩院就对外公布过相关技术进展：

　　基于达摩院提出的 SAN-M 网络结构，及基于 SCAMA 的流式端到端语音识别框架，在提升计算效率的同时，还能将高难度场景中的语音识别错误率降低近三成。并且，该技术解决了高精度语音交互任务长期依赖云端算力、语音指令出现延时等问题，使得基于该框架的整套语音识别系统可以部署在手机端。

　　相关论文，均已发表在了语音技术顶会 INTERSPEECH 上。

　　谁曾想，在聋协的第一次实战，培训现场还是出现了不少在工程师们意料之外的情况。

　　一方面，听障人群之间，会用到“聋人”、“听人”这一类平时不常见的专用词汇。钉钉的语音识别 AI 初来乍到，没有经过特训，一时间在这样的词汇识别上出了不少错。

　　更为严重的是，在第一场培训中，还出现了字幕显示着显示着就没了的情况。甚至在卜瑞和同事们拉来了阿里云视频云、达摩院的技术人员紧急“会诊”之后，情况也未能得到彻底的解决。

很尴尬，觉得有点辜负了参与培训的老师、同学们的期待。

　　“终于松了口气”

　　初战未捷，成为了悬在卜瑞和同事们头上的一朵阴云，回到大本营之后，便迅速开始了问题的排查。

　　事实上，像深圳聋协此次组织的手语培训课程，在形式上与正常的视频直播还是有不小的区别。

　　因为很多听障人士其实是看不懂手语的，所以在手语老师之外，这样的课程中还会有一位负责翻译手语的口语老师。也就是说，在这样一场直播中，口语老师和手语老师要保持全程连麦。

　　并且跟我们常见的新闻播报场景相反，口语老师接入的窗口并非主窗口，而是左下角的次窗口。因此语音流也是从次窗口输入的。

一群工程师，让听障群体“看见”了声音

　　从系统流程上讲，要在这个场景中部署 AI 实时语音，是这样一个过程：

　　主播通过钉钉直播开启语音识别的功能，在主播的直播推流到阿里云 CDN 后，会分别被云导播跟 ASR 服务拉取，云导播服务负责字幕样式，实时展示，音、画、字的同步校准，以及链路的高可用等。

　　ASR 服务则只负责解析音频数据，对音频重采样后输出给达摩院语音识别模块，生成字幕流并将其传给云导播。

　　云导播收到字幕流后，会计算显示时间戳（pts）时间，根据 pts 做音、画、字同步对齐，最终混流回推 CDN，分发给用户播放。

　　回溯整个流程，技术人员们很快发现，在内部测试时，由于网络条件良好，次窗口的音频流和主窗口的视频流之间偏差不大，在可以容忍的范围之内。

　　但真正到了培训现场，网络情况较差，经常会出现抖动。这种持续的网络不稳定慢慢积累，就使得偏差超出了技术方案的容忍度范围，导致出现掉字幕的情况。

　　找到了原因，技术团队便立即着手对方案进行优化。一方面，是针对听障人群的特殊语料库，对语音模型进行特训。

　　另一方面，更换推拉流协议，打通与 CDN 传输状态的深度感知，增强网络波动兼容性。并改进时间戳对齐算法，采用滑动对齐的方式，确保在弱网抖动的情况下，当主播或连麦者客户端掉线发生闪断重推时，不会影响云导播对音、画、字的处理，对于观众来说看到的只是画面出现了轻微的卡顿。

　　方案调整之后，在第二周的培训课程中，AI 实时字幕全程表现稳定，参与培训的老师学员纷纷表示“很有帮助，体验不错”。

　　卜瑞和同事们悬着的心也终于放了下来：

总算是松了口气，一周前丢的脸给挣回来了。

　　不一样的成就感

　　就在几天前，中国聋人协会正式宣布，基于钉钉搭建的无障碍工作平台会广泛投入使用，中国聋协系统全国 31 个省份、80 多个城市的听障人士，均可利用语音转文字、AI 实时字幕，无障碍开展视频会议、直播、网课学习等。

一群工程师，让听障群体“看见”了声音

　　像 AI 实时字幕这样的功能实现，在一些 to B 的场景中其实并不鲜见，但也往往费用不菲。

　　此次协助中国聋协上线无障碍平台，钉钉又投入了多少人力、资源成本？

　　谈及这个问题，钉钉音视频资深技术专家胡洪卫回答说，在这个项目上，他们秉持公益心态，因此并没有太多地考虑成本问题。

　　从人力的角度来说，因为参与项目的还包括达摩院、钉钉生态伙伴等各方力量，后续还会保障无障碍平台功能的长期迭代，因此也不太好衡量。

　　不过，有一个答案是肯定的，做这个项目，“很值”。

　　在帮助聋协上线 AI 实时字幕的过程中，有来自听障朋友的反馈是这样的：

听障带来的影响，其实不只是日常沟通、交流方面存在障碍，还会延伸到很多方面。

比如职业天花板很明显，接受再教育的难度很大。

客观的现实就是，社会上大部分和职业提升有关的公开课程，比如医疗、法律、管理课程等，并不会专门为听障群体准备字幕。

AI 实时字幕这样的功能，给特殊人群带来了新的可能性。

　　听到这样的反馈，胡洪卫、卜瑞等工程师真正感觉到自己作为技术人员，正在用技术创造社会价值。“那种自豪的感觉和精神上的鼓舞，是以前窝在实验室里做算法 Demo 时体会不到的”。

　　科技向善，不外如是。

　　科技的发展无疑会给人们的生活带来改变，但这种变化之中，人和技术本身不应该是对立的。

　　这一次，AI 就给出了一张高分答卷，你觉得呢？

标签：

杏鑫娱乐

杏鑫注册_杏彩4【杏鑫平台招商主管】

杏鑫隶属于杏彩4子品牌【招商QQ304724】

不一样的课堂

初战未捷

“终于松了口气”

不一样的成就感

共有 0 条评论

杏鑫注册_杏彩4【杏鑫平台招商主管】

杏鑫隶属于杏彩4子品牌【招商QQ304724】

不一样的课堂

初战未捷

“终于松了口气”

不一样的成就感

共有 0 条评论

官方招商

顶部按钮联系主管注册

　　不一样的课堂

　　初战未捷

　　“终于松了口气”

　　不一样的成就感