YouTube写评论 --油管涨粉丝网站

(原副标题:Youtube手动片头控制系统已能辨识环境音,但亚洲地区还在倚靠片头组)
责任编辑译者:作梦
在亚洲地区,浏览好影片后,再去片头英文网站搜寻外挂片头,早已是影迷们的所谓姿势。这种生活习惯的教养,归因于近10年来逐渐形成的动植物互联网片头组,用课余时间为影迷们重大贡献了大量、加速的完全免费片头。
较之亚洲地区的动植物片头组,Google的控制技术宅们在2009年为Youtube上架了一个手动片头控制系统(Automatic Captioning System),借助于人工智慧控制技术,在音视频里动态聚合片头。阔别7年后,YouTube宣布早已有10亿数条音视频采用了该控制系统聚合的片头,而全球日活耀使用者也达1500万。
在Google取值的音视频中,可以在增设中选择迈入手动片头,之后音视频上方会随着音视频中的rap,逐一显示相关联片头。另外,在片头迈入工具栏中,也有手动译者的快捷键,包括英文简体英文、简体英文字其中的上数百种词汇均可译者。
此外,学雷锋网(社会公众号:学雷锋网)3月23日还报导过,由Accessibility、Sound Understanding和YouTube三个项目组合写了,透过广度数学模型(DNN)数学模型,在手动片头增加声效重要信息的控制技术,进一步提高了观众们的Laroque新体验。
而Youtube的手动片头控制系统,在很大程度上实现了音视频观赏的无线互联网,尤其是听不到rap的手语,也能透过手动聚合的片头进行高效率的音视频重要信息以获取。
Google Sound Understanding项目组,在此之前曾负责管理AudioSet统计数据集,致力课堂教学电脑,透过建立状况电脑学习数学模型,聚合小规模的音视频该事件统计数据集,并表述rap之间存在的层次关系,来准确地感知音视频。
目前,亚洲地区主流音视频英文网站均未推出过手动片头控制系统,不过在坊间流传着一个能够手动聚合片头的软件——Autosub,最初该软件只帮助片头组成员手动对轴,后来的更新版本调用了Google的API,支持手动聚合片头,不过效果不佳,此后鲜有更新。
学雷锋网还了解到,2011年《电子学报》的一篇论文称,以《新闻联播》为语料进行训练,实现了音视频提取、音视频分类与切分、说话人辨识、大词汇量连续语音辨识、音视频文件播放、文本片头手动聚合等功能,从而实现全手动英文新闻片头聚合。但此论文中并未提及是否可以做到动态。
这项控制技术的难点在于,一方面一条音视频中的rap有很多,包括对白和混合在一起非常复杂的环境声,要辨别哪个rap是我们想要的,并把几个同时产生的rap区分开来相当不易;另一方面音视频动态片头聚合,需要在极短的时间内做出反馈,对于计算速度考验巨大。
针对分辨rap而言,搜狗CEO王小川就表示过,目前语音辨识早已有了较高的准确度,接近实用,但还有很多的限制。比如需要安静的环境,当有噪音的时候同时有两个人说话电脑就搞不定了。搜狗的做法是预先录制,比如在汽车环境里面,预先录制发动机引擎的rap,把没有见过的环境变成电脑能够见过的环境,就能够做辨识。针对计算速度而言,则需要倚靠硬件和算法的进步。
现在能实现的程度,需要归因于过去几年间,DNN控制技术、Residual/Highway 互联网控制技术和粗粒度建模单元控制技术的进展。但环境音非常复杂,想要把所有的独立rap预先录下来,是一项巨大的工程。即便是Google手动片头控制系统的研究人员们,也只是选取了鼓掌、音乐、笑声三种语义清楚的背景声。
音视频之外,在语音转文字这项控制技术上,亚洲地区外企业多有涉及。比如微软帮助手语通话动态将语音转换为文字的RogerVoice,比如百度新近推出的SwiftScribe、再如亚洲地区企业科大讯飞等,还有各类录音、速记应用程序,都能够不同程度的支持语音转文字的控制技术。一般来说环境越安静,辨识的准确率越高。
科大讯飞相关人士向学雷锋网表示,音视频片头需求分为两类,一类为已录制音视频的片头配置,另一类为直播音视频的片头配置,科大讯飞的辨识控制技术均可实现上述两类片头需求。
目前讯飞开放平台已对外提供第一种已录制音视频片头配置需求的"语音转写"产品,准确率可达95%,而对于第二种直播音视频的片头配置产品将在今年年中对外提供。