|
发表于 2017-1-3 13:24:09 70840
阅读原文来自 Google DeepMind 和牛津大学的研究人员开发出了一个胜过专业唇读者的深度学习系统。
该团队借助一个 TITAN X GPU、CUDA 以及 TensorFlow 深度学习框架,使用近 5000 个小时的 BBC 节目中超过 100,000 个句子对其模型进行了训练。通过观察每个发言者的嘴唇,该系统能够准确译解出完整的句子,例如“We know there will be hundreds of journalists here as well”以及“According to the latest figures from the Office of National Statistics”。
人工智能系统能够准确注解约 50% 的词语,而专业唇读者只能注解 12.4%。
“我们相信机器唇读器将在改善助听器、在公共场所中听写(Siri 将再也无需听到您的声音)以及在嘈杂环境中的语音识别应用方面具有极大的潜力,”Yannis Assael 说。Yannis Assael 正在研究一款名为 LipNet 的类似的深度学习系统,该系统正在 NVIDIA DGX-1 上接受训练。
更多
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|