您的位置:首页>科技>

AI可以完美地复制印度语言的视频

印度人平均花费超过8.5GB的移动数据,其中大部分用于视频。去年,YouTube表示,超过95%的内容消费是使用区域语言。因此,自然而然地,人们对白话视频产生了浓厚的兴趣,但并非所有创作者都知道所有印度语。

一种解决方案是配音。上周,就在Parasite获得了奥斯卡金像奖之后,母亲琼斯声称配音优于翻译字幕。但是让我告诉你,这很糟糕。我看过很多用印地语配音的英语电影,我要么受不了,要么就死于笑。口型同步通常不可用,配音似乎很不自然。

[阅读:新西兰首位AI警务人员上班报告]

现在,来自印度南部城市海得拉巴的国际信息技术学院的研究人员开发了一种新的AI模型,该模型可以将视频从一种语言翻译成语音同步并以另一种语言正确同步。

该小组表示,我们已经拥有从视频中获取翻译的文本或语音输出的技术。但是,配音过程中会丢失视觉转换(如嘴唇移动)。为了解决这个问题,印度研究人员开发了一种名为LipGAN的新型对抗性生成网络(GAN)。虽然它可以匹配原始视频中翻译文本的唇部动作,但它也可以校正配音电影中的唇部动作。

为了翻译视频,该模型使用语音识别来转录视频中的语音。然后,它使用为印度语言训练的专门模型来翻译文本,例如从英语翻译成印地语。然后语音识别模型将其转换为语音。语音到语音翻译再加上LipGAN,构成了整个模型。研究人员指出,他们的翻译模型比Google Translate更准确。

IIIT-H研发部院长CV Jawahar教授说,这项技术将有助于创建更多以区域语言编写的内容:

从头开始手动创建本地语言内容,甚至手动翻译和复制现有视频都无法以创建数字内容的速度扩展。这就是为什么我们希望它是完全自动化的。

麻省理工学院和其他享有盛誉的机构针对各种主题制作了精美的视频,仅因他们无法理解口音而无法为更多的印度观众所用。忘了乡亲,连我都不懂!

团队补充说,该模型仍然在视频中移动或多张面孔方面挣扎。除了解决这些问题外,团队还希望在翻译后改善面部表情。

免责声明:本文由用户上传,如有侵权请联系删除!