开云官方让郭德纲说英语，霉霉讲中文，AI是如何做到视频无痕翻译的？

发布日期：2024-04-26 访问量：来源：kaiyun官方网站

　　大家好，这里是和你们一起探索 AI 的花生~

　　这几天互联网上出现的一类视频引起了大家的广泛关注和热烈讨论，视频的特点是可以“让人物说外语”，但形式并不是我们常见的视频配音，而是真的像他们自己就会说外语一样，口音毫无 AI 感，人物的嘴型也是一致的。

　　比如下面这段“郭德纲用英语说相声”的视频，如果不说，几乎看不出来这是 AI 处理的，因为视频中人物的嘴型与说出的英语是一致的，发音很真实，没有 AI 的生硬感，甚至语调音色都与郭德纲说中文时的语调音色是一样的，这些细节上的精准匹配使视频显得非常自然真实，让人不得不感叹 AI 的强大。

　　：微博@创作者 DC

　　其实在上面的视频之前，网上已经有一段同类视频引起过的不小的关注。视频的名称是《这才是没有译制片腔调的翻译》，由一位英语博主 @johnhuu 发布，其中展示了多段中英翻译片段，比如泰勒·斯威夫特和特朗普讲中文、蔡明老师说英语等。视频中的人物发音清晰，语调自然，音色与本人相似，甚至嘴型也做到了一致，完全不同于之前的“译制腔”视频，所以一发布就引起了大家好奇和关注，光在 B 站上就有 200 多万播放。

　　据原作者 @johnhuu 分享，想达到这种自然的翻译效果需要同时做到 3 点：一是文本翻译要地道，二是要克隆人物说话的声音，三是做到嘴型一致。这三点目前都有相关的 AI 技术可以实现，而且已经有一款工具可以一次搞定这三个步骤，它就是 HeyGen。

　　了解 HeyGen：

　　HeyGen 之前我已经为大家介绍过了，它是一款数字人视频生成神器，拥有丰富的数字人形象，通过与 AI 配音和自定义模版等功能配合，帮助用户快速制作一段视频，还能做到嘴型一致，应用范围涵盖广告、电商、新闻、教育、科普等多个领域，是目前最受关注的数字人制作工具之一。下面是我用生成的一个短视频，大家应该在抖音或 YouTube 上也看到过类似的数字人形象。

　　HeyGen 目前已经在公开测试一项名为 Video Translate（视频翻译）的新功能，将内容翻译、语音克隆和换嘴型 3 种功能集成到一起，来实现视频的一键无痕翻译，大家在文章开头看到的“郭德纲讲英文”就是由它实现的。Video Translate 支持中文、英语、法语、意大利语、德语、日语、韩语等十多种语言，是目前最便捷高效的视频无痕翻译解决方案。

　　Video Translate 网址直达： https://labs.heygen.com/video-translate

　　官方演示视频：

让郭德纲说英语，霉霉讲中文，AI是如何做到视频无痕翻译的？

　　HeyGen 的 Video Translate 功能的确非常强大，但需要付费使用，价格也不便宜，平均下来翻译一分钟的视频需要 14 元人民币。它的翻译效果有时并不理想，比如在前面郭德纲的视频中，将中文的“二十里”翻译成“20 miles”，“法台”翻译成“French table”，都是不准确的。但因为视频上传后是一次完成的，不能修改，所以也没有办法。

　　如果想做到翻译效果的精致控制，就需要将不同的步骤分开进行，而且已经有网友分享了对应的开源工具，即用 Whisper 实现语音转文字，ChatGPT 准确翻译文字内容，so-vits-svc 进行声音克隆生成音频，最后再用 GeneFace++ 实现对嘴型。其中 ChatGPT 大家应该非常熟悉了，就不做赘述，直接给大家介绍一下另外三款开源工具。

　　① Whisper

　　Whisper 的 Github 主页： https://github.com/openai/whisper

　　Buzz 的 Github 主页： https://github.com/chidiwilliams/buzz

　　Whisper-webui 项目地址： https://huggingface.co/spaces/aadnk/whisper-webui

　　安装教程： https://www.bilibili.com/read/cv23995720/

　　Whisper 是 ChatGPT 母公司 OpenAI 研发的一款通用语音识别模型，可以自动识别多种语言并进行文字转录，它对英语语音的识别准确率尤其高，接近人类水平。

　　Whisper 目前已经开源，支持本地部署www.kaiyun.com。它有两个衍生项目 Buzz（GUI 版 whisper）和 Whisper-webui（WebUI 版 whisper），这两款工具拥有便捷的用户操作界面，所以比本体更适合普通用户使用。大家可以按 Github 主页或我提供的教程安装使用，此外也可以使用其他的视频转文字软件，比如剪映专业版。

　　② so-vits-svc

　　Github 主页：svc-develop-team/so-vits-svc: SoftVC VITS Singing Voice Conversion (github.com)

　　整合包及教程： https://www.bilibili.com/video/BV1H24y187Ko/?spm_id_from=333.337.search-card.all.click&vd_source=9ce7566ddcd3dd5a0aa55ffbfed25fde

　　So-vits-svc 是一款免费 AI 语音转换软件，它可以通过学习一个人的声音，将另一段音频的声音替换为这个人的音色，之前网上爆火的“AI 孙燕姿”就是通过这个工具实现的。so-vits-svc 是开源软件，支持本地部署，但是步骤非常复杂，使用门槛较高；不过 B 站上有大神分享了整合包及相关教程，感兴趣的小伙伴可以自行了解。

开云官方让郭德纲说英语，霉霉讲中文，AI是如何做到视频无痕翻译的？

开云真人以前用的无线通信技术不好吗

www.kaiyun.com航空无线通信技术频率

kaiyun官方网站无线通信技术一千米

kaiyun官方网站nrf24l01属于什么无线通信技术

www.kaiyun.comuwb无线通信技术特点