;
关注kaiyun官方网站掌握最新行业动态与资讯
当前位置: 首页 > kaiyun新闻 > 热点新闻

开云官方让郭德纲说英语,霉霉讲中文,AI是如何做到视频无痕翻译的?

发布日期:2024-04-26 访问量: 来源:kaiyun官方网站

  大家好,这里是和你们一起探索 AI 的花生~

  这几天互联网上出现的一类视频引起了大家的广泛关注和热烈讨论,视频的特点是可以“让人物说外语”,但形式并不是我们常见的视频配音,而是真的像他们自己就会说外语一样,口音毫无 AI 感,人物的嘴型也是一致的。

  比如下面这段“郭德纲用英语说相声”的视频,如果不说,几乎看不出来这是 AI 处理的,因为视频中人物的嘴型与说出的英语是一致的,发音很真实,没有 AI 的生硬感,甚至语调音色都与郭德纲说中文时的语调音色是一样的,这些细节上的精准匹配使视频显得非常自然真实,让人不得不感叹 AI 的强大。

  :微博@创作者 DC

  其实在上面的视频之前,网上已经有一段同类视频引起过的不小的关注。视频的名称是《这才是没有译制片腔调的翻译》,由一位英语博主 @johnhuu 发布,其中展示了多段中英翻译片段,比如泰勒·斯威夫特和特朗普讲中文、蔡明老师说英语等。视频中的人物发音清晰,语调自然,音色与本人相似,甚至嘴型也做到了一致,完全不同于之前的“译制腔”视频,所以一发布就引起了大家好奇和关注,光在 B 站上就有 200 多万播放。

  据原作者 @johnhuu 分享,想达到这种自然的翻译效果需要同时做到 3 点:一是文本翻译要地道,二是要克隆人物说话的声音,三是做到嘴型一致。这三点目前都有相关的 AI 技术可以实现,而且已经有一款工具可以一次搞定这三个步骤,它就是 HeyGen。

  了解 HeyGen:

  HeyGen 之前我已经为大家介绍过了,它是一款数字人视频生成神器 ,拥有丰富的数字人形象,通过与 AI 配音和自定义模版等功能配合,帮助用户快速制作一段视频,还能做到嘴型一致,应用范围涵盖广告、电商、新闻、教育、科普等多个领域,是目前最受关注的数字人制作工具之一。下面是我用 生成的一个短视频,大家应该在抖音或 YouTube 上也看到过类似的数字人形象。

  HeyGen 目前已经在公开测试一项名为 Video Translate(视频翻译)的新功能,将内容翻译、语音克隆和换嘴型 3 种功能集成到一起,来实现视频的一键无痕翻译,大家在文章开头看到的“郭德纲讲英文”就是由它实现的。Video Translate 支持中文、英语、法语、意大利语、德语、日语、韩语等十多种语言,是目前最便捷高效的视频无痕翻译解决方案。

  Video Translate 网址直达: https://labs.heygen.com/video-translate

  官方演示视频:

让郭德纲说英语,霉霉讲中文,AI是如何做到视频无痕翻译的?

  HeyGen 的 Video Translate 功能的确非常强大,但需要付费使用,价格也不便宜,平均下来翻译一分钟的视频需要 14 元人民币。它的翻译效果有时并不理想,比如在前面郭德纲的视频中,将中文的“二十里”翻译成“20 miles”,“法台”翻译成“French table”,都是不准确的。但因为视频上传后是一次完成的,不能修改,所以也没有办法。

  如果想做到翻译效果的精致控制,就需要将不同的步骤分开进行,而且已经有网友分享了对应的开源工具,即用 Whisper 实现语音转文字,ChatGPT 准确翻译文字内容,so-vits-svc 进行声音克隆生成音频,最后再用 GeneFace++ 实现对嘴型。其中 ChatGPT 大家应该非常熟悉了,就不做赘述,直接给大家介绍一下另外三款开源工具。

  ① Whisper

  Whisper 的 Github 主页: https://github.com/openai/whisper

  Buzz 的 Github 主页: https://github.com/chidiwilliams/buzz

  Whisper-webui 项目地址: https://huggingface.co/spaces/aadnk/whisper-webui

  安装教程: https://www.bilibili.com/read/cv23995720/

  Whisper 是 ChatGPT 母公司 OpenAI 研发的一款通用语音识别模型,可以自动识别多种语言并进行文字转录,它对英语语音的识别准确率尤其高,接近人类水平。

  Whisper 目前已经开源,支持本地部署www.kaiyun.com。它有两个衍生项目 Buzz(GUI 版 whisper)和 Whisper-webui(WebUI 版 whisper),这两款工具拥有便捷的用户操作界面,所以比本体更适合普通用户使用。大家可以按 Github 主页或我提供的教程安装使用,此外也可以使用其他的视频转文字软件,比如剪映专业版。

  ② so-vits-svc

  Github 主页:svc-develop-team/so-vits-svc: SoftVC VITS Singing Voice Conversion (github.com)

  整合包及教程: https://www.bilibili.com/video/BV1H24y187Ko/?spm_id_from=333.337.search-card.all.click&vd_source=9ce7566ddcd3dd5a0aa55ffbfed25fde

  So-vits-svc 是一款免费 AI 语音转换软件,它可以通过学习一个人的声音,将另一段音频的声音替换为这个人的音色,之前网上爆火的“AI 孙燕姿”就是通过这个工具实现的。so-vits-svc 是开源软件,支持本地部署,但是步骤非常复杂,使用门槛较高;不过 B 站上有大神分享了整合包及相关教程,感兴趣的小伙伴可以自行了解。

  相关推荐:

  ③ GeneFace++

  GeneFace++ 项目主页: https://genefaceplusplus.github.io/

  GeneFace 的 Github 主页: https://github.com/yerfor/GeneFace

  GeneFace++ 是一项根据实时音频生成三维说话人脸的技术,它生成的视频质量非常高,可以实现唇形同步,让数字人说话变得更加逼真。下面是官方发布的一段演示视频,对比了目前几款主流对嘴型技术的实现效果,可以看出 GeneFace++ 的效果最清晰稳定的。不过 GeneFace++ 的代码还没发布,感兴趣的话可以先去看看前一个版本 GeneFace 的 Github 主页。

  视频中第一个提到的技术 Wav2lip 虽然效果不算特别突出,但也是目前比较不错的免费换嘴型解决方案。它已经开源,可以部署到本地(网上有相关教程);Github 上还有一个它的 Stable Diffusion WebUI 插件 sd-wav2lip-uhq,让我们可以直接在 WebUI 中实现换嘴型,对普通用户更友好。

  Wav2lip 的相关链接就在下方,感兴趣的话可以自己尝试一下。如果你想学习 Stable Diffusion WebUI,欢迎了解我最新制作的《AI 绘画入门完全指南》,我会带你了解 SD 的生态体系,系统全面地讲解 WebUI 的各项功能,并分享相关的模型插件资源包和效率工具,帮你快速上手这款 AI 绘画神器。

  Wav2lip 项目主页:Interactive Wav2Lip Demo (iiit.ac.in)

  Wav2lip 的 Github 主页: https://github.com/Rudrabha/Wav2Lip

  Wav2lip 的 SD 插件 : https://github.com/numz/sd-wav2lip-uhq

  Wav2lip 的作者还开发了一个专门的实时视频对嘴型服务平台 Sync.labs,新用户可以免费体验 5 分钟的视频转换服务,如果你想自己免费制作一个无痕翻译视频,它是一个不错的选择。

  Sync.labs 主页: https://synclabs.so/

  使用指南:Introduction - Sync Labs Docs – Nextra

  以上就是本期为大家分享的 AI 无痕翻译视频的相关内容,里面提到的 HeyGen 是一款目前非常受关注的 AI 数字人视频生成工具,功能也越来越强大,大家可以多了解一下。喜欢本期推荐的话记得点赞收藏支持一波,之后会继续为大家带来更多 AI 绘画干货知识。也欢迎大家扫描下方的二维码加入“优设 AI 绘画交流群”,和我及其他设计师一起交流学习 AI 知识~

  获取更多优质 AI 干货知识,欢迎访问 「优设自学网」 ,超多 AI 绘画神器与教程等你探索。

  访问链接:AI 导航 - 优设 AI 自学网 - 国内专业 AIGC 学习平台 (uisdc.com)

  推荐阅读:

返回列表
分享:

Copyright © 2019 kaiyun官方网站股份有限公司.粤ICP备16017609号

粤公网安备44030402003674号

网站地图 | XML地图

微信关注 微信关注
微博
0755-83218588
TOP