Talking face 是一种计算机图形学和人工智能的技术,可以实现将一段音频转换为逼真的人脸动画。它可以用于视频游戏、虚拟主持人、语音助手等应用中,使人机交互更加自然和生动。
1- SadTalker-Video-Lip-Sync
![a6dc0bef9c73f4f5d114b5b025b1d52e.gif](https://img-blog.csdnimg.cn/img_convert/a6dc0bef9c73f4f5d114b5b025b1d52e.gif)
*基于SadTalkers实现视频唇形合成的Wav2lip。通过以视频文件方式进行语音驱动生成唇形,设置面部区域可配置的增强方式进行合成唇形(人脸)区域画面增强,提高生成唇形的清晰度。使用DAIN 插帧的DL算法对生成视频进行补帧,补充帧间合成唇形的动作过渡,使合成的唇形更为流畅、真实以及自然。
https://github.com/Zz-ww/SadTalker-Video-Lip-Sync
2- GeneFace
![1c39cb9f4c38ff4ffa3ba05a33a394ed.png](https://img-blog.csdnimg.cn/img_convert/1c39cb9f4c38ff4ffa3ba05a33a394ed.png)
*GeneFace: 基于NeRF的使用任意语音音频生成逼真的说话人视频。NeRF神经辐射场用来提高图像的3D真实性和保真度。
https://github.com/yerfor/GeneFace
3- one-shot-talking-face
![fd2b77a3ff31239c28f9c6086efaf4c9.png](https://img-blog.csdnimg.cn/img_convert/fd2b77a3ff31239c28f9c6086efaf4c9.png)
*重点在提升说话人的语音和视觉动作之间的一致性。作者开发了一个Audio-Visual Correlation Transformer (AVCT)模型,通过关键点密集运动场表示语音驱动的说话动作。同时引入音素来表示语音信号,从而使AVCT可以自然地适应不同的演讲者。
https://github.com/FuxiVirtualHuman/AAAI22-one-shot-talking-face
更多信息:
Mixlab生成式人工智能工作坊,跨学科·无限创造·实验
已更新至知识库
![5320b4c8eb3d5864617afd8a9cd324b9.jpeg](https://img-blog.csdnimg.cn/img_convert/5320b4c8eb3d5864617afd8a9cd324b9.jpeg)
合作联系