$ python3 inference.py --face examples/face/1.mp4 --audio examples/audio/1.wav --outfile results/1_1.mp4
$ python3 inference.py --face examples/face/1_3s.mp4 --audio examples/audio/nvp_3s.wav --outfile results/1_3s.mp4
/path/to/miniconda3/envs/video_retalking/lib/python3.11/site-packages/torchvision/transforms/functional_tensor.py:5: UserWarning: The torchvision.transforms.functional_tensor module is deprecated in 0.15 and will be **removed in 0.17**. Please don't rely on it. You probably just need to use APIs in torchvision.transforms.functional or in torchvision.transforms.v2.functional.
warnings.warn(
[Info] Using cuda for inference.
[Step 0] Number of frames available for inference: 66
[Step 1] Using saved landmarks.
[Step 2] 3DMM Extraction In Video:: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 66/66 [00:01<00:00, 53.62it/s]
using expression center
Load checkpoint from: checkpoints/DNet.pt
Load checkpoint from: checkpoints/LNet.pth
Load checkpoint from: checkpoints/ENet.pth
[Step 3] Using saved stabilized video.
[Step 4] Load audio; Length of mel chunks: 64
[Step 5] Reference Enhancement: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 64/64 [00:08<00:00, 7.14it/s]
landmark Det:: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 64/64 [00:08<00:00, 7.37it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 64/64 [00:00<00:00, 24299.40it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 64/64 [00:00<00:00, 522.02it/s]
FaceDet:: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:04<00:00, 3.31it/s]
start 1705488432.6658988██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 15/16 [00:04<00:00, 7.62it/s]
model: 9.195826053619385
end 27.434037685394287
[Step 6] Lip Synthesis:: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:43<00:00, 43.01s/it]
outfile: results/1_3s.mp4