단 한 장의 이미지로 고품질 애니메이션을 만들 수 있는 기술 등장

원본 이미지 데이터와 "동작" 데이터를 입력함으로써 원본 이미지를 동작 데이터 그대로 애니메이션 시키는 기술 논문이 알리바바 연구팀에서 발표되었는데, "Animate Anyone"이라는 이름이 붙은 이 기술을 사용하여, 깜박임이 적은 고품질 애니메이션을 생성할 수 있다는 것.

 


아래의 영상에서 만들어 진 애니메이션의 품질을 확인할 수 있다.

 


이번에 등장한 "Animate Anyone"은, 아래 그림 왼쪽 끝과 같은 1장의 "원래 이미지"를 바탕으로, 중앙의 "동작" 데이터를 입력함으로써 오른쪽 끝과 같이 이미지의 인물을 동작 데이터 그대로 움직일 수 있는 기술이다.



사진뿐만 아니라, 일러스트로 애니메이션을 만드는 것도 가능하다고 한다.

 


동작에 맞춰 머리카락이 둥실둥실 흔들리는 등, 애니메이션으로서의 품질은 상당히 높다고 할 수 있다.

3DCG풍의 이미지를 애니메이션 시키는 예도 게재되어 있고, 원래 이미지는 인간적인 느낌이라면 무엇이든 좋을 것 같다.

Animate Anyone은 기존의 기법과 비교해, 옷의 무늬 등 이미지의 상세한 데이터를 유지할 수 있고, 깜박임이 압도적으로 저감되고 있는 등의 점이 우수하며, 
댄스 등 격렬한 움직임의 "동작" 데이터가 입력되어도, Animate Anyone이면 거의 깜박임이 발생하지 않고, 실제로 촬영한 무비라고 해도 믿어 버릴 것 같은 애니메이션이 된다는 것.

 


현시점에서는 아직 코드나 웨이트가 공표되지 않았지만, 논문에서 모델의 구조를 확인할 수 있는데, 원본 이미지에서 "ReferenceNet"을 통해 스페이스 어텐션용 상세한 특징이 추출되고, 동시에 CLIP 인코더를 통해 크로스 어텐션용 의미적 특징이 추출. 동작의 입력인 포즈 시퀀스는 Pose Guider로 인코딩되어, 노이즈를 가한 후 Denoising UNet에서 전술한 스페이스 어텐션과 크로스 어텐션, 그리고 시간 어텐션을 이용하여 노이즈를 제거하고, 최종적으로 VAE 디코더가 결과를 무비로 디코딩하는 구조라고 한다.