본문 바로가기
기타

오픈 AI의 소라, 구글 뤼미에르…'텍스트 투 비디오' AI 모델 경쟁 시작

by K-Books 2024. 4. 4.
728x90
반응형

오픈AI는 지난주 텍스트 입력만으로 실제 같은 사람과 기타 움직이는 물체가 든 동영상을 만들 수 있는 새로운 생성형 AI 플랫폼 기능을 공개했다.

 

소라(Sora)라는 이름의 생성형 AI 모델은 오픈 AI에 따르면 “시각적 품질과 사용자의 지시를 만족하면서” 여러 등장 인물, 특정 동작, 피사체와 배경의 정확한 묘사가 포함된 복잡하고 사실적인 장면을 만드는 TTV(Text To Video) 기술에 기반했다. 소라는 사용자가 프롬프트에서 요구하는 것은 물론, 현실 세계에 사물이 존재하는 방식도 이해한다.

 

기술 미래학자이자 비즈니스 컨설턴트 버나드 마에 따르면 TTV 기술은 먼저 텍스트 입력을 이해하고, 텍스트에 해당하는 시각과 청각 요소를 생성하는 AI 모델을 통해 텍스트 설명을 영상 콘텐츠로 변환한다.

 

마는 “텍스트를 해석하고, 설명에 따른 장면, 행동, 대화를 반영하는 영상을 합성할 수 있는 딥러닝 알고리즘이 필요하다”라고 말했다. 또한, 구글 제미나이 같은 다른 업체의 AI 엔진에는 없는 기능임에도 소라의 영향력은 상당할 것으로 예측했다.

 

구글의 텍스트 기반 기성 이미지 편집 방법인 뤼미에르(Lumiere)도 동영상 편집에 사용할 수 있다. ⓒ GOOGLE

 

마는 다른 최첨단 생성형 AI 기술과 마찬가지로, 소라가 콘텐츠 제작 방식을 재편하고 스토리텔링을 강화하며 동영상 제작을 대중화하는 데 영향을 미칠 것이라고 진단했다.

 

한편 마는 “TTV 기술은 교육 분야에서 몰입형 학습 자료를 제작하거나 마케팅 분야에서 매력적인 콘텐츠를 제작하고, 엔터테인먼트 업계에서 빠른 프로토타이핑과 스토리텔링을 이끄는 등 다양한 부문에서 엄청난 잠재력이 있다”라고 말했다. 그러나 AI 모델이 텍스트 설명을 본격 동영상으로 번역하는 기술은 엄격한 윤리적 고려가 필요하고 오용에 대한 안전 장치도 마련해야 한다고 강조했다.

 

마에 따르면 TTV 기술이 등장하면서 저작권 침해 같은 복잡한 문제가 발생할 가능성도 크다. 특히 저작권 있는 영상과 매우 유사한 콘텐츠를 만들 수 있다는 점에서 그렇다. 마는 “현재 진행 중인 소송도 여러 건 있다. 저작권 문제가 어떻게 해결될지 단정하기는 이르다”라고 말했다.

 

더 우려되는 점은 TTV 기술이 마치 진짜처럼 보이는 딥페이크를 제작할 수 있다는 것이다. 윤리 및 개인정보 보호 문제가 야기되고 면밀한 조사와 규제가 필요할 것으로 보인다.

 

 

이머지 인공지능(Emerj Artificial Intelligence) 설립자이자 수석 연구원 댄 파겔라는 5년 전 UN에서 딥페이크를 경고하는 내용의 발표를 진행했다. 파겔라는 당시 딥페이크가 위험함에도 사람들은 자신이 믿고 싶어하는 것을 믿을 것이라고 강조한 바 있다.

 

그러나 더 중요한 점은 이제 사람들이 헤드셋을 착용하고 AI 모델에게 정서적 요구를 충족할 수 있는 고유한 세계를 만들어달라고 지시할 수 있는 생성형 AI 세상이 도래했다는 것이다.

 

파겔라는 “이전 경험으로 학습한 시각, 청각, 궁극적으로는 촉각 경험까지 불러일으키는 것이 기계의 일이다. 정책적 관점에서 이러한 일탈을 얼마나 허용해야 할지를 고려해야 한다”라고 말했다.

 

 

TTV 모델은 AI 경험을 강화하는 애플리케이션을 구축해 생산성을 높이고 교육에 활용하며 업무에 집중하도록 도울 수 있다. 파겔라는 “TTV 영상을 통해 직원에게 영업 기술을 교육하고, 코드 작성을 돕고 코딩 양도 늘릴 수 있을 것”이라고 말했다.

 

오픈AI의 소라와 구글의 멀티모달 AI 엔진인 제미나이 1.5 모델은 현재 내부 연구 프로젝트로, 외부에서는 학계외 기술을 테스트하는 특정 단체에만 제공되고 있다. 내부 프로젝트이기는 하나 소라와 제미나이 1.5는 동영상, 사진, GIF, 연구 논문 등 실 사용례와 자세한 정보를 제공한다.

 

구글 제미나이와 함께 메타의 에뮤(Emu), 런웨이의 젠-2, 스테이블리티 AI의 스테이블 비디오 디퓨전 등 소라보다 앞서 개발된 TTV 모델이 여럿 있다. 구글은 챗GPT와 달리 사용자가 쿼리 엔진에 입력할 수 있는 정보 양이 훨씬 더 많으므로 응답이 더 정확해진다고 밝혔다.

 

스테이블 디퓨전의 노이즈 제거 과정이다. 설정한 단계에 도달할 때까지 반복적으로 무작위 노이즈를 제거해 이미지를 생성하고, 어텐션 메커니즘과 함께 개념을 사전학습한 CLIP 텍스트 인코더의 지도 하에 학습된 개념을 이미지로 나타낸다. ⓒ STABLE DIFFUSION/WIKIPEDIA

 

구글은 ‘최첨단 동영상 생성 모델’이라고 표현하는 두 연구 프로젝트를 동시에 진행하고 있다. 뤼미에르(Lumiere)와 비디오 포엣(Video Poet)이다.

 

2월 초 출시된 뤼미에르는 한층 발전한 구글의 동영상 생성 기술로, 스테이블 비디오 디퓨전의 초당 25프레임을 한참 앞서는 초당 80프레임이 강점이다. 마는 “구글 제미나이는 정보 처리와 작업 자동화를 위해 설계되었으므로 처음부터 여러 모달리티를 원활하게 통합하여 간단하고 작업 중심적 경험을 원하는 사용자에게 더 직관적인 환경을 제공한다”라고 말했다. 또한 “반면, GPT-4의 레이어링 접근 방식은 시간이 지나면서 기능이 세분화되어 대화 능력과 콘텐츠 생성에 유연성과 깊이를 더한다”라고 설명했다.

 

직접 비교해 보면 소라가 구글보다 더 강력한 것으로 보인다. 구글 뤼미에르는 512ⅹ512 픽셀 해상도의 동영상을 생성하지만, 소라는 최대 1920ⅹ1080 픽셀 또는 HD 화질의 해상도를 구현한다고 주장한다. 길이 역시 뤼미에르는 5초로 제한되지만 소라는 최대 1분 길이 동영상까지 생성할 수 있다.

 

또한, 뤼미에르는 여러 장면으로 구성된 동영상을 만들 수 없는 반면, 소라는 가능하다. 소라는 다른 모델과 마찬가지로 이미지나 다른 동영상을 편집해 동영상을 만들거나 다른 동영상의 요소 결합, 동영상 재생 시간 연장 등의 편집 작업도 가능한 것으로 알려졌다.

 

마는 오픈AI의 소라와 런웨이 AI 같은 신생업체 간 경쟁이 벌어지고 있지만, 성숙도가 안정성과 확장성에 영향을 미치는 점도 있다고 조언했다. 신생업체가 혁신적 접근 방식과 민첩성을 제공하기도 하지만, 마이크로소프트에서 대규모 자금을 지원받는 오픈AI가 빠른 속도로 혁신을 따라잡고 추월할 가능성도 크다는 의견이다.

 

출처 : itworld

 

728x90
반응형