2025년 12월 13일
드디어 Hailuo 2.3을 써봤다: 새 AI 영상 모델, 디테일과 모션 컨트롤이 기대치를 완전히 넘어섰다
최근 MiniMax의 최신 영상 생성 모델 Hailuo 2.3을 직접 테스트해봤는데, 한마디로 말해 기대를 완전히 박살 냈다.

최근에야 비로소 Hailuo 2.3이라는 MiniMax의 최신 영상 생성 모델을 직접 만져볼 수 있었는데, 솔직히 말해 예상했던 수준을 한참 넘어섰다. Sora를 둘러싼 각종 화제와 Google의 Veo처럼 대형 기업이 밀어주는 모델들이 시장을 장악한 상황에서, Hailuo 2.3은 조용히 일어나 갑자기 전체 판도를 뒤흔드는 ‘잠자던 거인’ 같은 느낌을 준다.
첫 프롬프트로는 네온 불빛이 비치는 빗속을 댄서가 움직이며 지나가고, 카메라는 지정한 경로로 트래킹하는 꽤 복잡한 장면을 던져 봤다. 솔직히 팔·다리가 뒤틀리거나, 발이 미끄러지고, 배경이 덜컹거리는 전형적인 AI 영상 아티팩트를 어느 정도는覚悟하고 있었다. 그런데 돌아온 결과물은 모션 컨트롤과 물리 법칙 준수 면에서 “세대가 바뀌었다”고 느낄 만큼의 수준이었다.
이건 단순한 마이너 업데이트가 아니라, “AI 영상이 과연 프로덕션 워크플로우에 얼마나 ‘실전 투입’ 가능한가”에 대한 인식을 바꿔 버리는 변화에 가깝다. 기존 모델 위에 한 층씩 쌓아 올려 ‘초고층 빌딩’을 만드는다는 의미에서, 일종의 “스크래이퍼(Grattacielo) 전략”으로 이 글은 Hailuo 2.3에 대한 결정판 가이드 역할을 한다. 아키텍처를 뜯어 보고, 경쟁 모델과의 성능을 비교하며, 이 모델이 어떻게 실험용을 넘어 상용 제작의 브릿지가 될 수 있는지를 살펴본다.
요약: 30초 버전 핵심 정리
바쁜 분들을 위해 Hailuo 2.3 분석 결과를 한 번에 정리해 보면 다음과 같다.
- 시장 포지션: Hailuo 2.3(와 전작 Hailuo 02)은 Artificial Analysis 같은 글로벌 벤치마크에서 꾸준히 2위권에 머물며, 블라인드 ELO 테스트에서 Google Veo 3를 앞서는 경우가 자주 나온다.
- 핵심 브레이크스루: 이 모델을 규정하는 키워드는 **Motion Integrity(모션의 물리적 정합성)**이다. 캐릭터가 공중에 떠다니는 느낌을 주던 기존 모델과 달리, Hailuo 2.3은 무게감, 관성, 무게중심을 어느 정도 이해하고 있는 듯한 움직임을 보여준다.
- 기술적 우위: 독자적인 Noise-Aware Computation Redistribution(NCR) 아키텍처를 기반으로, 이전 세대 대비 최대 2.5배 높은 효율을 달성하면서도 네이티브 1080p 생성까지 처리한다.
- ‘킬러 앱’: 카메라 제어. 돌리, 패닝, 틸트 같은 시네마틱 카메라 워크를 지키면서도 피사체를 괴상하게 왜곡시키지 않는다는 점에서 다른 모델들과 뚜렷이 차별화된다.
- 비용 경쟁력: 서구권 엔터프라이즈 툴이 수백 달러를 요구하는 상황에서, Hailuo 2.3은 월 8달러 안팎(플랫폼에 따라 상이)의 구독으로 상당한 사용량을 소화할 수 있어, 고급 영상 생성의 문턱을 크게 낮추고 있다.
Hailuo 2.3란 무엇인가? MiniMax의 부상
도구를 이해하려면 제작사를 알아야 한다. Hailuo 2.3은 중국 AI 유니콘 기업 MiniMax가 개발한 플래그십 텍스트·이미지→영상 모델이다. MiniMax는 서구권에서는 대형 언어 모델(LLM)로 먼저 이름을 알렸지만, 최근 빠르게 영상 쪽으로 피벗하고 있으며 그 접근 방식은 매우 공격적이면서도 기술적인 완성도가 높다.
01에서 2.3까지의 진화
Hailuo 01에서 02로의 도약도 컸지만, 2.3으로의 점프는 모델의 “이해도” 자체가 한 단계 성숙한 버전이라고 보는 편이 더 가깝다.
- Hailuo 01: 개념 증명 단계. 추상적인 비주얼에는 강하지만, 클립 전체의 정합성과 구조는 다소 흔들렸다.
- Hailuo 02: 본격적인 브레이크스루. 고해상도와 높은 일관성을 무기로 글로벌 리더보드 2위에 진입하며, Google Veo 3를 제쳤다는 평가로 업계를 놀라게 했다.
- Hailuo 2.3: 프로덕션品質을 노린 “마무리 버전”. 특히 모션에서 오는 “언캐니 밸리”를 줄이는 데 집중해, 보는 순간 “AI 티”가 나던 부분을 상당히 덜어낸 것이 특징이다。
내부 구조: Noise-Aware Computation Redistribution(NCR)
대부분의 확산형 트랜스포머 모델은, 시간·공간상의 모든 픽셀을 거의 동일한 중요도로 처리하는 경향이 있다. MiniMax의 NCR 아키텍처는 이 전제를 뒤집는다. 얼굴·빠른 움직임·복잡한 조명 등 “난이도가 높은 영역”을 자동으로 감지해, 그 부분에 연산 리소스를 집중적으로 할당하는 방식이다.
그 결과:
- 계산 효율 향상: 큰 변화가 없는 하늘·벽 등에는 최소한의 연산만 쓰고 지나간다.
- 핵심 디테일 강화: 시선이 모이는 얼굴, 손, 물·불·연기 같은 요소에 더 많은 자원을 쏟아, 디테일과 안정성을 동시에 끌어올린다.

그림 1: Hailuo 2.3의 AI 영상 생성 과정을 개념적으로 나타낸 다이어그램.
핵심 퍼포먼스 브레이크스루
직접 테스트해 보고 커뮤니티 벤치마크를 참고해 보면, Hailuo 2.3이 뚜렷하게 강점을 보이는 영역은 다섯 가지로 정리할 수 있다.
1. 모션 컨트롤 & 물리 시뮬레이션
가장 먼저 눈에 띄는 부분이다. 특히 캐릭터가 실제로는 걷고 있는데 화면상으로는 얼음 위에서 미끄러지는 것처럼 보이는 “드리프트” 현상이 어느 정도 억제되었는지에 주목했는데, Hailuo 2.3은 발과 바닥의 접지감을 상당히 그럴듯하게 구현한다.
- 중력 & 관성: 점프 후 착지할 때 무릎이 휘청이며 충격을 흡수하는 느낌이 살아 있고, 떨어지는 물체도 말 그대로 “떨어지는” 느낌으로 가속된다.
- 유체 역학: 물·연기·불꽃처럼 기존 모델이 특히 힘들어하던 요소도 상당히 자연스럽고, 카메라를 움직였을 때 반사나 입자 표현이 프레임마다 붕괴하지 않는다.
- 복잡한 상호작용: “도미노가 연속으로 쓰러지는 장면” 같은 프롬프트에서도 블록들이 하나로 뭉개지지 않고, 한 장면씩 물리적으로 넘어지는 모양새를 꽤 잘 지켜준다.
2. 얼굴의 마이크로 표정
Runway Gen‑3 Alpha 같은 모델이 풍경이나 환경 표현에 강점을 가진다면, Hailuo 2.3은 “사람”을 좀 더 설득력 있게 보여주는 데 힘을 쏟은 인상이다.
- 부드러운 표정 전환: 무표정에서 옅은 미소로, 슬픔에서 안도감으로 바뀌는 과정이, 얼굴 형태를 망가뜨리지 않고 자연스럽게 이어진다.
- 시선 일관성: 컷이 이어져도 등장인물의 눈동자 방향이 갑자기 튀지 않아, 대화·내레이션 중심 영상의 몰입도를 올려 준다.
- 립싱크 잠재력: 전용 음성 동기화 모델은 아니지만, 입 모양과 혀의 움직임이 대체로 사람다운 형태를 유지해, 이후 편집 단계에서의 음성 싱크 작업이 수월해진다.
3. 시네마틱 카메라 워크
Hailuo 2.3가 ‘위험할 정도로’ 강한 부분이 바로 카메라 제어다. 이 영역이 일정 수준을 넘어서면, 전통적인 스톡 영상 상당수는 굳이 구매할 필요가 없어지기 시작한다.
- 공간적 정합성: “빠른 돌리 줌(Vertigo 효과)” 같은 카메라 연출을 지정했을 때, 배경만 왜곡되고 피사체는 제자리에 남아 있는 등, 실제 렌즈 효과에 가까운 움직임을 구현한다.
- 오브젝트의 온전성(오브젝트 퍼머넌스): 인물 주변을 360도로 돌아도, 후두부와 측면, 정면이 서로 다른 사람처럼 보이지 않고, 하나의 3D 오브젝트처럼 자연스럽게 이어진다.
4. 아트 스타일의 폭과 재현력
학습 데이터의 폭넓은 커버리지를 반영하듯, Hailuo 2.3은 스타일 전환 능력도 준수한 편이다.
- 애니메이션/셀풍: 단순히 색감만 애니風으로 바꾸는 게 아니라,フレームレ이트를 한 템포 낮추는 느낌까지 재현해, “애니처럼 보이는 실사”가 아니라 “애니처럼 움직이는 애니”에 가까운結果를 낸다.
- 포토리얼: 피부 질감, 피사계 심도, 반사광 표현 등이 과도하게 스무딩되지 않아, 중급 모델에서 흔히 보이는 ‘왁스 인형’ 같은 느낌이 줄어든다。

그림 2: Hailuo 2.3으로 생성한 다양한 스타일의 시네마틱 샘플.
벤치마크 관점에서 본 Hailuo 2.3
Hailuo 2.3의 위치를 더 명확히 보기 위해, 현재 “빅3”라 불리는 Google Veo 3, Kling 2.5, OpenAI Sora 2와의 비교를 정리해 보았다.
ELO 레이팅
Artificial Analysis의 Video Arena에서는 유저들이 A/B 비교로 투표한 결과를 바탕으로 각 모델의 ELO 레이팅을 산출한다。
| 모델 | 글로벌 순위 | 일관성 점수 | 모션 리얼리티 점수 | 5초당 예상 비용 |
|---|---|---|---|---|
| Hailuo 2.3 | #2 | 94/100 | 96/100 | 약 0.05달러 |
| Google Veo 3 | #3 | 92/100 | 89/100 | 약 0.25달러 |
| Kling 2.5 | #4 | 91/100 | 93/100 | 약 0.10달러 |
| Seedance 1.0* | #1 | 95/100 | 95/100 | N/A |
※ Seedance 1.0(ByteDance)은 현재로서는 유일하게 Hailuo 위에 있는 모델이지만, 일반 사용자 접근성은 훨씬 낮다.
1:1 비교 인상
Hailuo 2.3 vs Google Veo 3
- Veo의 장점: Google 생태계와의 통합, 그리고 매우 긴 텍스트 프롬프트를 다루는 능력, 워크플로우 연계성 면에서는 여전히 강력하다。
- Hailuo의 장점: 순수 영상 퀄리티와 물리적 리얼리티에서는 Hailuo 쪽이 더 설득력 있는 결과를 내는 경우가 많다. 예컨대 “험한 비포장 도로를 달리는 차량” 프롬프트에서 Veo 3는 차가 지면 위를 미끄러지듯이 지나가는 인상을 주는 반면, Hailuo 2.3은 서스펜션이 눌리고 타이어가 지면을 움켜쥐는 느낌까지 표현해냈다。
Hailuo 2.3 vs Kling 2.5
- Kling의 장점: 2~3분짜리 장편 클립 생성에서는 여전히 최상위권으로, 긴 스토리 하나를 단일 영상으로 뽑아내고 싶을 때 유리하다。
- Hailuo의 장점: 프레임 단위 샤프니스와 빠른 액션에서의 가장자리 유지력은 Hailuo가 더 좋게 느껴진다. Kling는 초고속 모션 구간에서 잔상처럼 뭉개지는 구간이 보이는 반면, Hailuo는 윤곽선과 디테일을 비교적 잘 살린다.

그림 3: 주요 AI 영상 모델들의 상대적 성능 지표를 시각화한 샘플 차트.
기술 스펙
영상 제작자·개발자 입장에서 실무에 쓸 수 있는지 판단하려면 스펙을 봐야 한다. Hailuo 2.3은 공식 Hailuo AI, Seadance AI 등 웹 인터페이스뿐 아니라 다양한 플랫폼에서 API 형태로도 제공된다。
| 항목 | 스펙 | 비고 |
|---|---|---|
| 최대 해상도 | 1920×1080 (1080p) | 업스케일이 아닌 네이티브 출력. |
| 클립 길이 | 약 6–10초 | 일부 UI에서 “extend” 기능으로 연장 가능. |
| 프레임레이트 | 24 / 30 / 60 FPS | Pro 모드 등에서 선택 가능. |
| 화면비 | 16:9, 9:16, 1:1, 4:3 | TikTok/Shorts용 세로 영상도 지원. |
| 입력 타입 | 텍스트→영상(T2V), 이미지→영상(I2V) | I2V는 캐릭터 일관성 면에서 특히 강력. |
| 과금 방식 | 구독 / 크레딧제 | HD 한 번 생성에 약 0.30–0.50달러 수준(플랫폼별 상이). |
| API 지연 시간 | 약 30–60초 | 표준 모드 기준, 일부 서비스는 고속 모드 제공. |
실제 활용 시나리오: Hailuo 2.3이 잘 맞는 유저
Hailuo 2.3은 “재미있어서 만져보는 장난감” 단계를 넘어, 실제 프로덕션 파이프라인에 들어갈 수 있는 수준에 왔다。
1. 이커머스 & 광고
가장 임팩트가 큰 영역은 이커머스·브랜딩 영상 쪽이다. 정적인 제품 사진(예: 향수 병) 한 장만 있으면 “계곡의 흐르는 물 위에 놓인 병”이라든가 “꽃잎이 소용돌이치는 공간에서 천천히 회전하는 병” 같은 영상을 바로 만들어 낼 수 있다。
- 사례: 스니커즈 사진 한 장에서 “물웅덩이를 박차고 들어가는 순간”을 담은 쇼츠 영상을 생성해 봤을 때, 물 튀김의 물리 표현이 꽤 자연스러워서 굳이 3D 툴로 유체 시뮬레이션을 돌릴 필요가 없을 정도였다。
2. SNS용 숏폼 콘텐츠(TikTok, Reels 등)
Hailuo 2.3 Fast 버전은 특히 ‘페이스리스’ 채널용 B‑roll 제작에 잘 맞는다. 프롬프트 반응성이 좋기 때문에, “전기가 흐르며 빛나는 뇌” 같은 메타포를 교육/인사이트 콘텐츠 뒤에 깔 영상으로 빠르게 뽑아 쓰기 좋다。
3. 인디 영화 & 프리비즈(Previs)
감독·연출 입장에서는 프리프로덕션 단계에서 Hailuo 2.3로 런スルー 샷을 만들어 스태프에게 공유하는 용도로 쓸 수 있다。
- 예시: “시네마틱 와이드샷, 도리인, 디스토피아 도시, 주황색 안개” 정도만 적어도, 라이팅・카메라의 분위기를 팀과 공유할 수 있는 참조 영상이 1분 이내에 나온다。
4. 게임 개발
게임 업계에서는 루프되는 포털, 마법진, 배경 이펙트 등을 Hailuo로 만든 뒤 Unity/Unreal 같은 엔진에 바로 가져다 쓰는 방식이 점점 현실적인 옵션이 되고 있다。

그림 4: 모바일 UI 예시. SNS 담당자도 이동 중에 바로 영상 아이디어를 테스트할 수 있다.
Hailuo 2.3 vs Hailuo 2.3 Fast
MiniMax는 같은 세대 안에서 Standard와 Fast 두 가지 버전을 제공한다. 프로젝트 성격과 예산에 따라 적절히 선택하는 것이 중요하다。
Hailuo 2.3 (Standard)
- 추천 용도: 최종 납품용 영상, 광고, 서사 중심의 단편·브랜드 필름。
- 강점: 물리 정확도가 가장 높고, 텍스처·라이팅 퀄리티도 최고 수준。
- 단점: 렌더 시간이 길고(수 분대까지 갈 수 있음), 초당 비용도 상대적으로 비싸다。
Hailuo 2.3 Fast
- 추천 용도: 아이디어 스케치, 콘티·스토리보드, 루프 영상, 밈·짤 생성 등。
- 강점: 생성 속도가 매우 빠르며(대부분 30초 이내), 비용도 Standard 대비 약 50% 수준으로 저렴하다。
- 단점: 일부 물리 표현이 느슨해지고, 복잡한 배경 또는 손가락 디테일에서 가끔 글리치가 보일 수 있다。
실전 팁: 먼저 Fast로 프롬프트와 구도를 다듬고, 마음에 드는 결과가 나왔을 때 같은 프롬프트(가능하면 같은 시드)로 Standard를 돌려 최종본을 뽑는 2단계 전략을 추천한다。
현재 한계와 과제
아무리 호평이 많더라도, Hailuo 2.3에는 아직 분명한 제약과 약점이 존재한다。
- 영상 내 텍스트 렌더링: 다른 모델과 마찬가지로, 네온사인이나 간판처럼 “의미 있는 글자”를 화면 안에 선명하게 박는 작업은 여전히 약하다. 이런 경우에는 텍스트 중심 이미지를 다른 툴로 만든 뒤 Hailuo에 넣어 움직임만 입히는 방식이 안정적이다。
- 장시간 클립의 시간적 일관성: 6초 전후까지는 매우 안정적이지만, 15~20초 이상으로 연장하면, 낮이 서서히 황혼으로 변한다든지 하는 “꿈같은 변화”가 의도치 않게 들어갈 때가 있다。
- 복잡한 손가락 동작: 걷기와 전신 모션은 상당히 개선되었지만, 기타 연주, 타이핑처럼 손가락 디테일이 중요한 동작은 여전히 가끔 “스파게티 핸드”가 나타난다. 그래도 02 세대에 비하면 빈도와 심각도는 확실히 줄었다。
- 검열·안전 필터: 정책 상 꽤 강한 세이프티 가드가 걸려 있어, 표현 자체는 무해한데 특정 단어 선택 때문에 차단되는 프롬프트도 있을 수 있다. 표현 자유와 안전 간의 균형은 앞으로도 계속 조정이 필요해 보인다。
앞으로의 AI 영상 생태계에 미치는 영향
Hailuo 2.3의 등장은 “움직이는 이미지를 보여줄 수 있다”는 새로움에서, “이걸 그대로 써먹을 수 있나?”를 묻는 실용성 중심 단계로 넘어가고 있음을 상징한다。
- ‘물리’의 코모디티화: 언리얼·유니티 같은 엔진에만 있던 물리 기반 표현이, 텍스트 프롬프트 한 줄로 따라오는 기본 기능이 되어가는 흐름을 가속한다。
- 감독 중심 워크플로우: 향후 업데이트에서는 생성 후에도 카메라각이나 조명을 바꿀 수 있는, 반(半)볼류메트릭 편집이 가능해질 것이라는 전망도 나오고 있다。
- 가격 경쟁 심화: 이 정도 퀄리티와 가격 조합이 시장에 깔리면, Runway나 Luma 같은 서구권 툴은 가격을 낮추거나, 기능을 한 단계 더 끌어올리거나 둘 중 하나를 선택해야 하는 압박을 받을 수밖에 없다。
마무리
Hailuo 2.3은 단순한 버전업이 아니라, MiniMax가 “AI 영상도 프로덕션 레벨로 끌어올리겠다”는 의지를 강하게 드러낸 모델이라고 볼 수 있다. 모션 컨트롤과 물리 표현이라는 가장 큰 불만 포인트 두 개를 정면 돌파하면서, “AI니까 이 정도면 됐다”던 기준선을 크게 끌어올려 버렸다。
마케터, 영상 감독, 크리에이터에게 Hailuo 2.3은 AI 영상이 “재미로 써보는 실험 도구”에서 “없으면 손해 보는 필수 인프라”로 넘어가는 분기점이 될 가능성이 크다. 아직 직접 테스트해 보지 않았다면, 지금 갖고 있는 “AI로는 여기까지”라는 상식이 이미 구식일 수 있다. 초고층 빌딩은 이미 완공되었고, 그 꼭대기에서 내려다보는 풍경은 꽤나 충격적이다。

그림 5:Hailuo 2.3이 생성할 수 있는 고해상도·고디테일 영상의 예시.