애니메이션2026년 6월 4일

모델은 commodity가 되고 있다, 워크플로우는 그렇지 않다

새 AI 영상 모델이 매주 발표된다. 도구를 만드는 입장에서 본 시장의 무게중심 이동을 정리했다.

지금 AI 영상 생성 시장에서 일어나고 있는 일을 한 줄로 요약하면 이렇다.

"모델은 점점 빠르게 commodity가 되고, 차별성은 모델 위쪽으로 올라가고 있다."

2024년만 해도 어떤 모델이 사람을 자연스럽게 움직이게 할 수 있는지, 어떤 모델이 카메라 워크를 흉내 낼 수 있는지로 시장이 갈렸다. 2025년을 지나면서 그 격차는 빠르게 좁아졌다. 2026년 지금은 한 모델이 잘하는 것을 다른 모델이 두세 달 안에 따라잡는다. 격차가 좁아진 게 아니라, 격차가 유지되는 기간이 짧아졌다.

이 글은 그 변화 위에서 도구를 만들고 있는 입장에서, 산업이 어디로 움직이고 있는지 정리한 글이다.

모델은 commodity가 되고 있다

지난 1년 사이 일어난 흐름은 분명하다.

새 모델의 등장 주기가 짧아졌다. 한 회사가 새 모델을 발표하면, 같은 분기 안에 비슷한 성능의 후속작이 다른 곳에서 나온다.
토큰/초당 가격이 떨어졌다. 같은 결과물을 만드는 데 6개월 전보다 적게는 절반, 많게는 1/4 비용이면 충분하다.
오픈소스가 따라붙었다. 클로즈드 모델에서만 가능했던 품질이 Wan, HunyuanVideo 계열의 오픈 모델로 옮겨오고 있다.

이 세 가지가 동시에 일어나면 어떤 모델 하나에 의지하는 제품 전략은 약해진다. "오늘 우리는 X 모델이 가장 좋다"는 명제는 다음 분기엔 다른 이름으로 바뀐다.

이걸 다른 산업에서 본 적이 있다. 데이터베이스도 그랬고, 클라우드도 그랬다. 처음에는 어떤 엔진이 가장 빠른지, 어떤 클라우드가 가장 싼지로 시장이 갈렸다. 시간이 지나면서 엔진과 클라우드는 commodity가 됐고, 차별성은 그 위에 얹히는 운영, 파이프라인, 도구로 옮겨갔다.

AI 영상 모델도 같은 길을 가고 있다고 본다.

그런데 같은 모델로 만든 결과는 왜 다른가

흥미로운 건 commodity화와 함께 일어난 또 하나의 현상이다.

같은 모델, 같은 가격, 같은 무료 크레딧을 받은 두 사람이 같은 주제로 영상을 만들어도 결과물의 완성도는 크게 다르다. 차이가 모델에서 오지 않는다.

차이가 어디서 오는지를 들여다보면 대체로 같은 자리에서 끝난다.

어떤 프롬프트를 어떤 순서로 시도했는가
캐릭터 한 명의 모습을 여러 컷에 걸쳐 어떻게 유지했는가
어떤 컷을 버리고 어떤 컷을 살렸는가
컷과 컷 사이를 무엇으로 이어 붙였는가

이건 모델이 결정하는 영역이 아니라 워크플로우가 결정하는 영역이다.

모델은 한 컷을 만들어 준다. 영상은 컷이 아니다. 컷의 시퀀스가 이야기로 이어진 결과물이다. 한 컷의 품질에서 한 편의 영상의 품질로 가는 길은 모델이 책임지지 않는다.

그래서 모델이 commodity가 될수록, 그 위에 무엇을 얹을 것인가가 시장의 진짜 질문이 된다.

모델 라우팅 — 한 모델이 아니라 여러 모델

여기서 도구 쪽에서 일어나는 변화 하나가 모델 라우팅이다.

같은 작품 안에서도 장면마다 강점이 다른 모델을 쓰는 방식이다. 액션이 큰 컷에는 Kling, 정적인 분위기 컷에는 Veo, 멀티샷 구성이 필요한 부분에는 Seedance, 비용을 줄여야 하는 부분에는 오픈소스 기반의 Wan. 사용자가 그때그때 직접 모델을 고를 수도 있고, 도구가 컷의 의도를 보고 자동으로 라우팅할 수도 있다.

컷의 성격	라우팅되는 모델	모델의 강점
액션 컷	Kling	역동적인 움직임과 카메라 워크
정적 분위기 컷	Veo	고품질 시네마틱 표현, 오디오 포함
멀티샷 컷	Seedance	멀티샷 구성, 프롬프트 반영
저비용 컷	Wan	오픈소스, 비용 효율

이 흐름이 자리 잡으면 사용자 입장에서 "어떤 모델이 최고인가"라는 질문은 그렇게 중요하지 않게 된다. 중요한 것은 "지금 이 컷에 어떤 모델을 쓰고 있는가"이고, 더 중요한 것은 "그 결정을 내가 매번 직접 해야 하는가"이다.

도구가 책임지는 영역이 모델 한 개의 호출에서 모델들의 선택과 조합으로 옮겨가고 있다.

일관성 — 모델이 풀지 않는 문제

모델 commodity화 흐름과 별개로, 모델 한 개로는 풀기 어려운 문제가 있다.

캐릭터 일관성이다.

한 컷에서는 잘 나온 캐릭터가 다음 컷에서는 얼굴이 미묘하게 바뀐다. 머리 길이가 달라지고, 의상이 다른 옷처럼 보인다. 단일 이미지였다면 한 장만 잘 나오면 끝이지만, 영상은 여러 컷이 한 사람이라는 인식 안에서 이어져야 한다.

이 문제는 모델 안에서 부분적으로만 풀리고 있다. 컨디셔닝 입력을 풍부하게 받는 모델, 캐릭터 임베딩을 따로 받는 모델, LoRA 같은 어댑터를 결합하는 방식들이 있다. 하지만 모델 한 번의 호출만 가지고 한 편의 영상 전체에 걸쳐 같은 인물을 유지하는 건 여전히 안정적이지 않다.

그래서 일관성은 도구 쪽에서 시스템으로 풀어야 하는 문제로 정착하고 있다.

캐릭터 정의를 컷 단위가 아니라 프로젝트 단위로 저장한다.
캐릭터마다 학습된 어댑터(LoRA 등)를 매핑해두고, 컷이 생성될 때마다 자동으로 결합한다.
같은 캐릭터의 이전 컷을 레퍼런스로 다음 컷 생성에 다시 넣는다.

이런 인프라는 모델 가격이 떨어진다고 자동으로 따라 떨어지지 않는다. 도구를 만드는 쪽이 따로 짓고 운영해야 하는 영역이다.

그래서 도구는 어디로 가는가

여기까지 정리하면, AI 영상 산업의 무게중심이 어떻게 움직이고 있는지 그림이 잡힌다.

모델은 점점 빠르게 비슷해지고 싸진다. 그 결과 모델 한 개를 갖다 쓰는 단순 래퍼는 의미가 빠르게 줄어든다. 사용자가 "이게 X 모델인지 Y 모델인지" 신경 쓰지 않아도 좋은 결과가 나오게 만드는 쪽이 차별성을 가진다.

반면 워크플로우, 일관성, 시퀀스 — 이쪽은 commodity화되지 않는다. 한 컷이 아니라 한 편의 영상을 만들기까지 사용자가 거치는 단계들은 모델 가격이 떨어진다고 같이 떨어지지 않는다. 오히려 모델이 싸지고 빨라질수록 사용자는 더 많이 생성하고, 더 많이 비교하고, 더 많이 선택한다. 그 과정 전체를 받아주는 도구가 필요해진다.

도구가 책임지는 영역이 늘어나고 있다.

모델 선택의 자동화 (모델 라우팅)
프로젝트 단위의 캐릭터·스타일·세계관 보존
시나리오에서 스토리보드, 컷, 영상까지 흐름의 보존
여러 번의 시도 사이에서 어떤 결과를 살리고 버릴지의 기록과 비교

이건 어떤 모델이 다음 분기에 등장하더라도 그대로 가치를 유지하는 종류의 일이다. 모델은 갈아 끼울 수 있어도, 사용자가 거기까지 쌓아 올린 작업의 흐름은 갈아 끼울 수 없다.

마치며

지금 AI 영상 시장에서 "어떤 모델이 가장 좋은가"는 점점 1년 단위의 질문에서 분기 단위, 더 짧게는 월 단위의 질문으로 줄어들고 있다. 같은 질문을 매번 다시 물어야 한다는 건, 그 질문 자체의 무게가 줄어들고 있다는 뜻이기도 하다.

모델은 commodity가 되고 있다. 그 위에 무엇을 얹을 것인가는 commodity가 되지 않는다.

도구를 만드는 입장에서, 우리는 그 위쪽에 서 있다. 모델이 빨리 좋아질수록 위쪽에서 풀어야 하는 문제는 줄어들지 않고 오히려 더 분명해진다. 모델이 한 컷을 잘 만들수록, 사용자는 한 컷이 아니라 한 편을 만들고 싶어 한다.

다음 분기에 어떤 모델이 새로 나올지는 모른다. 하지만 그 모델이 나왔을 때 사용자가 그 모델을 쓰면서도 자기 캐릭터를 잃지 않게 만드는 것, 자기 시나리오의 흐름을 잃지 않게 만드는 것 — 그건 도구가 책임지는 자리다.

#AI Video#Industry#Workflow#Tooling