이런 사람에게 추천
툴 이름보다 먼저, 실제로 하려는 작업과 상황에서 시작합니다.
쇼츠를 처음 만드는 사람
아이디어, 대본, 편집, 자막까지 전체 제작 흐름을 한 번에 잡고 싶은 경우
짧은 콘텐츠를 꾸준히 올리고 싶은 사람
매주 여러 개의 릴스·쇼츠를 반복 제작할 운영 루틴이 필요한 경우
얼굴 노출 없이 시작하고 싶은 사람
Kling 같은 AI 영상 소스, ElevenLabs 음성, 자막 편집으로 채널을 테스트하고 싶은 경우
광고/상품 소개 영상을 만들 사람
제품 장점이나 이벤트를 짧은 영상 B-roll과 자막 중심으로 빠르게 검증하고 싶은 경우
모바일 편집으로 끝내고 싶은 사람
CapCut·Vrew 중심으로 낮은 비용과 쉬운 자막/편집 마감을 선호하는 경우
전체 작업 흐름
결과물을 만들기까지의 핵심 단계를 먼저 훑어봅니다.
아이디어·대본 작성
주제 3~5개, 첫 3초 훅, 컷 단위 쇼츠 대본
영상/이미지 생성
3~8초 영상 클립 여러 개
음성 생성
나레이션 음성 파일
편집/자막
9:16 완성 영상
이 조합으로 만들 수 있는 쇼츠 예시
실제 샘플 영상이 완성되면 이 영역에 붙이고, 지금은 따라 만들 결과물의 형태만 먼저 보여줍니다.
예시 영상 준비 중
15~30초 세로 쇼츠 결과물을 여기에 보여줄 예정입니다.
Kling으로 만든 영상 소스에 ElevenLabs 음성과 CapCut 자막/편집을 붙인 샘플을 넣어, 이 가이드를 따라 만들 최종 형태를 바로 확인할 수 있게 합니다.
바로 따라 만들기
프롬프트가 필요한 단계는 복사해서 쓰고, 편집 단계는 체크 순서대로 따라가게 정리했습니다.
OUTPUT RECIPE
Kling + ElevenLabs + CapCut으로 20초 쇼츠 하나 만들기
아이디어 → 영상 소스 → 음성 → 편집까지, 실제 쇼츠 하나를 만드는 최소 흐름만 정리했습니다.
완성 결과물
15~30초 세로 쇼츠/릴스 영상 1개
예상 시간
20~30분
STEP 1Claude 또는 ChatGPT쇼츠 대본 만들기
멈춰 볼 이유와 20초 안에 읽히는 대본을 한 번에 잡습니다.
열어보기 ↓접기 ↑
쇼츠 대본 만들기
멈춰 볼 이유와 20초 안에 읽히는 대본을 한 번에 잡습니다.
아래 프롬프트에서 [주제], [타깃]만 본인 상황에 맞게 바꿔 넣습니다. 결과가 나오면 가장 구체적인 안을 골라 바로 다음 단계의 영상 소스로 넘깁니다.
바꿔 넣을 것: [주제] = 만들고 싶은 콘텐츠 주제, [타깃] = 영상을 보여줄 사람
복사해서 쓸 프롬프트
너는 숏폼 콘텐츠 기획자야. 주제는 [주제]이고 타깃은 [타깃]이야. 20초 쇼츠 아이디어 3개를 만들어줘. 각 아이디어는 [첫 3초 훅 / 핵심 메시지 / 컷 번호 / 화면 설명 / 나레이션 / 자막 / 마지막 CTA] 형식으로 작성해줘. 한 컷은 3~5초로 하고, 문장은 모바일 자막처럼 짧고 말하듯이 써줘. 총 5컷 이하로 정리해줘.
잘 안 나오면: 대본이 길거나 밋밋하면 “총 55단어 이하, 컷 5개 이하로 줄이고 첫 문장을 더 구체적인 숫자·비교·반전 중 하나로 바꿔줘.”라고 다시 요청하세요.
STEP 2KlingKling으로 영상 소스 만들기
대본에 맞는 3~8초 B-roll 또는 제품 장면을 만듭니다.
열어보기 ↓접기 ↑
Kling으로 영상 소스 만들기
대본에 맞는 3~8초 B-roll 또는 제품 장면을 만듭니다.
대본의 각 컷에서 필요한 화면을 [장면 설명]에 넣습니다. 처음부터 완성본 하나를 노리기보다 같은 장면을 2~3개 버전으로 뽑아 비교합니다.
바꿔 넣을 것: [장면 설명] = 만들고 싶은 화면을 한 문장으로 설명
복사해서 쓸 프롬프트
[장면 설명]. Realistic lighting, smooth camera movement, close-up detail, modern clean mood. No text, no logo, no distorted hands, no extra objects.잘 안 나오면: 결과가 이상하면 장면을 더 좁히세요. 예: “사람이 제품을 들고 있음”보다 “흰 책상 위 스마트폰 화면 클로즈업, 손은 나오지 않음”처럼 제한합니다.
STEP 3ElevenLabsElevenLabs로 나레이션 만들기
얼굴/목소리 노출 없이도 자연스러운 음성을 만듭니다.
열어보기 ↓접기 ↑
ElevenLabs로 나레이션 만들기
얼굴/목소리 노출 없이도 자연스러운 음성을 만듭니다.
대본의 나레이션 문장만 붙여넣고 음성을 만듭니다. 문장이 길면 먼저 짧게 나눈 뒤, 쉼표와 호흡을 조정합니다.
복사해서 쓸 프롬프트
톤: 또렷하고 빠른 정보 전달. 속도는 약간 빠르게, 과장된 광고톤은 피하고 자연스럽게. 숫자와 고유명사는 천천히 읽기.잘 안 나오면: 발음이 어색한 단어는 한글 발음대로 풀어 쓰거나 문장을 둘로 나눠 다시 생성하세요.
STEP 4CapCut 또는 VrewCapCut/Vrew로 자막과 편집 마감
AI가 만든 영상과 음성을 업로드 가능한 쇼츠로 마감합니다.
열어보기 ↓접기 ↑
CapCut/Vrew로 자막과 편집 마감
AI가 만든 영상과 음성을 업로드 가능한 쇼츠로 마감합니다.
이 단계는 프롬프트를 넣는 작업이 아니라 편집 화면에서 직접 확인하는 작업입니다. 아래 순서대로만 체크하면 됩니다.
화면에서 직접 할 일
- 19:16 세로 프로젝트를 만들고 Kling 영상 소스를 순서대로 배치
- 2ElevenLabs 음성을 넣고 자동 자막 생성
- 3자막을 2줄 이하로 줄이고 첫 1초에 큰 제목 추가
- 4소리, 화면 잘림, 자막 위치를 확인한 뒤 내보내기
잘 안 나오면: 자막이 많으면 컷마다 핵심 단어만 남기고, 첫 화면에는 결과/문제/숫자 중 하나만 크게 보여주세요.
FINAL CHECK
마지막 3가지만 확인
단계별 후보 툴
각 단계에서 바로 비교할 대표 툴과 선택 전 확인할 점만 정리했습니다.
아이디어·대본 작성
타깃, 첫 3초 훅, 컷 단위 대본까지 한 번에 잡는다
산출물: 주제 3~5개, 첫 3초 훅, 컷 단위 쇼츠 대본
영상/이미지 생성
대본에 맞는 실사형 B-roll, 제품 장면, 무드 컷을 만든다
산출물: 3~8초 영상 클립 여러 개
| 대표 툴 | 이 단계에서 맡는 역할 | 선택 전 확인 |
|---|---|---|
| Kling | 핵심 영상 소스실사감 있는 짧은 영상 소스와 제품/라이프스타일 B-roll을 만들기 좋아 쇼츠의 중심 장면 제작에 적합 | 프롬프트 한 번에 끝내기 어렵기 때문에 3~5개 버전을 만들고 상업 이용 조건 확인 필요 |
| Runway | 고품질 B-roll/보정영상 생성과 편집 기능을 함께 써서 브랜드용 B-roll이나 분위기 컷 품질을 높이기 좋음 | 크레딧 비용과 러닝커브가 있어 실험용보다 중요한 컷에 쓰는 편이 좋음 |
| Pika | 빠른 영상 실험짧은 영상 아이디어를 빠르게 테스트하고 여러 콘셉트를 비교하기 좋음 | 정밀한 카메라/장면 제어는 한계가 있어 최종본은 검수 필요 |
대표 툴 3개만 먼저 보여줍니다. 비슷한 툴을 더 비교하려면 목록에서 이어서 보세요.
비슷한 툴 더보기음성 생성
얼굴이나 실제 목소리 없이도 쓸 수 있는 나레이션을 만든다
산출물: 나레이션 음성 파일
| 대표 툴 | 이 단계에서 맡는 역할 | 선택 전 확인 |
|---|---|---|
| ElevenLabs | 고품질 AI 나레이션짧은 대본을 자연스러운 음성으로 바꿔 얼굴 노출 없는 쇼츠나 제품 소개 영상에 쓰기 좋음 | 목소리 복제/상업 이용/한국어 발음은 업로드 전 반드시 샘플 확인 필요 |
편집/자막
영상 소스, 음성, 자막, 효과음을 합쳐 업로드 가능한 세로 영상으로 마감한다
산출물: 9:16 완성 영상
| 대표 툴 | 이 단계에서 맡는 역할 | 선택 전 확인 |
|---|---|---|
| CapCut | 최종 편집/템플릿AI로 만든 영상 소스와 음성을 세로 영상으로 합치고 자막, 효과, 템플릿까지 빠르게 마감하기 좋음 | 편집 템플릿 느낌이 강하면 채널 고유 톤이 약해질 수 있음 |
| Vrew | 한국어 자막/대본 편집한국어 자막 초안과 대본 기반 편집에 강해 정보성 쇼츠를 빠르게 다듬기 좋음 | 자막 인식 오류와 줄바꿈은 사람이 마지막에 확인해야 함 |
| VEED | 브라우저 편집/자막설치 없이 브라우저에서 자막, 컷 편집, 간단한 쇼츠 마감을 처리하기 좋음 | 복잡한 모바일 템플릿이나 세밀한 편집은 CapCut이 더 편할 수 있음 |
추천 툴 조합
처음 시작용, 품질 중심, 저비용 조합처럼 목적별로 바로 고를 수 있게 정리했습니다.
처음 쇼츠·릴스를 만드는 사람
처음 만드는 쇼츠 영상 조합
ChatGPT로 훅과 대본 초안을 잡고 Kling으로 영상 소스를 만든 뒤 ElevenLabs와 CapCut으로 음성·자막·편집까지 마감하는 기본 조합
초급
브랜드/마케팅용 짧은 영상을 만드는 사람
완성도 높이는 쇼츠 영상 조합
Claude로 컷 단위 대본을 잡고 Kling/Runway로 영상 소스, ElevenLabs로 음성, CapCut으로 최종 편집하는 조합
중급
한국어 쇼츠를 꾸준히 올리는 운영자
꾸준히 올리는 쇼츠 운영 조합
Claude 또는 ChatGPT로 반복 포맷의 훅·대본을 만들고 Kling, ElevenLabs, Vrew로 영상·음성·한국어 자막 루틴을 만드는 조합
고급
FAQ
처음에는 몇 초짜리 쇼츠가 좋나요?
처음에는 15~30초 안에서 훅, 핵심 메시지, CTA가 분명한 포맷을 추천합니다. 긴 설명보다 한 가지 메시지를 반복 테스트하는 편이 좋습니다.
얼굴을 안 보여줘도 쇼츠를 만들 수 있나요?
가능합니다. AI 이미지·영상, 화면 녹화, 자막, AI 음성 조합으로 시작할 수 있습니다. 다만 신뢰가 중요한 주제라면 브랜드 톤과 출처 표기를 더 신경 써야 합니다.
툴을 전부 써야 하나요?
아닙니다. 처음에는 대본, 영상 소스, 편집처럼 꼭 필요한 단계만 골라서 시작하면 됩니다. 결과물이 부족한 단계가 보일 때만 음성, 자막, 고급 영상 생성 툴을 하나씩 추가하는 편이 좋습니다.