지난 포스팅에서는 남들이 만든 모델을 다운로드하여 사용하는 법을 알아봤습니다. 하지만 상업적으로 쓰기엔 저작권이 무섭고, 딱 원하는 톤을 찾기도 힘들었죠?
그래서 오늘은 내 목소리, 혹은 내가 녹음한 파일을 가지고 세상에 단 하나뿐인 RVC 모델을 만드는 방법을 알려드립니다.
고성능 그래픽카드? 필요 없습니다. 이번에도 구글 코랩(Google Colab) 하나면 무료로 가능합니다.
🎙️ 1단계: 학습시킬 '목소리 데이터' 준비하기 (가장 중요!)
AI가 공부할 교과서를 만드는 과정입니다.
- 녹음하기: 스마트폰 녹음기나 PC 마이크로 목소리를 녹음합니다.
- 분량: 최소 5분 이상, 권장 10분~20분. (너무 길면 학습이 오래 걸립니다.)
- 내용: 책을 읽거나, 뉴스를 읽거나, 자연스럽게 대화하듯 녹음하세요.
- 품질: 잡음(노이즈)이 없는 조용한 곳에서 녹음하는 것이 퀄리티의 90%를 결정합니다.
- 파일 정리:
- 녹음된 파일을 하나로 합쳐서
my_voice.wav처럼 하나의 파일로 만듭니다. (여러 개로 쪼개져 있어도 되지만, 하나로 합쳐서 올리는 게 관리가 편합니다.) - [Tip] 배경음악(BGM)이 섞여 있으면 절대 안 됩니다! 오직 '목소리'만 있어야 합니다.
- 녹음된 파일을 하나로 합쳐서
🚀 2단계: 코랩(Applio) 접속 및 실행
이전 포스팅과 똑같습니다. 학습 도구를 켜봅시다.
- 구글에 "Applio Colab" 검색 또는 깃허브 링크 접속.
- 상단 메뉴 [런타임] ➡ [런타임 유형 변경] ➡ [T4 GPU] 확인 후 저장.
- 코드 박스의 재생(▶) 버튼을 순서대로 클릭.
- 맨 밑에 나오는 파란색 URL (Public URL) 클릭하여 WebUI 접속.
🏋️ 3단계: 본격적인 학습 시작 (Train 탭)
WebUI가 열리면 이번에는 상단 메뉴에서 'Inference'가 아니라 Train (학습) 탭을 클릭합니다.
복잡해 보이지만, [1. Preprocess] ➡ [2. Extract] ➡ [3. Train] 이 세 단계만 순서대로 누르면 됩니다.
① 데이터 업로드 및 전처리 (Preprocess)
- Model Name: 만들고 싶은 모델의 이름을 영어로 적습니다. (예:
my_voice_v1) - Dataset Path: 아까 준비한 녹음 파일(
.wav)을 업로드합니다.- 방법: 코랩/Applio 화면의 업로드 칸에 드래그하거나, dataset 폴더를 만들어 넣고 경로를 적습니다.
- Sampling Rate: 40k 또는 48k 선택 (보통 40k를 많이 씁니다).
- [Preprocess Dataset] 버튼 클릭!
- AI가 긴 오디오를 자동으로 짧게 잘라서 학습하기 좋게 만듭니다.
② 특징 추출 (Extract)
- F0 Method:
rmvpe_gpu를 선택하세요. (가장 성능이 좋습니다.) - [Extract Features] 버튼 클릭!
- 목소리의 높낮이와 특징을 분석하는 단계입니다.
③ 학습 실행 (Train)
이제 AI에게 공부를 시킬 차례입니다.
- Total Epochs (반복 횟수): AI가 교과서를 몇 번 볼지 정합니다.
- 데이터가 10분 내외라면 100~200 정도가 적당합니다.
- 너무 적으면 웅얼거리고, 너무 많으면 목소리가 깨집니다(과적합).
- Save Frequency: 몇 번마다 저장할지 정합니다. (예: 10 또는 20)
- Batch Size: 기본값(보통 8~16)으로 둡니다.
- [Start Training] 버튼 클릭!
- 이제 기다림의 시간입니다. 코랩 화면(검은 창)을 보면 줄글이 계속 올라가며 학습이 진행됩니다. (10분 데이터 기준 약 20~40분 소요)
📦 4단계: 완성된 파일(.pth, .index) 다운로드
학습이 끝나면(설정한 Epoch에 도달하면), 이제 결과물을 내 컴퓨터로 가져와야 합니다. WebUI에서 다운로드가 안 될 경우, 코랩의 파일 탐색기를 이용하는 게 가장 확실합니다.
- 코랩(Colab) 페이지로 돌아옵니다. (파란 화면 말고 코드 실행하던 창)
- 왼쪽 사이드바의 폴더 아이콘(📁)을 클릭합니다.
Applio폴더 ➡logs폴더 ➡내가지은모델이름폴더로 들어갑니다.- 여기서 두 가지 파일을 찾아서 우클릭 ➡ [다운로드] 합니다.
my_voice_v1.pth(파일명 뒤에 숫자가 붙어있다면 숫자가 가장 큰 것, 혹은_e100처럼 에포크 수가 적힌 것을 받으세요.)added_...index(인덱스 파일입니다..index로 끝납니다.)
💡 꿀팁:
.pth파일은 목소리의 '톤'을 담당하고,.index파일은 목소리의 '발음 습관/억양'을 담당합니다.
두 파일을 함께 사용해야 훨씬 자연스러운(비슷한) 목소리가 나옵니다.
🎉 마치며: 이제 내 목소리로 마음껏!
이제 다운로드한 .pth와 .index 파일을 잘 보관해 두세요.
이후에는 Inference(추론) 탭에서 이 파일들을 업로드하기만 하면, 노트북LM의 팟캐스트든, 노래든, 그 어떤 오디오도 이 목소리로 바꿀 수 있습니다.
- 가장 큰 장점: 내 목소리(혹은 허락받은 목소리)이므로 유튜브 수익 창출, 광고 제작 등 모든 상업적 활동에 제약이 없습니다.
여러분의 목소리로 만든 AI, 지금 바로 도전해 보세요!
'디자인 인사이트 > 동영상 만들기' 카테고리의 다른 글
| [파이썬 제너러티브 아트] 코드로 자연을 그리다: 수학이 만든 경이로운 무늬들 🌿✨ (0) | 2026.03.31 |
|---|---|
| [RVC 사용법] Applio 음성 변환 시 기계음/발음 뭉개짐 해결 방법 총정리 (0) | 2026.02.27 |
| 구글 코랩 + RVC로 노트북LM 목소리 무료로 바꾸는 법 (완벽 가이드) (0) | 2026.02.26 |
| 구글 노트북LM 한국어 목소리 바꾸기 완벽 가이드 (feat. 일레븐랩스 & 무료 RVC 코랩) (0) | 2026.02.26 |
| [Python+FFmpeg] 내 마음대로 설계하는 자동 영상 제작 스크립트 만들기 (0) | 2026.02.04 |
댓글