저작권 걱정 끝! 구글 코랩으로 '내 목소리 AI 모델' 직접 만드는 법 (.pth, .index 제작)

2026. 2. 26.

 

지난 포스팅에서는 남들이 만든 모델을 다운로드하여 사용하는 법을 알아봤습니다. 하지만 상업적으로 쓰기엔 저작권이 무섭고, 딱 원하는 톤을 찾기도 힘들었죠?

 

그래서 오늘은 내 목소리, 혹은 내가 녹음한 파일을 가지고 세상에 단 하나뿐인 RVC 모델을 만드는 방법을 알려드립니다.

고성능 그래픽카드? 필요 없습니다. 이번에도 구글 코랩(Google Colab) 하나면 무료로 가능합니다.


🎙️ 1단계: 학습시킬 '목소리 데이터' 준비하기 (가장 중요!)

AI가 공부할 교과서를 만드는 과정입니다.

  1. 녹음하기: 스마트폰 녹음기나 PC 마이크로 목소리를 녹음합니다.
    • 분량: 최소 5분 이상, 권장 10분~20분. (너무 길면 학습이 오래 걸립니다.)
    • 내용: 책을 읽거나, 뉴스를 읽거나, 자연스럽게 대화하듯 녹음하세요.
    • 품질: 잡음(노이즈)이 없는 조용한 곳에서 녹음하는 것이 퀄리티의 90%를 결정합니다.
  2. 파일 정리:
    • 녹음된 파일을 하나로 합쳐서 my_voice.wav 처럼 하나의 파일로 만듭니다. (여러 개로 쪼개져 있어도 되지만, 하나로 합쳐서 올리는 게 관리가 편합니다.)
    • [Tip] 배경음악(BGM)이 섞여 있으면 절대 안 됩니다! 오직 '목소리'만 있어야 합니다.

🚀 2단계: 코랩(Applio) 접속 및 실행

이전 포스팅과 똑같습니다. 학습 도구를 켜봅시다.

  1. 구글에 "Applio Colab" 검색 또는 깃허브 링크 접속.
  2. 상단 메뉴 [런타임][런타임 유형 변경][T4 GPU] 확인 후 저장.
  3. 코드 박스의 재생(▶) 버튼을 순서대로 클릭.
  4. 맨 밑에 나오는 파란색 URL (Public URL) 클릭하여 WebUI 접속.

🏋️ 3단계: 본격적인 학습 시작 (Train 탭)

WebUI가 열리면 이번에는 상단 메뉴에서 'Inference'가 아니라 Train (학습) 탭을 클릭합니다.

복잡해 보이지만, [1. Preprocess] ➡ [2. Extract] ➡ [3. Train] 이 세 단계만 순서대로 누르면 됩니다.

① 데이터 업로드 및 전처리 (Preprocess)

  1. Model Name: 만들고 싶은 모델의 이름을 영어로 적습니다. (예: my_voice_v1)
  2. Dataset Path: 아까 준비한 녹음 파일(.wav)을 업로드합니다.
    • 방법: 코랩/Applio 화면의 업로드 칸에 드래그하거나, dataset 폴더를 만들어 넣고 경로를 적습니다.
  3. Sampling Rate: 40k 또는 48k 선택 (보통 40k를 많이 씁니다).
  4. [Preprocess Dataset] 버튼 클릭!
    • AI가 긴 오디오를 자동으로 짧게 잘라서 학습하기 좋게 만듭니다.

② 특징 추출 (Extract)

  1. F0 Method: rmvpe_gpu를 선택하세요. (가장 성능이 좋습니다.)
  2. [Extract Features] 버튼 클릭!
    • 목소리의 높낮이와 특징을 분석하는 단계입니다.

③ 학습 실행 (Train)

이제 AI에게 공부를 시킬 차례입니다.

  1. Total Epochs (반복 횟수): AI가 교과서를 몇 번 볼지 정합니다.
    • 데이터가 10분 내외라면 100~200 정도가 적당합니다.
    • 너무 적으면 웅얼거리고, 너무 많으면 목소리가 깨집니다(과적합).
  2. Save Frequency: 몇 번마다 저장할지 정합니다. (예: 10 또는 20)
  3. Batch Size: 기본값(보통 8~16)으로 둡니다.
  4. [Start Training] 버튼 클릭!
  5. 이제 기다림의 시간입니다. 코랩 화면(검은 창)을 보면 줄글이 계속 올라가며 학습이 진행됩니다. (10분 데이터 기준 약 20~40분 소요)

📦 4단계: 완성된 파일(.pth, .index) 다운로드

학습이 끝나면(설정한 Epoch에 도달하면), 이제 결과물을 내 컴퓨터로 가져와야 합니다. WebUI에서 다운로드가 안 될 경우, 코랩의 파일 탐색기를 이용하는 게 가장 확실합니다.

  1. 코랩(Colab) 페이지로 돌아옵니다. (파란 화면 말고 코드 실행하던 창)
  2. 왼쪽 사이드바의 폴더 아이콘(📁)을 클릭합니다.
  3. Applio 폴더 ➡ logs 폴더 ➡ 내가지은모델이름 폴더로 들어갑니다.
  4. 여기서 두 가지 파일을 찾아서 우클릭 ➡ [다운로드] 합니다.
    • my_voice_v1.pth (파일명 뒤에 숫자가 붙어있다면 숫자가 가장 큰 것, 혹은 _e100 처럼 에포크 수가 적힌 것을 받으세요.)
    • added_...index (인덱스 파일입니다. .index로 끝납니다.)

💡 꿀팁:
.pth 파일은 목소리의 '톤'을 담당하고,
.index 파일은 목소리의 '발음 습관/억양'을 담당합니다.
두 파일을 함께 사용해야 훨씬 자연스러운(비슷한) 목소리가 나옵니다.


🎉 마치며: 이제 내 목소리로 마음껏!

이제 다운로드한 .pth.index 파일을 잘 보관해 두세요.

 

이후에는 Inference(추론) 탭에서 이 파일들을 업로드하기만 하면, 노트북LM의 팟캐스트든, 노래든, 그 어떤 오디오도 이 목소리로 바꿀 수 있습니다.

  • 가장 큰 장점: 내 목소리(혹은 허락받은 목소리)이므로 유튜브 수익 창출, 광고 제작 등 모든 상업적 활동에 제약이 없습니다.

여러분의 목소리로 만든 AI, 지금 바로 도전해 보세요!



댓글