[RVC 사용법] Applio 음성 변환 시 기계음/발음 뭉개짐 해결 방법 총정리

2026. 2. 27.

 

열심히 내 목소리(또는 원하는 목소리)를 학습시켜서 드디어 변환 버튼을 눌렀는데, 외계인 소리가 나거나, 기계음이 심하게 섞이거나, 발음이 심하게 뭉개져서 당황하셨나요?

 

"내가 녹음을 잘못했나?", "내 컴퓨터가 안 좋아서 그런가?" 자책하지 마세요!


녹음 데이터에 엄청난 잡음이 섞인 게 아니라면, 99%는 변환(Inference) 설정값이 내 목소리와 맞지 않아서 발생하는 문제입니다.

오늘은 RVC(Applio)를 사용할 때 목소리가 이상하게 나오는 원인과, 이를 완벽하게 해결하는 '황금 세팅법'을 아주 자세하게 파헤쳐 보겠습니다. 블로그에 스크랩해 두시고 변환할 때마다 체크리스트로 활용해 보세요!


🚨 문제 1. 목소리가 너무 굵은 괴물 같거나, 얇은 헬륨가스 소리가 나요!

➡ 범인: Pitch (음정 / Transpose) 설정 오류

 

RVC 변환에서 가장 흔하게 발생하는 초보자들의 실수 1위입니다.


AI는 원본 오디오(예: 노트북LM의 성우)의 음높이를 기준으로 내 모델의 목소리를 입힙니다. 성별이 다른데 이 값을 0으로 두면 아주 기괴한 목소리가 탄생합니다.

  • 해결 방법 (옥타브 조절):
    • 원본(남자) ➡ 내 모델(여자)로 바꿀 때: 반드시 +12 를 입력하세요. (한 옥타브를 올려줍니다)
    • 원본(여자) ➡ 내 모델(남자)로 바꿀 때: 반드시 -12 를 입력하세요. (한 옥타브를 내려줍니다)
    • 성별이 같을 때: 기본값인 0 을 둡니다.
    • [꿀팁] 미세 조정: 성별이 같아서 0으로 했는데도 내 목소리보다 너무 낮게 들리면 +2+3 정도로 조금씩 올려보세요. 사람마다 기본 톤이 달라서 약간의 미세 조정이 필요할 수 있습니다.

🚨 문제 2. 쇳소리(금속성 기계음)가 섞이고 목소리가 딱딱해요!

➡ 범인: Search Feature Ratio (Index Rate / 인덱스 비율)

 

목소리는 비슷한데, 말할 때마다 뒤에 '지지직' 하는 기계음이 깔리거나 AI 특유의 딱딱한 느낌이 난다면 이 수치가 너무 높은 것입니다.

  • 이 설정의 의미: 내가 학습시킨 '.index' 파일(내 목소리의 버릇과 억양 데이터)을 얼마나 강하게 적용할 것인가를 결정합니다.
  • 해결 방법:
    • 초기 세팅값이 보통 0.75로 되어 있는데, 이는 너무 높습니다.
    • 0.3 ~ 0.5 사이로 낮춰보세요.
    • 값을 낮추면 원본(노트북LM 성우)의 자연스러운 억양과 감정이 더 많이 반영되어 기계음이 확 줄어듭니다. 가장 자연스러운 '스위트 스팟'은 보통 0.4 근처입니다.

🚨 문제 3. 발음이 자꾸 뭉개지고 지저분하게 들려요!

➡ 범인: Pitch extraction algorithm (음정 추출 알고리즘)

 

원본 오디오에서 목소리의 높낮이를 어떤 방식으로 계산해서 뽑아낼지 결정하는 엔진입니다.

  • 해결 방법:
    • 기본값인 rmvpe 도 훌륭하지만, 가끔 특정 목소리나 발음에서는 소리가 먹먹해지거나 뭉개질 수 있습니다.
    • 그럴 때는 최신 알고리즘인 fcpe 로 라디오 버튼을 바꿔서 변환해 보세요.
    • fcpe는 연산 속도도 빠르고 노이즈를 덜 잡아내어 훨씬 깔끔하고 선명한 결과물을 내는 경우가 많습니다.

🚨 문제 4. '스, 프, 트' 같은 숨소리나 자음 발음이 이상해요!

➡ 범인: Protect Voiceless Consonants (무성 자음 보호)

 

말을 할 때 발생하는 자연스러운 숨소리나 강한 자음(ㅋ, ㅌ, ㅍ, ㅊ)이 전자음처럼 찢어지는 현상입니다.

  • 해결 방법:
    • 이 수치는 0.5가 최대치(가장 강하게 보호)이고, 0이 최소치입니다.
    • 발음이 찢어진다면 이 값을 0.33 ~ 0.5 로 올려주세요. AI가 자음 부분을 억지로 변환하지 않고 원본의 자연스러운 소리를 그대로 살려주어 훨씬 사람 같아집니다.

🚨 문제 5. 임베더 모델(Embedder Model)을 바꿔봐도 될까요?

➡ 정답: 절대 건드리지 마세요! (contentvec 유지)

 

목소리가 이상하다고 설정창 아래쪽에 있는 Embedder Modelkorean-hubert-base 등으로 바꾸시는 분들이 있습니다.

  • 이유: 임베더 모델은 AI가 목소리를 읽는 '사전' 같은 것입니다. 내가 모델을 학습(Train)시킬 때 썼던 사전과, 변환(Inference)할 때 쓰는 사전이 무조건 똑같아야 합니다.
  • 코랩의 기본 학습 설정은 contentvec입니다. 만약 학습은 contentvec으로 해놓고 변환할 때 다른 모델을 선택하면, 아예 해석을 못 해서 소리가 완전히 깨져버립니다. 그냥 기본값 그대로 두시는 것이 정답입니다.

💡 [보너스 꿀팁] 설정을 다 맞췄는데도 이상하다면? (과적합의 함정)

위의 '황금 세팅'을 모두 맞췄는데도 내 목소리 같지 않고 듣기 싫은 쇳소리가 난다면, 범인은 설정이 아니라 '모델 파일(.pth) 자체'일 수 있습니다.

  • 과적합(Overfitting): AI에게 공부를 너무 많이 시켜서(Epoch가 너무 높아서), 오히려 부작용이 난 상태입니다.
  • 해결책 (에포크 다이어트): 만약 200회차(200e) 파일로 변환해서 이상했다면, 코랩 폴더로 돌아가서 100회차(100e)80회차(80e) 파일을 다운로드해서 적용해 보세요.
  • 거짓말처럼 100회차 파일이 훨씬 맑고 자연스럽게 들리는 경우가 아주 많습니다! (데이터가 10분 이상으로 충분하다면 더더욱 낮은 에포크가 좋습니다.)

📝 요약: 변환 전 무조건 확인해야 할[RVC 황금 세팅 체크리스트]

  1. Voice Model / Index: 알맞은 .pth.index 파일 선택
  2. Split Audio: 체크 ☑️ (긴 오디오 변환 시 튕김 방지)
  3. Pitch: 성별에 맞게 +12, -12, 또는 0 조절
  4. Search Feature Ratio: 0.4 로 낮추기
  5. Pitch extraction algorithm: fcpe 로 변경해 보기
  6. Protect Voiceless Consonants: 0.5 유지
  7. Embedder Model: contentvec 유지

이제 이 설정값대로 다시 한번 [Convert] 버튼을 눌러보세요.


어색했던 기계음은 사라지고, 깜짝 놀랄 만큼 자연스럽고 매력적인 나만의 AI 목소리가 완성되어 있을 것입니다! 성공적인 콘텐츠 제작을 응원합니다! 🎉




댓글