떠든다.잡설./VR(버츄얼)

AI 커버곡 만들기 완성본까지

몽브르 2024. 4. 2.
 

AI 노래 커버 만드는 방법(간단한사이트이용/AI학습이용)

요즘 AI로 유명인 목소리로 노래를 커버한 영상을 종종 접하게 되는데요. 이젠 들을 수 없는 옛날 사람들의 목소리라던지, 내가 좋아하는 가수의 목소리로 원하는 노래를 커버한다던지 하는 게

grandvert.tistory.com

이전에도 글을 쓴적이 있는데 상당히 오래되었기 때문에 다시 작성을 해봅니다. 완성본까지 뽑아서 들어봤는데 학습 소스의 정리가 부족했는지 기계음이 섞이지만 꽤나 마음에 드네요.

 

 

 

준비물

1. 학습을 위한 원본 목소리 소스

2. 구글드라이브 계정

3. 코랩 주소 - 모듈 생성

4. Replay - 모듈 적용

 

 

 

과정요약

1. 코랩을 이용해 목소리 학습 모듈 생성

2. Peplay를 이용해 노래에 모듈을 적용해 커버곡 생성

3. 중간중간 상당한 기다림

 

 

학습 자료 준비

음성으로만 구성된 약 15~30분 정도의 mp3파일을 만들어줍니다.

 

 

 

mp3파일을 압축해서 zip파일로 만들어줍니다.

 

 

 

파일명에 대문자, 한글, 특수기호가 들어가면 오류가 나는 경우가 있다고 합니다. 영어 소문자와 숫자로 구성된 이름으로 작성해주세요.

 

 

 

코랩 준비

 

RVC v2 Disconnected

Colaboratory notebook

colab.research.google.com

구글 드라이브에 로그인이 되어있다는 전제로 진행하겠습니다. 위 링크를 눌러 코랩 주소로 접속해줍니다.

 

 

Drive로 복사를 눌러 내 구글드라이브로 자료를 복사해옵니다.

 

 

완료가 되면 RvC v2 Disconnected[의 사본]이라는 제목을 확인 하실 수 있습니다.

 

 

 

이제 [구글 드라이브 -> 내드라이브 -> Colab Notebooks -> RVC v2 Disconnected의 사본]에서 학습 프로그램을 실행할 수 있습니다.

 

 

학습 자료 업로드

[구글 드라이브->내드라이브]에 [rvcDisconnected]라는 폴더를 만들어줍니다. 폴더는 [우클릭->새폴더]로 만들 수 있습니다.

 

[rvcDisconnected] 폴더 안에 아까 만들어둔 학습자료인 zip파일을 업로드 해줍니다.

 

 

 

코랩 데이터 입렵

여기에 기재된 값들은 정답이라기 보다 해당값은 이렇게 진행하니까 잘되었던 설정값들입니다.

Set Training Variables에 있는 항목들입니다. 

 

 

 

experiment_name : 모델 이름이니까 원하는 이름을 적어줍니다.

pretrain_type :  original

model_architecture : v2

target_sample_rate : 48k

speaker_id : 0

pitch_extraction_algorithm : rmvpe

crepe_hop_length : 64

pitch_guidance : 체크

 

 

 

Preprocessing -> Load Dataset에 아까 [rvcDisconnected] 폴더에 만들어 올린 zip파일의 이름을 적어줍니다.

 

 

 

Training에서

save_frequency : 50

total_epochs : 150~200

학습 횟수를 생각하시면 된다고합니다. 무료버전 코랩의 경우 데이터 사용량에 제한이 있기 때문에 30분가량의 소스를 학습시킬때 약200회정도가 한계치였습니다.

batch_size: 16

음원길이에 따라서 2분 미만의 소스인경우 4, 그이외의 경우 8,16을 선택하라고합니다. 저는 30분짜리 통 데이터를 올렸으니 16을 적었습니다.

나머지 3개 값 : 체크

 

 

 

코랩 구동

위에서부터 내려가면서 재생 버튼을 순서대로 눌러주시면 됩니다. 완료 될때까지 기다리지 마시고 순서대로 다 눌러두세요.

Run me first

Set Training Variables

Load Dataset

Preprocessing and Feature Extraction

Save preprocessed dataset file to Google Drive

Index Training

Training

Export Model From Notebook to Drive

위 순서대로 내려오면서 재생 버튼을 눌러줍니다. 혹시 몰라 스크린샷도 첨부하니 같이 확인해보세요.

학습이 다 완료 되는데까지 저는 3시간 정도 소요가 되었습니다. 

 

 

 

학습 모델 확인하기

rvcDisconnected 폴더안에 들어가면 모델 이름으로 적어뒀던 폴더가 생성된걸 볼 수 있습니다. 전 experiment_name을 그대로 썻습니다.

 

 

[rvcDisconnected -> 모델이름] 폴더 안으로 들어가보니 여러 파일이 생성된걸 볼 수있습니다. 우리는 여기서 [모델이름.pth] 파일과 [add로시작하는 .index]파일을 다운받아서 zip파일로 압축해줍니다. 이제 학습시킬수 있는 모델 파일이 완성 되었습니다.

 

 

 

Replay다운로드

 

Replay | Free AI Voice Cloning and Stemming using RVC Models

Remix your favorite music with AI, entirely on device, for free.

www.tryreplay.io

학습은 불가능하지만 모델을 이용해 결과물을 만들어낼 수 있는 프로그램인 Replay입니다. 이 과정 역시 코랩을 할수도있지만 데이터 사용량에 제한도 있고 과정도 조금 더 복잡하니 쉽게 진행 할수있는 Replay를 써봅니다.

 

 

 

사이트에 접속하셔서 다운 받으시고 설치하시면 되겠습니다. 설치과정은 큰 어려움이 없으니 생략 하겠습니다.

 

 

 

학습 모델 불러오기

빨간줄 친 부분을 누르고 아까 만든 모델 파일을 불러오시면 모델에 등록된 것을 확인 할 수 있습니다.

 

 

 

음원 및 설정

URL입력칸에 유튜브 주소를 넣어놓고 기다리면 음원이 불러와지는걸 볼 수있습니다. 파일로 따로 불러오는 것도 가능합니다.

 

 

 

아래로 내려서 Settings을 누르면 여러 옵션이 나오는걸 볼 수 있습니다. 다른건 살짝씩 만져보시거나 그대로 두시면 되고 Pre-stemmed를 확인하셔야합니다.

 

커버할 음원이 노래와 보컬이 분리되어있으면 해당기능을 켜시고, 노래와 보컬이 붙어있으면 그대로 꺼두시면 되겠습니다. 전 유튜브를 가져와서 해볼 생각이니 꺼두겠습니다.

 

 

 

하단에 Advanced Settings를 누르면 추가적인 옵션을 확인할 수 있습니다. 다른건 크게 손대실 부분이 없으니 Output Format이 mp3 320k인지 확인하시면 될것 같습니다. 이제 CREATE SONG을 눌러줍니다.

 

 

 

결과물 확인

이제 약 2~10분 가량 시간이 걸리면 작업 결과물을 볼 수 있습니다. 음원과 보걸을 분리해서 학습자료로 보컬을 변경한뒤에 다시 음원에 붙이는 작업을해서 결과물을 만들어줍니다.

 

 

프로그램내에서 미리들어 볼수있는것은 물론 저장해서 파일로 사용할 수 있습니다.

Original Song은 원본

Converted Vocals는 변경된 목소리만

Ogirinal Vocals는 원본 목소리만

Instrumentals는 원본 음원만

그리고 좌측 리스트에서 점세개 -> Save to Downloads로 완성된 결과물을

 

 

반응형

추천 글