Removendo ou extraindo vocal de músicas com precisão

Tempo de leitura: 6 minutos

Olá pessoal!
Espero que estejam todos muitíssimo bem!

Neste post estou inspirado para falar de um assunto que é de muito interesse dos profissionais e até mesmo de entusiastas da música, e que continua sendo objeto de muitas pesquisas já há um bom tempo: Será que é possível remover o vocal de uma música já mixada e masterizada? Ou então, extrair a voz retirando o instrumental?
Bom, muitos com certeza ainda vão dizer que não; outros vão dizer que sim , mas de forma parcial.

Remover ou isolar o vocal de uma música com 100% de precisão sempre foi um grande desafio e, até então, era considerado algo praticamente impossível. Mas o fato é que, com os primeiros sinais da inteligência artificial nesse sentido, que começou por volta de 2019, isso está mudando para melhor, com resultados que surpreendem a cada novo algoritmo desenvolvido e pré-treinado.
Dependendo da música, a precisão pode chegar em torno de 75 a 90%.
Ótimo para inúmeras finalidades:

  • Ensaiar a música ouvindo todo ou parte do instrumental; útil quando o arranjo é muito complexo e se deseja ouvir algo com mais detalhes
  • Extrair o vocal para usar em uma nova versão da música, como um remix ou mashup, mesmo sem ter as tracks ou pedir autorização para o artista ou gravadora
  • Gerar o playback da música para cantar por cima (a qualidade pode ficar um pouco prejudicada dependendo de qual for escolhida)

É claro que, para ambos os casos como acabei de dizer, e dependendo do algoritmo escolhido, ainda pode haver alguma perda de qualidade, mas já está bem melhor do que se podia fazer no passado.
Estamos falando aqui de engenharia reversa. Pense nisso como a tentativa de descompilar um software de código fechado… É a mesma coisa.

Numa música finalizada, tudo está incluído: A voz, os instrumentos e os efeitos e demais elementos de produção.
Uma vez que você não está de posse das tracks separadas, não é possível ouví-las individualmente, com a mesma qualidade com que foi gravado ou captado.
Então, assim como é estabelecido no acordo de licença do uso de um aplicativo de código fechado, você não tem autorização para descompilar, desmontar ou fazer alguma modificação de forma ilegal. É daí que vem a pirataria e os crackers fazem justamente isso.

E na música não é diferente.
Eu tenho essa consciência e acredito que você que produz e já imaginou fazendo coisas legais com elas também tem, mas existe situações em que realmente é muito complicado pedir autorização para obter o projeto aberto à um artista ou gravadora, por diversas razões:

  • O artista pode já ter falecido
  • A gravadora pode não existir mais
  • Sem uma grande negociação que beneficie mais o artista ou a própria gravadora do que o interessado, é provável que a proposta seja recusada
  • Não há garantia de que a gravadora ainda tenha o projeto arquivado

Entra em cena a manifestação artística através dos meios digitais quando não há outra possibilidade melhor, de forma que nem sempre isso representa um problema grave.
Por exemplo: Num show em público, é livre a interpretação de músicas populares tanto por artistas independentes quanto profissionais, sem que seja necessário uma autorização para isso.
Num remix ou produção bem criativa de uma música já existente, o autor não deixará de ter seus ganhos pela criação original, mas o produtor da versão remixada também poderia ser recompensado pelo trabalho e por mostrar ao mundo a peça musical de um novo jeito, com um novo estilo e alcançando um público ainda maior.

Assim, A possibilidade de isolar e principalmente remover o vocal das músicas com o surgimento de novas ferramentas inteligentes já está sendo uma mão na roda, gerando resultados cada vez melhores e de acesso imediato para o público em geral, músicos e não músicos.
Então, se ficou interessado, continue lendo e vamos ver as técnicas possíveis para remover ou isolar o vocal de uma música!

Isolando ou retirando a voz através da inversão de fase

No caso de isolar o vocal de uma música dessa forma, é necessário possuir a versão original da música e outra versão que contenha apenas o playback, ambas com a mesma qualidade de áudio em bitrate e sample rate.
Esse processo envolve o fenômeno físico da inversão de fase, que se aplica ao áudio por causa das ondas sonoras e das vibrações que geram no ar.

Ao ouvirmos um som, percebemos as variações na pressão que são geradas pelas ondas. Durante a gravação, o diafragma do microfone age de forma semelhante ao tímpano, vibrando de acordo com essas ondas.
Os picos de onda movem o diafragma em uma direção, enquanto os períodos de menor intensidade geram movimento na direção oposta.
Com isso em mente, podemos dizer que ao juntarmos a versão original com a versão playback, ambas sincronizadas perfeitamente, podemos utilizar a técnica de inversão de fase em uma delas. Isso fará com que a voz seja reproduzida isoladamente, já que essa é a única parte da música que não aparece no playback e, portanto, não será anulada.

Para fazer o inverso, você precisaria ter, além da original, uma versão apenas com a voz.
É importante ressaltar que é incomum encontrar a voz separada da música com qualidade 100% original, o que dificulta esse processo de gerar o Playback por inversão de fase.
Além disso, a maioria dos artistas não disponibiliza os playbacks de suas músicas oficialmente, sendo mais comum encontrá-los em músicas do estilo gospel ou gerados a partir de multitracks vazados de músicas internacionais mais antigas que circulam na internet.

Sendo assim, é melhor deixar isso para a IA, não é mesmo? ☺
Continue lendo!

Isolando ou retirando a voz com plugins, programas e ferramentas online

No passado, alguns plugins que tentavam remover o vocal das músicas muitas vezes prejudicavam a qualidade do áudio, destruindo a imagem stereo e transformando o resultado em mono.
Hoje, já existe a técnica de machine learning por trás, como no site Phonicmind , onde você consegue, online, remover e isolar o vocal de músicas com bastante precisão e salvar o resultado em arquivo mp3.
Este foi o primeiro site que descobri na época, com resultados bem satisfatórios.

De lá pra cá, muitos outros sites e algoritmos surgiram com o mesmo propósito, como o Moises.ai (plano gratuito e pago) e o Melody.ml ; todos utilizam o algorítmo avançado de separação de áudio criado pelo Deezer (sim, uma das empresas de streaming de música).
O projeto chama-se Spleeter e o código é open source e disponível para desenvolvedores.
Sobre o Moises, além de ter a ferramenta para separar a música em várias partes, também é possível descobrir a tonalidade, o BPM (batidas por minuto) e os acordes cifrados, fora um recurso bem interessante para masterizar suas próprias músicas para deixar com uma cara mais profissional.

Mais recentemente ainda, também surgiu outro site chamado Lalal.ai , que promete resultados melhores do que os que usam a tecnologia spleeter, usando o Phoenix como algoritmo.
Por fim, esse aqui possibilita escolher o algoritmo que será utilizado (demusc, Ultimate Vocal Remover HQ, etc). Aliás, até agora, o Ultimate Vocal Remover foi o que mais me surpreendeu, principalmente para remover o vocal de músicas e usando a versão Offline em forma de programa (falarei mais sobre isso adiante).

Para os demais algoritmos, particularmente noto que, ao isolar a voz de músicas em que ela aparece com muito reverb, o noise reduction (ou gate) aplicado durante a extração faz com que a sobra do efeito seja cortado.

Na categoria de programas e plugins, uma ferramenta muito inteligente é o aplicativo RX da Izotop .
Um de seus módulos (music rebalance) permite ajustar o ganho de elementos de uma música já mixada em tempo real, o que ajuda a resolver problemas de volume. É possível também isolar ou remover a voz, bateria ou percussão, baixo e outros instrumentos.
Para o Demucs citado anteriormente em um dos sites, existe uma interface gráfica adaptada (GUI) , que permite utilizá-lo sem precisar de internet.
O mesmo vale também para o Ultimate Vocal Remover GUI, disponível para Windows, Mac e Linux, que reúne vários outros algoritmos tudo em um mesmo aplicativo.
Alguns já vem no pacote, outros podem ser baixados separadamente. Destaque aqui para o modelo UVR-DeEcho-DeReverb da categoria VR Architecture, que simplesmente tira o reverb ou o eco da voz extraída, ou mesmo de qualquer outro material de áudio que contenha o efeito.
Impressionante, não? 😯

Na minha opinião, o resultado produzido pelos dois são muito melhores se comparado ao RX.
O Demucs se destaca por ter melhor precisão para extrair baixo e bateria. O Ultimate Vocal Remover além de gerar a versão da música sem a voz com uma precisão muito boa, não deixa a desejar ao isolá-la, preservando os detalhes como a respiração e a sobra do efeito aplicado, com o mínimo de artefatos.

Uma outra alternativa é o Extra Boy pro da Elevayta, que funciona como um plugin VST e também permite ter controle do espectro sonoro, deletando um ou múltiplos instrumentos.
Por fim, o Voice Trap da Clone Ensemble, que é o mais antigo das ferramentas de remoção e isolamento de voz.
Na época que ele foi lançado, era o que havia de melhor. Tem plugin para VST e DirectX.

Bom galera, é isso.
Espero que tenham gostado!
Deixem suas impressões nos comentários.
Vou gostar de saber de outras ferramentas.
Até a próxima!

. Nenhum comentário em Removendo ou extraindo vocal de músicas com precisão. Categorias: Plug-ins, Produção musical. Palavras chave: , , , , , , , , .

Sobre mim

Sou tecladista, pianista e graduado como produtor fonográfico pela Universidade do Vale do Rio dos Sinos (Unisinos), além de qualificado profissional em composição e arramjo e técnico em instrumento musical pela faculdades EST de São Leopoldo.

Seja o primeiro

Não seja um espectador passivo - participe da conversa deixando um comentário abaixo!