IA do Google ‘lê’ texto e pixels para criar paisagens sonoras

A DeepMind, empresa de pesquisa e desenvolvimento de inteligência artificial (IA) do Google, desenvolve uma ferramenta capaz de criar “paisagens sonoras” para vídeos. Chamada de V2A (abreviação, em inglês, de “vídeo-para-áudio”), a ferramenta entende comandos de texto e “lê” pixels para sincronizar áudio com vídeo.

Nova ferramenta do Google cria falas, música e efeitos para vídeos

A DeepMind, empresa de pesquisa e desenvolvimento de inteligência artificial (IA) do Google, desenvolve uma ferramenta chamada V2A (vídeo-para-áudio), capaz de criar “paisagens sonoras” para vídeos. Esta ferramenta entende comandos de texto e analisa pixels para sincronizar áudio com vídeo;

O “motor” da V2A é um modelo de IA treinado com sons, videoclipes e transcrições de diálogos. As “paisagens sonoras” geradas pela ferramenta incluem diálogos, música e efeitos sonoros, todos ajustados para corresponder ao tom das imagens dos vídeos;

Devido à qualidade ainda não ideal do som e para evitar o uso indevido, como a criação de deep fakes focadas em desinformação, a DeepMind informou que a ferramenta não será disponibilizada ao público tão cedo.

O “motor”– ou “cérebro”, se preferir – do V2A é um modelo de IA que foi treinado combinando sons, videoclipes e transcrições de diálogos. A ferramenta usa a descrição de trilhas sonoras para criar “paisagens” e, depois, as sincroniza com as imagens.

Leia mais:

Nova atualização do Chrome vai ajudar quem não gosta de ler

Veja as vantagens de usar o Gemini em vez do Google Assistente no seu celular

Como verificar informações e imagens falsas no Google

‘Paisagens sonoras’ criadas por IA do Google têm falas, efeitos e música

(Imagem: Reprodução/YouTube)

As “paisagens sonoras” criadas pela nova ferramenta do Google contam com diálogos, música e efeitos sonoros. Elas são geradas de forma que correspondam ao tom das imagens dos vídeos.

“Através do treinamento em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a várias cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições”, explica a DeepMind em comunicado publicado em seu site.

Ainda de acordo com a empresa, a ferramenta seria capaz de compreender “pixels brutos” de uma imagem e sincronizar automaticamente os sons gerados, sem necessidade de descrições.

Por ainda não ter alcançado uma qualidade alta de som e para evitar o uso indevido, como deep fakes focadas em desinformação, a DeepMind disse que não disponibilizará o recurso tão cedo.

Assista abaixo algumas demonstrações de “paisagens sonoras” criadas na V2A (as imagens foram criadas no Veo, plataforma do Google que transforma texto em vídeo):

O post IA do Google ‘lê’ texto e pixels para criar paisagens sonoras apareceu primeiro em Olhar Digital.

 

Você pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *