É do Brasil! Transcritor de áudio mais famoso foi criado aqui; saiba mais

O brasileiro Jonatas Grosman utilizou de sua curiosidade e “nerdice” enquanto passava por momento delicado em sua vida – tratando de câncer no pulmão – para criar algo que virou febre no mundo todo.

O doutor em ciências da computação criou modelo de transcrição que supera os de Facebook, Google e Microsoft, por exemplo.

Leia mais:

Trocou de celular? Como recuperar o Google Authenticator na nuvemPor que os preços de smartphones e tablets são tão altos no Brasil?Booking.com adota ChatGPT para dicas de viagem

O modelo foi baixado mais de 71,9 milhões de vezes no Hugging Face, plataforma de compartilhamento de códigos de IA.

Após concluir o mestrado, em 2017, Grosman mudou de tema várias vezes nos dois primeiros anos;Decidiu-se, por fim, a identificar viés de modelo de linguagem;O câncer de pulmão o impediu melhorar resultados existentes e o fez deixar o trabalho de lado para se tratar;Para se distrair, ele buscou algo que envolvesse programação.

Dei de cara com um trabalho do Facebook Research, agora Meta AI, que tinha relação com reconhecimento de fala, para transcrever áudio, basicamente. Eles propuseram modelo que achei interessante e comecei a implementá-lo.

Jonatas Grosman, em entrevista ao UOL

Durante suas pesquisas sobre como interagir com a rede neural (complexo sistema que tenta fazer a IA se comportar como nosso cérebro), Grosman resolveu participar de competição promovida pela Hugging Face em 2021.

No fim da disputa, ele havia construído os melhores modelos que reconhecem fala responsáveis por treinar robôs em vários idiomas (ao menos oito). Dessa forma, os robôs transcrevem o que ouviram.

O resultado fez com que ele, ao voltar ao doutorado, no ano passado, mudasse para outro tema: “Avaliando a Robustez de Grandes Modelos Pré-treinados no Reconhecimento de Fala”, o que o fez ganhar nova edição do torneio da Hugging.

Fico muito lisonjeado por ganhar as duas competições e quando vejo quantos downloads foram feitos do meu modelo.

Jonatas Grosman, em entrevista ao UOL

Usando a tecnologia

Qualquer um pode baixar os meus modelos e usá-los para fins comerciais, inclusive pode ganhar muito dinheiro em cima, enquanto não ganho um centavo. Meu intuito é ajudar a galera do Open Source.

Jonatas Grosman, em entrevista ao UOL

Grosman indica que a solução pode ser usada para várias atividades, como transcrição de entrevistas e produção de legendas automáticas no YouTube. “Muita gente já entrou em contato comigo pedindo ajuda. Teve uma pessoa que pediu ajuda para usá-la para ‘laudar’ raio-x. Ela gravava o áudio do laudo e depois usava meu modelo para transcrever o áudio.”

Com o passar do tempo, ele moldou a tecnologia para identificar além de palavras comuns, transcendendo para os mundos da medicina e do call center. Hoje, já há modificações do sistema. Por exemplo, um usuário o treinou para identificar emoções nas falas.

Com ele, defini que minha tese seria na área NLP, que é, com muitas aspas, um jeito de fazer o computador entender informações, que podem vir em forma textual ou sonora. Tive que construir uma inteligência para extrair informações de textos.

Jonatas Grosman, em entrevista ao UOL

Com informações de UOL

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!

O post É do Brasil! Transcritor de áudio mais famoso foi criado aqui; saiba mais apareceu primeiro em Olhar Digital.

 

Você pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *