Back to photostream

Voice Engine, a nova ferramenta da OpenAI para clonagem de vozes com IA

via

 

Vozes perturbadoramente realistas

 

A OpenAI, após os sucessos do ChatGPT e do Dall-E, surpreendeu há algumas semanas com o lançamento do Sora, uma IA que gera vídeos incrivelmente realistas a partir de uma simples solicitação de texto. O modelo também estará disponível ainda este ano.

 

A empresa californiana de fato apresentou o Voice Engine, uma nova ferramenta que permite clonar vozes a partir de 15 segundos de gravação. O resultado também é bastante marcante, as vozes clonadas soam muito realistas ao ouvido, com entonações naturais próximas às do seu modelo. A OpenAI postou vários trechos online em seu site.

 

O desenvolvimento do Voice Engine começou em 2022 e é baseado na interface de programação de texto para fala baseada em Whisper, o excelente modelo de IA projetado para transcrever e traduzir fala em texto. Esta API já é usada para fazer o ChatGPT falar.

 

A OpenAI tem várias ideias para usar o Voice Engine:

 

Fornecer assistência de leitura para crianças e pessoas que não sabem ler;

 

Traduzir conteúdo, inclusive em francês;

 

Comunicar com falantes de línguas menos faladas;

 

Auxiliar pessoas que perderam a voz.

 

O Voice Engine também pode ser usado como parte de podcasts de áudio, ou mesmo no rádio ou para criar audiolivros (para desespero dos profissionais humanos desses setores). TechCrunch Leste publicou a escala de preços que a OpenAI poderia cobrar: US$ 15 por um milhão de caracteres (aproximadamente 162.500 palavras, o equivalente a Oliver Twist por Dickens). O que é bastante acessível.

 

Esta ferramenta pode ter as melhores intenções, mas infelizmente não há dúvida de que será utilizada indevidamente para fins maliciosos. A clonagem de voz por inteligência artificial já provou a sua periculosidade, nomeadamente com estas verdadeiras chamadas automatizadas de um falso Joe Biden. É por isso que a OpenAI tomou precauções.

 

A OpenAI reconhece pela primeira vez que a clonagem de votos apresenta sérios riscos, especialmente durante um ano eleitoral movimentado. É por isso que a empresa “colabora com parceiros nos governos dos EUA e internacionais, mídia, entretenimento, educação, sociedade civil e muito mais” integrar seu feedback durante o processo de desenvolvimento.

 

Por um lado, os parceiros que têm acesso ao Voice Engine cumpriram os termos de uso da OpenAI, que proíbem o roubo de identidade ou exploração de voz sem o consentimento da pessoa. Esses parceiros também deverão anunciar a cor e indicar claramente que a voz foi gerada por inteligência artificial.

 

Por outro lado, foram desenvolvidas medidas de segurança, como marcas d'água para rastrear a origem de uma voz e “monitoramento proativo de seu uso”. No entanto, é difícil ficar totalmente tranquilo… OpenAI especifica que a tecnologia não está disponível para todos “Por agora”.

 

Ao divulgar este panorama, a empresa espera provocar um debate sobre políticas voltadas para “proteger o uso da voz das pessoas pela IA” e “educar o público na compreensão das capacidades e limitações das tecnologias de IA”. Esperando o primeiro deslize?

 

Conclusão Tecnológica

 

O Voice Engine representa um marco significativo no desenvolvimento de tecnologias de síntese de voz. Embora ofereça inúmeras oportunidades para aprimorar a acessibilidade e a comunicação, é essencial que seu uso seja ético e responsável. A OpenAI está comprometida em colaborar com diversos setores da sociedade para garantir que essa tecnologia beneficie a todos, promovendo ao mesmo tempo a conscientização sobre seus impactos e desafios.

 

Deixe sua opinião nos comentários, é de grande importância para a Tecnológica Online sua visão sobre nossa publicação.

 

ift.tt/bI6BxYW

86 views
0 faves
0 comments
Uploaded on April 6, 2024