Estes antigos alunos de Stanford estão a criar uma aplicação para mudar a nossa pronúncia

1 jan 2022, 21:00
Os fundadores da Sanas Shawn Zhang, Maxim Serebryakov e Andrés Pérez Soderi, conheceram-se quando eram alunos em Stanford.

Os alunos de Stanford ouviram a tristeza na voz do amigo quando ele partilhou as notícias.

"Malta, tive de me despedir."

Para eles, não fazia sentido. Ele era fluente em inglês e espanhol, extremamente simpático e especialista em engenharia de sistemas. Porque não conseguiu manter um emprego num call center?

Segundo o amigo, a pronúncia dele tornava difícil muitos clientes perceberem-no. Alguns até lançavam insultos pela sua maneira de falar.

Os três alunos perceberam que o problema ia além da experiência do amigo. Por isso, criaram uma startup para o resolver.

Agora, a empresa deles, a Sanas, está a testar software com inteligência artificial com o objetivo de eliminar as falhas de comunicação ao mudar em tempo real a pronúncia das pessoas. Um operador de call center nas Filipinas, por exemplo, pode falar normalmente para o microfone e sair a soar mais como alguém do Kansas para o cliente do outro lado.

Os call centers, dizem os fundadores da startup, são apenas o início. O website da empresa promove os seus planos como a “Reimaginação da Fala".

No futuro, eles esperam que a aplicação que estão a desenvolver seja usada por uma variedade de indústrias e indivíduos. Pode ajudar os médicos a compreenderem melhor os pacientes, dizem eles, ou ajudar os netos a compreenderem melhor os avós.

"Temos uma visão muito grandiosa para a Sanas," diz o CEO Maxim Serebryakov.

E para Serebryakov e para os seus cofundadores, o projeto é pessoal.

“As vozes das pessoas são menos ouvidas do que as suas pronúncias”

O tio que fundou a Sanas conheceu-se na Universidade Stanford, mas todos são originários de países distintos: Serebryakov, atualmente o CEO, vem da Rússia; Andrés Pérez Soderi, atualmente diretor financeiro, vem da Venezuela; e Shawn Zhang, atualmente diretor tecnológico, vem da China.

Já não são alunos em Stanford. Serebryakov e Pérez formaram-se; Zhang desistiu para se dedicar a dar vida à Sanas.

Eles lançaram a empresa no ano passado e deram-lhe um nome que pode ser pronunciado facilmente em vários idiomas "para destacar a nossa missão global e o desejo de aproximar as pessoas," diz Pérez.

Os três dizem que, ao longo dos anos, sentiram as dificuldades que a pronúncia pode trazer.

"Todos temos um percurso internacional. Vimos em primeira mão como as pessoas nos tratam de maneira diferente apenas pela maneira como falamos," diz Serebryakov. "Às vezes, é desolador."

Zhang diz que a sua mãe, que veio da China para os Estados Unidos há mais de 20 anos, ainda lhe pede para falar ele com o caixa do supermercado quando vão juntos às compras porque ela tem vergonha.

"Essa foi uma das razões pelas quais me juntei ao Max e ao Andrés para criarmos a empresa, para ajudarmos as pessoas que acham que as suas vozes não se fazem ouvir devido às suas pronúncias," diz ele.

Serebryakov diz que vê como os seus pais são tratados nos hotéis quando o vêm visitar aos Estados Unidos; as suposições que as pessoas fazem quando ouvem as suas pronúncias.

"Falam um pouco mais alto. Mudam de atitude," diz ele.

Pérez diz que, depois de frequentar uma escola britânica, teve dificuldades ao princípio para compreender as pronúncias americanas quando chegou aos Estados Unidos.

E nem o façam falar do que acontece quando o pai tenta usar a Alexa da Amazon que a família lhe deu no Natal.

"Percebemos rapidamente, quando a Alexa começou a ligar as luzes em sítios aleatórios da casa e a pô-las cor-de-rosa, que a Alexa não compreende de todo a pronúncia do meu pai," diz Pérez.

Os call centers vão testar a tecnologia

O inglês é a língua mais usada no mundo. Estima-se que mil e quinhentos milhões de pessoas a falem – e na sua maioria não são nativos. Só nos Estados Unidos, há milhões de pessoas que falam inglês como segunda língua.

Isso criou um mercado crescente para aplicações que ajudem os utilizadores a praticar a sua pronúncia em inglês. Mas a Sanas usa IA numa abordagem diferente.

A premissa é que em vez de aprendermos a pronunciar as palavras de maneira diferente, a tecnologia pode fazer isso por nós. Deixa de ser necessário fazer um curso dispendioso ou demorado para reduzir a pronúncia. E a compreensão seria praticamente instantânea.

Serebryakov diz saber que a pronúncia e a identidade de uma pessoa têm uma relação próxima, e ele reforça que a empresa não tenta eliminar as pronúncias nem sugerir que uma maneira de falar é melhor do que outra.

"Possibilitamos que as pessoas não tenham de mudar a maneira de falar para manterem um cargo ou um emprego. A identidade e a pronúncia são cruciais. Estão interligadas," diz ele. "Ninguém quer que alguém mude a sua pronúncia só para satisfazer outra pessoa."

Atualmente, o algoritmo da Sanas consegue converter inglês de e para a pronúncia americana, australiana, britânica, filipina, indiana e espanhola, e a equipa pretende adicionar mais. Eles conseguem adicionar uma pronúncia nova ao sistema através do treino de uma rede neural com gravações áudio de atores profissionais e outros dados – um processo que demora várias semanas.

A equipa da Sanas fez duas demonstrações para a CNN. Numa delas, um homem com pronúncia indiana lê uma série de frases literárias. Depois, essas frases são convertidas para uma pronúncia americana.

Outro exemplo contém frases que podem ser mais comuns num cenário de call center, como "se me disser o seu nome completo e o número da encomenda, podemos fazer essa correção."

Os resultados com pronúncia americana parecem algo artificiais e afetados, como as vozes de assistentes virtuais como a Siri e a Alexa, mas Pérez diz que a equipa está a trabalhar para melhorar a tecnologia.

"A pronúncia muda, mas a entoação mantém-se," diz ele. "Estamos continuamente a trabalhar para fazer o resultado parecer o mais natural, emotivo e emocionante possível."

O retorno inicial dos call centers que têm estado a testar a tecnologia tem sido positivo, segundo Pérez. Tal como os comentários deixados no seu website à medida que se espalha a palavra sobre o projeto.

E eles dizem que os seus planos para a empresa lhes conseguiram 5,5 milhões de dólares de financiamento de investidores no início do ano.

Como os fundadores da startup veem o seu futuro

Isso possibilitou à Sanas contratar pessoal. A maioria dos funcionários da empresa sedeada em Palo Alto, na Califórnia, vêm de percursos internacionais. E isso não é por coincidência, diz Serebryakov.

"Aquilo que estamos a criar tocou muita gente, mesmo as pessoas que contratamos. É muito empolgante ver isso," diz ele.

Apesar de a empresa estar a crescer, ainda pode demorar até vermos a Sanas surgir numa loja de aplicações ou num telemóvel perto de nós.

A equipa diz que está a trabalhar com grandes empresas que contratam call centers por agora e a optar por um lançamento mais lento para utilizadores individuais para poderem refinar a tecnologia e garantir a segurança.

Esta captura de ecrã mostra o que os utilizadores veem na aplicação Sanas.

Mas eles esperam que a Sanas venha a ser usada por todos os que precisam dela – e também noutras áreas.

Pérez imagina-a a ter um papel importante para ajudar as pessoas a comunicarem com os médicos.

"Qualquer segundo que se perde por falta de entendimento com tempo perdido ou mensagens erradas pode ter um grande impacto," diz ele. "Queremos realmente garantir que nada se perde na tradução."

Ele diz que, um dia, pode também ajudar as pessoas a aprenderem idiomas, melhorar a dobragem de filmes e ajudar os assistentes virtuais das casas e dos carros a compreenderem pronúncias diferentes.

E não só em inglês. A equipa da Sanas espera também adicionar outros idiomas ao algoritmo.

Os três cofundadores ainda estão a trabalhar nos pormenores, mas eles dizem que a maneira como esta tecnologia pode ajudar a melhorar a comunicação é algo que é fácil de compreender.

 

Tecnologia

Mais Tecnologia

Patrocinados