Topo

Álvaro Machado Dias

OPINIÃO

Texto em que o autor apresenta e defende suas ideias e opiniões, a partir da interpretação de fatos e dados.

Como vamos perceber os sons é desafio para imersão no metaverso ter sucesso

Getty Images
Imagem: Getty Images

06/01/2022 04h00

Clubhouse é o app-resumo do lockdown. Seu crescimento estrondoso, nos meses seguintes ao lançamento, anunciava uma nova era de socialização digital, em que nos reuniríamos em rodas de conversas livres de imagens, sob a sombra distópica do novo normal. Não rolou.

Eu lembro que fui convidado para falar na estreia do jornal O Estado de S. Paulo na plataforma. Logo no começo, alguém me perguntou o que eu achava dessa ideia de rede social de áudio. Ruim, falei, amainando um pouco a opinião.

O que me desagrada não corresponde às razões por trás do voo de galinha desta investida do Andreessen Horowitz: recursos limitados e poucas salas patrocinadas, com celebridades e afins, que são os fisga-público que de fato funcionam. O xis da questão é que, para acompanhar o que uma pessoa tem a dizer numa plataforma de áudio, é preciso escutá-la até o fim.

O cérebro é um sistema que evoluiu para fazer previsões sobre o sentido daquilo que nos chega, de forma a otimizar os custos energéticos. Isso explica nossa capacidade de entender algo mmseo qanduo as lretas etsão ebmaarlhaads. Por este princípio, é comum que comecemos a escutar alguém falar e, muito antes da fala conclusa, sintamos uma vontade incontrolável de pedir que vire o disco ou cale a boca.

A versão otimista de mim diz que se trata de impulso construtivo, protegendo a conversa do poder corrosivo da impaciência, que comanda a cena quando o dito fica dispensável. Já a versão mais realista diz que é fruto de condicionamento pela impaciência. Talvez cada uma tenha um pouco de razão.

A longevidade do vídeo digital amador (YouTube) tem muito a ver com o fato de permitir que passemos pelos trechos redundantes focados nos cacoetes de quem fala ou na cafonice do cenário. Isso inclui os podcasts, quase sempre audiovisuais, em aparente contraste com a sua definição (o "pod" vem de Ipod, aqueles aparelhinhos de áudio que hoje parecem relíquias).

Nesses vídeos todos, a parte auditiva representa a linha direta com "a tese". Já a parte visual costuma representar a paisagem emocional e estilística de onde saem os argumentos. Seu papel é tanto gerar contexto, quanto servir de salvaguarda, nos momentos em que "o penso" sobra.

As salas de bate-papo no Clubhouse têm um ponto de partida diferente, cujos méritos não são suficientes para segurar a bronca nesse jogo de transformação frenética.

Elas são a conversa de walkie-talkie do isolamento social, apertando e reapertando o botão analítico do cérebro, que responde com tédio e impaciência toda vez que o papo deixa de agregar.

Fico imaginando o CEO Paul Davison e seus amigos imaginando que o Clubhouse inauguraria a nova Era do Rádio, em pleno século 21. Só que a Era do Rádio era —e ainda é— a dos grandes locutores e seus convidados escolhidos a dedo para agradar a audiência, coisa que a dinâmica auto-organizada das redes sociais contradiz. Assim é que o Clubhouse vai secando antes mesmo de ter encontrado seu lugar ao sol.

O desafio acústico

Enquanto a fraqueza do Clubhouse é o pendor para a chatice, que emerge da sua essencialidade sensorial, a do metaverso social é a falta de substância essencial.

Que raios justifica se reunir nas salas virtuais do Horizon (Facebook)? Que sentido tem estar presente em um evento do Descentraland ou no The Geat Pug, uma espécie de bar do metaverso que permanece na fase da promessa? Essa resposta é o que movimenta os debates no alto escalão dos fundos e empresas.

Eu venho insistindo na ideia de que a versão "rede social" do metaverso não será a principal. A tendência hegemônica terá muito mais a ver com simulações pragmáticas (urbanísticas, industriais, etc.) e realização facilitada de atividades cotidianas, com ajuda de sensores, hologramas e todo o grande conjunto de outras telas, que a Shira Ovide, do NYT, chama de computadores na cara.

De qualquer modo, é inegável que essa aposta do Facebook e concorrentes vá dar em alguma coisa. E é aí que eu me pergunto: no quê?

Para mim, a resposta mais razoável é: numa espécie de Clubhouse personificado por animações.

Não sei se o Andreessen Horowitz (que após o Clubhouse, virou o rei da Web 3.0) e o Zuckerberg concordam, mas, verdade seja dita, eles têm muitas razões para verem algo completamente novo no metaverso social e, assim, nos fazerem ver isso também.

Consideremos: a grande limitação da web 2.0 (leia-se: redes sociais tradicionais) é a necessidade de trazer o teclado a tiracolo para trocar uma ideia. Importa tanto se desprender dele quando da dupla monitor + display do celular, vilões habituais, nas equações de prazer e liberdade tecnológica.

A hegemonia social dos vídeos representa uma primeira resposta para isso, mas ela não é exaustiva, já que não permite interações síncronas, como no Clubhouse, que por este ângulo traz um avanço.

O Clubhouse, enfim, traz uma solução interessante para um problema real, num nicho gigantesco; a única questão é que oferece uma experiência de alta duração que é sensorialmente engessada, sem zonas de fuga.

As plataformas de metaverso irão jogar para resolver isso, permitindo que as pessoas participem das interações com avatares, videoconferência, áudio e o que aparecer pela frente.

Hoje em dia, o metaverso social costuma ser associado a grandes shows, que contabilizam a audiência em milhões. Eu não acho que este será o lance principal, em dois ou três anos. Creio que o grosso do tráfego irá fluir por essa dinâmica que se tornou dominante no Clubhouse: a dos grupos pequenos e médios que se encontram em função de algum pressuposto. Como era no Orkut.

O metaverso social vai ser, principalmente, o ambiente em que rolarão os chamados grupos de propósitos; as aulas abertas dos cursos à distância, as sessões de meditação, ioga e spinning. O swing dos inibidos, o encontro daqueles que se conhecem apenas superficialmente, enfim, essas coisas todas que funcionam com no máximo cinquenta pessoas.

Em setembro de 2021, a Fox TV lançou a primeira competição de canto com avatares —uma espécie de Magic Singer que, ao invés de máscaras, usa avatares hiper-realistas para ocultar a identidade dos participantes.

A frente do palco é envelopada por uma tela de alta definição, onde os avatares apresentam suas performances coreográficas e musicais, reproduzindo aquilo que os concorrentes fizeram no estúdio do programa, com o corpo coberto por sensores.

No centro de tudo está a voz, transmitida em alta definição para nos fazer crer que esses seres azuis e amarelos de fato cantam.

Funcionou melhor do que esperado do ponto de vista do público e dos produtores, satisfeitos com a natureza assíncrona do show, que permite um nível de controle logístico bem maior que o habitual.

Clique aqui para conferir.

Eis aí mais uma tendência crescente do metaverso: entretenimento de massa tendo avatares como figuras centrais (rock stars, public speakers, avatares políticos, pastores, etc.). Eis também mais uma coisa que eu não acho que terá popularidade comparável aos encontros menores e menos centralizados que, num passado recente, o Clubhouse resgatou de um passado quase-longínquo.

No campo das diferenças entre esta visão do metaverso social e o Clubhouse, não é apenas a corporificação que pesa, mas a própria redefinição das experiências sonoras, objeto de atenção central deste artigo.

O som que nos chega aos ouvidos do Clubhouse é tal como se as pessoas estivessem umas no colo das outras, bem na nossa frente. Como não estamos as vendo, tudo bem. Em contraste, a inclusão dos corpos —ou melhor, torsos— demanda tridimensionalidade auditiva para ser realista.

Fig I. Ilustração de treinamento corporativo no Facebook Horizon - Reprodução - Reprodução
Fig I. Ilustração de treinamento corporativo no Facebook Horizon. O realismo da experiência depende de se escutar mais alto quem está mais perto, bem como se escutar as vozes tal como se viessem do ponto de origem no ambiente simulado
Imagem: Reprodução

Este é um dos mais importantes assuntos ausentes das discussões sobre o metaverso e seus desafios.

De acordo com a pesquisa que fiz, ao menos quatro condições precisam ser observadas para que as paisagens acústicas do metaverso sejam condizentes à realidade visual de tipo imersivo:

  • Diferenças de tempo na chegada do som às duas orelhas, para situar as fontes sonoras.
  • Processamento em tempo real da distância relativa a múltiplas fontes acústicas simultâneas.
  • Incorporação de reverberações acústicas coerentes com os ambientes simulados.
  • Incorporação de ruídos de fundo, projetados de acordo com a posição das fontes sonoras.

Outra desafio é o registro do áudio dos participantes. Se o microfone utilizado não é estéreo, a capacidade de espacializar o som é comprometida. Este é o caso para a maioria dos microfones baratos e para os que usam Bluetooth.

Quem mexe com produção de vídeo sabe que a qualidade do microfone é tão ou mais importante do que a da câmera. Aqui, não será diferente.

No dia a dia das pessoas, a migração de um meio qualquer para uma sala imersiva típica do metaverso será em grande medida determinada pela experiência sonora, mais intensa e realista. Pode anotar.

Assinaturas sonoras e identidade de marca

O avanço da tecnologia puxa a evolução da linguagem. Isso não ocorre tanto em função das palavras que surgem para contextualizar processos de outro modo conhecidos, como em "open source", mas em função das ideias novas, como em "internet das coisas".

Conceitos como este último exemplificam como o motor da evolução em questão é menos a língua do que os modelos mentais com que podemos contar para tratar da realidade de maneira verbal.

Um dos mais interessantes dos últimos tempos é o de "vale da estranheza" (uncanny valley"), que é o estranhamento que robôs e inteligências artificiais geram, conforme se aproximam demais do original sem efetivamente se confundir com este.

Os avatares atuais não causam esta sensação porque, no fundo, ainda não são suficientemente realistas. Porém, é óbvio que irão melhorar rápido.

Neste ponto, a voz natural deverá contribuir para a diluição da fronteira entre o simulacro e o humano, empurrando a experiência sensorial do metaverso para as margens do vale do estranhamento.

Ainda é incerto como serão definidas, em termos pessoais e instrumentais, as identidades dos avatares. De antemão, o que parece claro é que os usuários contarão com ao menos duas versões: uma para o trabalho, mais sóbria, e outra para o lazer, que fará amplo uso de filtros, abrindo espaço para as ações criativas e de marcas.

Esta constatação é sugestiva de que vozes sintéticas deverão acompanhar o uso de avatares, fora do ambiente de trabalho. Muitos não saberão explicar, mas a experiência lhes parecerá consonante.

Há duas maneiras de se fazer isso:

  1. Pelo uso de filtros prontos. Um exemplo é o Clownfish, que você pode acessar aqui. Apesar da versatilidade, filtros prontos não permitem a criação de identidades sonoras únicas e verdadeiramente elaboradas (exceto em termos do tom).
  2. Pela criação de filtros customizados para a voz de cada. Hoje estes custam caro pois demandam horas de programação altamente técnica. Em breve, o uso de inteligência artificial pode levar à popularização dos mesmos, tornando as vozes sintéticas personalizadas parte do toolbox do metaverso social.

Ao mesmo tempo em que muita gente irá incorporar filtros vocais de uso continuado, para se divertir, é possível que uma segunda tendência cresça ainda mais: a das assinaturas sonoras ou "logo sonoros" —sons semiexclusivos, tipo tatuagens e outros marcadores identitários.

Quando você pensa em Netflix, que som lhe vem à mente? Tutum! Percebe o quanto este som é importante para a identidade da plataforma digital? A mesma coisa se aplica ao plim-plim da Globo, ao som espacial da Apple (de um MacBook sendo iniciado), aos teclados retrô-futuristas do Windows e ao toque da Nokia.

Muitas destas identidades são extremamente elaboradas. Por exemplo, o logo sonoro da Intel dura três segundos, mas envolve mais de 20 camadas musicais.

O logo sonoro do McDonald's inclui contribuições de Justin Timberlake, Pharrell Williams e diversos outros músicos estrelados, além da agência Heye & Partner, referência global em criatividade sonora.

Já o logo sonoro do Windows 95 foi criado por ninguém menos do que Brian Eno.

Uma tendência que pode vir a estourar em breve é a da venda de assinaturas sonoras registradas no blockchain e comercializadas através de NFTs. Estas não serão só estilísticas, no que contribuirão para a formação da identidade dos avatares e ações de marca, elas também servirão para as pessoas comunicarem emoções e juízos no ambiente digital.

Por exemplo, é possível que o disparo da assinatura digital sirva para sinalizar aprovação social, algo difícil de ser recriado no mundo virtual, em termos não-verbais.

As discussões sobre o metaverso são quase exclusivamente orientadas para seus aspectos visuais. Isto deve começar a mudar em breve, possivelmente em associação a estas três estratégias que descrevi aqui: áudio 3D, filtros vocais e assinaturas sonoras.

Se acontecer mesmo, a gente se encontra por aqui para discutir os próximos passos. Em grande estilo. Caso contrário, não me chame para falar do assunto.

Estarei fingindo que nunca apontei meu gerador de suposições nesta direção.