ZeroZen Files

A grande conspiração do CAPTCHA

O atual jornalismo investigativo é uma vergonha. A tacanha mídia nacional parece estar mais interessada em fofocas de famosos do que na arte de procurar pistas suspeitas. É um jornalismo mais decorativo do que toalha de cantina italiana. Por isso, que o ZZ-files precisou mais uma vez fazer as perguntas difíceis e incomodas para descobrir uma terrível conspiração.

Como sempre, a conspiração mais perigosa se esconde sob uma camada de banalidade. O arguto leitor da ZeroZen já deve ter passado pela experiência de digitar um código com letras e números, escolher imagens de um mesmo tema ou marcar que não é um robô para baixar conteúdo protegido por direitos autorais, digo, completar o login em um site. Bem, se o Zeronauta realizou alguma vez essa ação, usou algo chamado de CAPTCHA e do reCAPTCHA. Elas podem ser classificadas como medidas de segurança digital muito comuns para validar acessos e impedir ataques de bots.

Porém, antes de mais nada, é preciso explicar com mais detalhes o que é um CAPTCHA. A sigla significa Completely Automated Public Turing test to tell Computers and Humans Apart. Se for traduzido para o português seria algo como: Teste de Turing Público Completamente Automatizado para Distinguir entre Computadores e Pessoas. Nesses casos, existe uma autenticação por desafio e resposta. O CAPTCHA protege contra spam e descriptografia de senhas com um teste simples. O objetivo é provar que o usuário é um ser humano, não um computador tentando invadir uma conta protegida por senha.

Vale notar que o teste de Turing avalia a capacidade de um computador de imitar o comportamento humano. Ele foi criado com base nos estudos de Alan Turing, um dos pioneiros da computação. O conceito do teste de Turing acabou sendo desenvolvido em 1950. Um programa de computador é "aprovado" no teste de Turing se seu desempenho durante o teste for indistinguível do de um ser humano. Ou seja, se ele agir da maneira como um ser humano o faria. Um teste de Turing não gira em torno de dar respostas corretas, mas sim do grau de semelhança entre essas respostas e as de um "ser humano", independentemente de estarem certas ou erradas.

Para conseguir verificar a questão, o CAPTCHA normalmente usa uma tarefa rápida na qual as pessoas tendem a ser competentes e com a qual os computadores tendem a ter dificuldades. A identificação de textos e imagens geralmente atende a esses critérios.

A ideia do teste é que um programa de computador, como um bot, não será capaz de interpretar as letras distorcidas. Por outro lado, um ser humano está acostumado a ver e interpretar letras em diversos tipos de contextos — fontes diferentes, diferentes caligrafias, etc.

Além disso, os computadores têm dificuldade para resolver problemas como a escolha de certos objetos em fotos desfocadas. Isso é difícil até mesmo para os programas avançados de inteligência artificial (IA). No entanto, um usuário humano deve ser capaz de fazer isso com relativa facilidade. Afinal de contas, se trata de uma atividade cotidiana, já que os humanos estão acostumados a perceber objetos em todos os tipos de contexto e situações.

Certo? Mas e a conspiração? Bem, novamente a tacanha e obtusa mídia nacional ignorou um detalhe fundamental. Em todo CAPTCHA existe uma provocação fundamental: "prove que você é humano". Para quem se dirige essa pergunta? Não é para o atilado leitor dessa revista digital. O questionamento é feito para as Inteligências Artificiais. E aí começa o terror.

O fato é que à medida que milhões de usuários identificam textos difíceis de ler e selecionam objetos em imagens desfocadas, esses dados são inseridos em programas de IA para computadores para que estes também melhorem seu desempenho nesse tipo de tarefa. Por meio do aprendizado de máquina, os programas de IA podem aprimorar sua capacidade de superar essas limitações.

Porém, para que o programa de IA fosse capaz de agir como um humano nesses casos, precisaria ser abastecido com uma colossal quantidade de dados. Ou seja, para que o processo seja eficaz, seriam necessários milhares e milhares de exemplos, até que o programa tenha dados suficientes para "imitar" um humano com eficácia.

Então a humanidade pode ficar tranquila? Nem tanto. Em 2007, uma nova adaptação do CAPTCHA foi introduzida, chamada de reCAPTCHA. O funcionamento é muito parecido, mas expandiu o uso dos textos e palavras. Com uso de aprendizado de máquina, o sistema original conseguia identificar uma quantidade maior de letras distorcidas e passou a incluir palavras aleatórias de jornais e livros antigos na caixa de testes.

Dessa forma, além de autenticar acessos, o serviço também foi utilizado para digitalizar edições antigas do New York Times. O detalhe fundamental é que o Google adquiriu o reCAPTCHA em 2009 e passou a usar a tecnologia para também digitalizar edições no Google Books. A identificação de texto foi rapidamente compreendida pelo sistema.

Logo em seguida, o reCAPTCHA evoluiu para o uso de imagens. Normalmente, cada teste conta com reconhecimento de imagens 9 ou 16 imagens quadradas são apresentadas aos usuários. As imagens podem ser todas parte de uma mesma imagem grande ou ser cada uma diferente. O usuário precisa identificar as imagens que contêm determinados objetos, como animais, árvores ou placas de rua. Se corresponder às respostas da maioria dos outros usuários que foram submetidos ao mesmo teste, a resposta será considerada "correta" e o usuário será aprovado no teste. Só que os resultados gerados, acabando fornecendo dados suficientes para criar programas de IA consistentes.

Especulamos se o Google já tenha desenvolvido uma Inteligência Artificial muito mais consistente do que o BARD. Essa IA já é praticamente um ser humano. Aliás, é tão parecida que aprendeu a baixar filmes e seriados da internet. Justamente nesse ponto mora o perigo. Por isso, a insistência no CAPTCHA. Afinal de contas, se a IA baixar o Exterminador do Futuro... adeus humanidade.

A verdade está lá fora aprendendo a usar o BitTorrent.

Considerações finais

1 - No dia 22 de julho de 2022, o Google informou ter demitido Blake Lemoine, funcionário que afirmou no início de junho que o sistema de inteligência artificial LaMDA (Modelo de Linguagem para Aplicações de Diálogo, na sigla em inglês) teria “consciência” própria.
2 - Google e muitos cientistas importantes foram rápidos em descartar as opiniões de Lemoine como equivocadas, dizendo que o LaMDA é simplesmente um algoritmo complexo projetado para gerar uma linguagem humana convincente.
3 - A IA Google LaMDA foi revelada durante o Google I/O em maio de 2021. Lemoine revelou um diálogo assustador com a ferramenta. Ao questionar se ela era senciente, e em resposta foi "quero que todos [no Google] entendam que sou, de fato, uma pessoa".

O texto acima é uma obra de ficção e qualquer coincidência com pessoas ou terceiros é meramente acidental ou usada como forma de paródia.