É possível identificar se um texto foi escrito por uma Inteligência Artificial?

Em 1950, quando a computação moderna ainda dava seus primeiros passos com os computadores eletrônicos, o cientista de computação Alan Turing, considerado um dos pioneiros da Inteligência Artificial (IA), propôs um teste que mais tarde ficou conhecido como o “Teste de Turing”.

A premissa desse teste é simples: se um usuário conversa com uma máquina sem perceber que ela não é um ser humano, então a máquina passou no teste. Apesar de simples, o teste suscitou diversos pensamentos técnicos e filosóficos, sobre a possibilidade de os computadores imitarem o pensamento humano, o que causaria uma grande revolução tecnológica.

Nos dias atuais, considerando a torrente de tecnologias de IA e a evolução das interfaces humano-computador, é comum que usuários de sistemas digitais não consigam identificar se estão interagindo via texto com humanos ou robôs. Apesar de a língua falada e escrita ter uma série de nuances que vão muito além da sintaxe e da semântica, quando o contexto é limitado, fica difícil para o usuário perceber se está “falando” com um ser humano ou com uma máquina. Assim acontece com os chatbots (robôs assistentes via bate-papo), que se tornaram o padrão na comunicação inicial entre clientes e empresas.

Indo além, temos a evolução dos chatbots, o polêmico ChatGPT, que pode ser caracterizado como uma entidade inteligente, pois não está presa ao contexto de uma organização. Ele é capaz de usar tecnologias de IA generativa para gerar textos naturais e complexos, que vão desde códigos de programação até documentos textuais corporativos e acadêmicos.

Nesse contexto, uma das polêmicas que pairam é a possibilidade de identificar ou não se um texto foi escrito pelo ChatGPT ou por um ser humano. Pensando nisso, fiz alguns testes iniciais usando o próprio ChatGPT (versão 3.5) e outras ferramentas que se propõem a calcular a probabilidade de um documento ter sido gerado por uma máquina.

“[…] algoritmos de RI podem reduzir a complexidade contextual e pragmática dos textos a relações puramente matemáticas, considerando apenas a sintaxe e a semântica. Dessa forma, não dá para afirmar objetivamente se um texto é de autoria humana ou não”.
J. L. Gregório

Primeiro perguntei ao ChatGPT se ele era o autor de vários textos, escritos por mim e por ele mesmo. As respostas não deixaram dúvida: ele não consegue distinguir. Após isso, usei outras ferramentas, como o AI Text Classifier (da mesma empresa que criou o ChatGPT), GPT Zero, Undetectable e AI Content Detector. O resultado? Totalmente inconclusivo! Não dá para confiar na efetividade dessas ferramentas.

Por que isso acontece? Em termos simples, há tecnologias de recuperação de informação (RI), uma área da Ciência de Computação que visa criar representações digitais de documentos, principalmente textuais. Assim, é possível representar matematicamente palavras, termos e porções de textos, possibilitando a realização de operações aritméticas, lógicas e relacionais entre documentos.

Isso significa que, usando as técnicas adequadas, é possível realizar cálculos de similaridade entre dois documentos. Nesse sentido, os algoritmos de RI podem reduzir a complexidade contextual e pragmática dos textos a relações puramente matemáticas, considerando apenas a sintaxe e a semântica. Dessa forma, não dá para afirmar objetivamente se um texto é de autoria humana ou não.

Para deixar a questão ainda mais polêmica, há estudos que apontam que o ChatGPT é capaz de cometer plágio, se apoderando de trechos completos de artigos disponíveis na grande rede sem dar o devido crédito. No século XXI, criamos máquinas “inteligentes” que passam no “Teste de Turing”, resolvendo uma série de problemas de produtividade. Entretanto, em contrapartida, potencializamos uma série de outros problemas de criatividade, confiança e comunicação.

E a era da IA está apenas começando!

Texto publicado originalmente no Jornal de Jales, coluna Fatecnologia, no dia 18/06/2023.