Estes livros estão a ser usados para treinar a Inteligência Artificial. Ninguém avisou os autores

CNN , Leah Asmelash
15 out 2023, 11:30
Biblioteca Livros lombadas prateleiras livraria Foto David Madison _ Stone RF _ Getty Images

Uma reportagem recente revelou que cerca de 200 mil livros de todos os géneros estavam a ser utilizados para treinar sistemas de IA. Os autores, que não foram informados antecipadamente, estão a manifestar consternação.

Quase 200 mil livros estão a ser utilizados para treinar sistemas de inteligência artificial por algumas das maiores empresas de tecnologia. O problema? Ninguém avisou os autores.

O sistema chama-se Books3 e, de acordo com uma investigação do The Atlantic, o conjunto de dados baseia-se numa coleção de livros electrónicos pirateados de todos os géneros, desde ficção erótica a poesia em prosa. Os livros ajudam os sistemas de IA generativa a aprender a comunicar informações.

Alguns textos de treino de IA podem ser retirados de artigos publicados na Internet, mas uma IA de alta qualidade requer textos de alta qualidade para absorver a linguagem, segundo o Atlantic, e é aí que entram os livros. A Books3 já é objeto de várias acções judiciais contra a Meta e outras empresas que utilizam o sistema para treinar a IA.

Agora, graças a uma base de dados publicada pela The Atlantic na semana passada, que parte do Books3, os autores podem ver se os seus livros estão a ser utilizados especificamente para treinar estes sistemas de IA. E muitos não estão satisfeitos.

"Estou completamente destroçada e desorientada. Estou indignada e, ao mesmo tempo, sinto-me totalmente impotente", escreveu Mary H. K. Choi nas redes sociais, ao descobrir que o seu trabalho estava a ser utilizado. "Estou furiosa e quero lutar, mas também estou muito cansada".

Choi, cujo romance de estreia, "Emergency Contact", aparece na base de dados, explicou os seus sentimentos num e-mail. O livro, que se centra numa jovem coreana-americana que está a viver uma nova relação, era "profundamente pessoal" e, inicialmente, disseram a Choi que a sua história era "demasiado calma e de nicho". Mais tarde, o livro tornou-se num bestseller do New York Times e encontrou audiências em todo o mundo.

"Um livro encerra escolhas infinitas, permutações sem limites e até mesmo deficiências do autor na altura. Pensar que toda esta vida pode ser atirada para uma vasta piscina de agitação para ser extrudida numa máquina de salsichas gigante, algorítmica e generativa, reduz tanto e tão rapidamente", disse. "Não só financeiramente para os autores, mas também para os livreiros, bibliotecários e leitores, que são privados de tantas intimidades".

Min Jin Lee, autora dos romances "Pachinko" e "Free Food for Millionaires", expressou pensamentos semelhantes nas redes sociais, chamando sem rodeios ao uso dos seus livros "um roubo".

"Gastei três décadas da minha vida para escrever os meus livros", disse ela. "Os grandes modelos linguísticos da Al não 'ingeriram' ou 'rasparam' 'dados'. As empresas Al roubaram o meu trabalho, o meu tempo e a minha criatividade. Roubaram as minhas histórias. Roubaram-me uma parte de mim".

Nora Roberts, a prolífica romancista, tem 206 livros utilizados na base de dados Books3, segundo o The Atlantic. Este número é o mais elevado de qualquer autor vivo, ficando apenas atrás de William Shakespeare. A autora apelidou a base de dados e a sua utilização por empresas de tecnologia de "todo o tipo de erros".

"Somos seres humanos, somos escritores, e estamos a ser explorados por pessoas que querem usar o nosso trabalho, mais uma vez sem autorização ou compensação, para 'escrever' livros, guiões, ensaios, porque é barato e fácil", disse Roberts numa declaração à CNN.

Esta exploração dos escritores não chocou o autor Nik Sharma, cujo livro de receitas "Season" foi encontrado na base de dados.

"Estou horrorizado, mas não surpreendido por terem tirado partido de mim", afirmou numa publicação nas redes sociais. "Obviamente, nem sequer me foi pedida autorização ou recebi qualquer compensação pela utilização do meu trabalho para treinar a IA."

A IA é inevitável, disse Sharma mais tarde num e-mail - daí a sua falta de surpresa. O que foi mais agravante, disse ele, é que ninguém foi contactado sobre o uso ou o pagamento. Afinal de contas, a educação não é gratuita nos EUA, disse ele; os professores são pagos e os livros didácticos são comprados.

"É o Oeste Selvagem neste momento com a IA, e a política governamental sobre isto está a dar os primeiros passos", disse Sharma. "E, consequentemente, as empresas de tecnologia estão a tirar o máximo partido enquanto podem. Ainda bem que foi apenas um livro de receitas e não os meus outros."

A Meta, que utilizou a base de dados Books3, segundo o The Atlantic, não respondeu a um pedido de comentário.

Um porta-voz da Bloomberg observou em comunicado que a empresa "usou uma série de fontes de dados diferentes", incluindo Books3, para treinar seu modelo BloombergGPT inicial, um modelo de IA para o setor financeiro. Mas, de acordo com o porta-voz, a Bloomberg "não incluirá o conjunto de dados Books3 entre as fontes de dados usadas para treinar futuras versões comerciais do BloombergGPT".

Nem todos os autores estão preocupados com o facto de o seu trabalho ser utilizado pela IA. James Chappel, cujo livro académico sobre a igreja católica moderna foi utilizado na base de dados, disse nas redes sociais que não se "importa nada".

"Quero que o meu livro (seja) lido!", escreveu. "Quero que ele seja educativo!"

Chappel não respondeu aos pedidos de mais comentários.

Nas mãos de grandes corporações, a IA transformou-se numa preocupação significativa para muitos escritores. A Writers Guild of America entrou em greve este verão, em parte para exigir limites à utilização de IA na escrita de filmes e programas de televisão. O ChatGPT, em particular, tem sido utilizado para tudo, desde tarefas de escrita a resumos legais.

Os escritores não estão sozinhos nas suas preocupações. Com a popularidade dos sistemas de IA de texto para imagem, os artistas visuais estiveram na mesma situação no ano passado, descobrindo que o seu trabalho estava a ser utilizado para treinar IA sem autorização. Em conjunto, ambos os casos realçam as preocupações com o crescente alcance da IA em todas as formas de arte, onde o trabalho pode, por vezes, ser intensamente pessoal ou íntimo.

A conversa levantada pela Books3 ocorre no momento em que o presidente dos EUA, Joe Biden, anunciou planos para introduzir uma ordem executiva sobre IA neste outono, dizendo que o país liderará "o caminho para a inovação responsável da IA".

No entanto, para os escritores, as constantes batalhas em torno da IA e do seu trabalho podem ser desanimadoras. Para Choi, descobrir que seu livro havia sido usado no meio da greve do WGA, em que a IA era um assunto muito debatido, foi "surreal".

"Fiquei destroçada", disse ela por correio eletrónico. "Senti-me verdadeiramente como se qualquer ganho ou tração que se pudesse obter numa arena pudesse ser tão facilmente eliminado noutra."

E ainda assim, Choi disse que sabe que o seu livro, no meio de milhares de outros, é "insultuosamente inconsequente", apesar da sua importância para ela.

"Acho que a parte mais desagradável de tudo isto é que, nos meus momentos de maior desespero, tudo parece absolutamente inevitável", disse.

Choi não está sozinha nesse sentimento de inevitabilidade. Roberts apelou à união entre escritores e público para combater estas questões.

"Nós, que criamos histórias, precisamos de nos unir para combater este abuso do nosso talento e trabalho árduo", disse. "Precisamos de defender o nosso trabalho e o trabalho uns dos outros. Espero que os leitores e os espectadores nos acompanhem nesta questão vital."

Tecnologia

Mais Tecnologia

Patrocinados