banner

blog

Dec 03, 2023

3 perguntas: como os geradores de imagem AI podem ajudar os robôs

imagem anterior imagem seguinte

Os geradores de imagens de IA, que criam visões fantásticas na interseção de sonhos e realidade, borbulham em todos os cantos da web. Seu valor de entretenimento é demonstrado por um tesouro cada vez maior de imagens caprichosas e aleatórias que servem como portais indiretos para os cérebros dos designers humanos. Um simples prompt de texto produz uma imagem quase instantânea, satisfazendo nossos cérebros primitivos, que são programados para gratificação instantânea.

Embora aparentemente incipiente, o campo da arte gerada por IA pode ser rastreado até a década de 1960, com as primeiras tentativas de usar abordagens baseadas em regras simbólicas para criar imagens técnicas. Enquanto a progressão de modelos que desvendam e analisam palavras ganhou sofisticação crescente, a explosão da arte generativa provocou debates sobre direitos autorais, desinformação e preconceitos, todos atolados em exageros e controvérsias. Yilun Du, estudante de doutorado no Departamento de Engenharia Elétrica e Ciência da Computação e afiliado ao Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT, desenvolveu recentemente um novo método que torna modelos como o DALL-E 2 mais criativos e com melhor compreensão da cena. Aqui, Du descreve como esses modelos funcionam, se essa infraestrutura técnica pode ser aplicada a outros domínios e como traçamos a linha entre IA e criatividade humana.

P: As imagens geradas por IA usam algo chamado modelos de "difusão estável" para transformar palavras em imagens surpreendentes em apenas alguns momentos. Mas para cada imagem usada, geralmente há um ser humano por trás dela. Então, qual é a linha entre IA e criatividade humana? Como esses modelos realmente funcionam?

A: Imagine todas as imagens que você pode obter na Pesquisa Google e seus padrões associados. Esta é a dieta com a qual esses modelos são alimentados. Eles são treinados em todas essas imagens e suas legendas para gerar imagens semelhantes aos bilhões de imagens que já viram na internet.

Digamos que uma modelo tenha visto muitas fotos de cachorros. Ele é treinado para que, quando receber um prompt de entrada de texto semelhante, como "cachorro", seja capaz de gerar uma foto muito semelhante às muitas fotos de cachorros já vistas. Agora, mais metodologicamente, como tudo isso funciona remonta a uma classe muito antiga de modelos chamados "modelos baseados em energia", originários dos anos 70 ou 80.

Em modelos baseados em energia, uma paisagem de energia sobre imagens é construída, a qual é utilizada para simular a dissipação física para gerar imagens. Quando você joga um pingo de tinta na água e ela se dissipa, por exemplo, no final, você só consegue essa textura uniforme. Mas se você tentar reverter esse processo de dissipação, gradualmente obterá novamente o ponto de tinta original na água. Ou digamos que você tenha uma torre de blocos muito complicada e, se você acertá-la com uma bola, ela desmorona em uma pilha de blocos. Essa pilha de blocos fica muito desordenada e não tem muita estrutura. Para ressuscitar a torre, você pode tentar reverter esse processo de dobramento para gerar sua pilha original de blocos.

A maneira como esses modelos generativos geram imagens é muito semelhante, onde, inicialmente, você tem essa imagem muito legal, onde começa com esse ruído aleatório e basicamente aprende como simular o processo de como reverter esse processo de ir do ruído de volta à sua imagem original, onde você tenta refinar iterativamente essa imagem para torná-la cada vez mais realista.

Em termos de qual é a linha entre IA e criatividade humana, você pode dizer que esses modelos são realmente treinados na criatividade das pessoas. A internet tem todos os tipos de pinturas e imagens que as pessoas já criaram no passado. Esses modelos são treinados para recapitular e gerar as imagens que estão na internet. Como resultado, esses modelos são mais como cristalizações do que as pessoas gastaram com criatividade por centenas de anos.

COMPARTILHAR