Mercenários geniais
O principal laboratório da OpenAI apresentou recentemente uma inteligência artificial (IA) que consegue brincar de esconde-esconde. Os agentes foram estimulados por premiação em caso de vitória no jogo, fazendo com que buscassem, automaticamente, estratégias cada vez mais sofisticadas. Eles foram divididos entre “seekers” e “hiders”. Enquanto os hiders iam desenvolvendo técnicas para se esconder, os seekers encontravam formas de driblar cara uma delas.
Foram milhões de repetições para que eles entendessem cada dificuldade e criassem a solução. Os hiders dispunham de caixotes e barreiras para se esconder. Aos poucos foram entendendo como criar verdadeiros bunkers. No entanto, os seekers apoiavam rampas e conseguiam passar por cima das barreiras, entre outras medidas desenvolvidas.
A OpenAI divulgou um vídeo em que explica como o jogo funciona. O interessante é que os agentes não foram treinados, eles simplesmente foram expostos às dificuldades e entenderam que, caso as superassem, seriam recompensados.
O prêmio só vinha para quem vencia o jogo e não para quem simplesmente inventasse alguma coisa. Esse incentivo foi suficiente para que todos os outros comportamentos criativos aparecessem. Como verdadeiros mercenários virtuais, eles se dedicavam cada vez mais a vencer a brincadeira para ganhar a recompensa.
É assim que funciona o aprendizado por reforço: os sistemas de IA recebem bônus por um determinado comportamento e são deixados livres para aumentar suas recompensas da melhor maneira. Para isso, repetem as experiências milhões de vezes.
A experiência é legal porque mostra como uma configuração muito simples de machine learning pode levar a resultados super sofisticados.
Em artigo sobre o estudo, o site Vox lembra que muitos pesquisadores acreditam que esse aprendizado por reforço pode ser usado em questões mais complexas do mundo real. No entanto, a definição de uma estratégia a partir de instruções básicas é tão promissora quanto preocupante.
Segundo a publicação, a solução de problemas com o aprendizado por reforço leva a muitos comportamentos inesperados – encantadores em um jogo de esconde-esconde, mas potencialmente alarmantes em um medicamento destinado a tratar de problemas como o câncer ou um algoritmo destinado a melhorar a produção de uma usina elétrica.
O princípio de aprendizagem por reforço é bem simples – mas esse comportamento estratégico que ele produz, não. Há quem defenda que sistemas sofisticados poderiam ser construídos apenas utilizando essa técnica. O jogo de esconde-esconde prova que instruções básicas podem gerar comportamentos complexos.
A OpenAI é uma instituição focada em estudos de inteligência artificial, sem fins lucrativos. Associada a Elon Musk, tem o objetivo de promover e desenvolver sistemas que beneficiem a humanidade.