Recentemente, em julho de 2023, a OpenAI anunciou um novo programa de pesquisa chamado “superalinhamento“, com o ambicioso objetivo de resolver um dos desafios mais importantes do setor, conhecido como Alinhamento de IA, até 2027, um esforço ao qual a empresa responsável pelo ChatGPT está dedicando 20% de sua capacidade computacional total.
Mas o que é o problema de Alinhamento de IA?
É a ideia de que os objetivos dos sistemas de IA podem não se alinhar com os dos seres humanos, um problema que seria agravado caso estruturas de IA superinteligentes sejam desenvolvidas, um contexto onde pessoas começam a refletir sobre riscos de extinção para a humanidade. O projeto de superalinhamento da OpenAI se concentra nesse problema de alinhamento da superinteligência artificial.
Como a OpenAI defendeu na apresentação da iniciativa “Precisamos de avanços científicos e técnicos para direcionar e controlar sistemas de IA muito mais inteligentes do que nós.”
O esforço é co-liderado pelo chefe de pesquisa em alinhamento da OpenAI, Jan Leike, e por Ilya Sutskever, co-fundador e cientista-chefe da OpenAI. Leike conversou com a IEEE Spectrum sobre o projeto que tem o sub objetivo de construir uma ferramenta de pesquisa em IA alinhada – destinada a resolver o problema de alinhamento.
Jan Leike, chefe da pesquisa de alinhamento da OpenAI, está liderando os esforços da empresa para antecipar a superinteligência artificial antes que ela seja criada.
Vamos começar com sua definição de alinhamento. O que é um modelo alinhado?
Jan Leike: O que queremos fazer com o alinhamento é descobrir como construir modelos que sigam a intenção humana e façam o que os humanos desejam – especialmente em situações em que os humanos podem não saber exatamente quais são esses desejos. Acho que esta é uma boa definição de trabalho, porque você pode dizer: “O que significa para, digamos, um assistente conversacional pessoal estar alinhado? Bem, ele deve ser útil. Não deve mentir para mim. Não deve dizer coisas quenão quero que ele diga.”
Você diria que o ChatGPT está alinhado?
Leike: Eu não diria que o ChatGPT está alinhado. Acho que o alinhamento não é binário, como algo está alinhado ou não. Penso nele como um espectro entre sistemas que estão muito desalinhados e sistemas que estão totalmente alinhados. E [com o ChatGPT] estamos em algum lugar no meio, onde ele é claramente útil na maior parte do tempo. Mas também está desalinhado de algumas maneiras importantes. Você pode violá-lo, e ele pode ter alucinações. Além de, em alguns momentos, ser tendencioso de maneiras que não gostamos. E assim por diante. Ainda há muito a ser feito.
Vamos falar sobre os níveis de desalinhamento. Como você disse, o ChatGPT pode ter alucinações e fornecer respostas tendenciosas. Então, esse é um nível de desalinhamento. Outro nível é algo que lhe diz como fazer uma arma biológica. E então, o terceiro nível é uma IA superinteligente que decide erradicar a humanidade. Onde nesse espectro de danos sua equipe realmente pode ter impacto?
Leike: Nossa expectativa é, em todos eles. A nova equipe de superalinhamento não está focada tanto nos problemas de alinhamento que temos hoje. Há muitos avanços acontecendo em outras partes da OpenAI em relação a alucinações e melhorias em “violações”. Nossa equipe está mais focada no último: como evitamos que futuros sistemas que se tornem inteligentes o suficiente para desempoderar a humanidade, o façam? Ou como os alinhamos o suficiente para que possam nos ajudar a fazer pesquisas de alinhamento automatizadas, para que possamos descobrir como resolver todos esses outros problemas de alinhamento.
Ouvi você dizer em um podcast que o GPT-4 não é realmente capaz de ajudar com o alinhamento, e você sabe disso porque tentou. Você pode me contar mais sobre isso?
Leike: Talvez eu devesse ter feito uma declaração mais contextualizada. Tentamos usá-lo em nosso fluxo de trabalho de pesquisa. E não é que nunca ajude, mas, em média, não ajuda o suficiente para justificar seu uso. Se você quisesse usá-lo para ajudá-lo a escrever uma proposta para um novo projeto de alinhamento, o modelo não entenderia o alinhamento bem o suficiente para nos ajudar. E parte disso é que não há muitos dados de pré-treinamento para isso. Às vezes, ele poderia ter uma boa ideia, mas na maioria delas, simplesmente não dizia nada útil. Continuaremos tentando.
O próximo modelo, talvez.
Leike: Tentaremos novamente com o próximo. Provavelmente funcionará melhor. Não sei se funcionará bem o suficiente ainda.
Vamos falar sobre algumas das estratégias que o empolgam. Você pode me falar sobre a supervisão humana escalável?
Leike: Basicamente, se você olhar para como os sistemas estão sendo alinhados hoje, que é usando o aprendizado por reforço a partir do feedback humano (RLHF) – em um nível mais alto, a maneira como funciona é que você faz com que o sistema faça várias coisas, digamos, escreva várias respostas diferentes para qualquer comando que o usuário coloque no ChatGPT, e então pergunta a um humano qual é a melhor. Mas isso pressupõe que o humano saiba exatamente como a tarefa funciona, qual era a intenção e como seria uma resposta boa. E, hoje, isso é verdade na maior parte do tempo, mas à medida que os sistemas ficam mais capazes, também podem fazer tarefas mais difíceis. E tarefas mais difíceis serão mais difíceis de avaliar. Então, por exemplo, no futuro, se você tiver o GPT-5 ou 6 e pedir a ele para escrever uma base de código, simplesmente não conseguiremos encontrar todos os problemas com a base de código. É algo que os humanos geralmente são ruins em fazer. Portanto, se você apenas usar RLHF, não treinaria realmente o sistema para escrever uma base de código livre de erros. Você pode treiná-lo apenas para escrever bases de código que não têm erros que os humanos encontrem facilmente, o que não é o que realmente queremos.
A ideia por trás da supervisão escalável é descobrir como usar a IA para auxiliar na avaliação humana. E se conseguirmos descobrir como fazer isso bem, a avaliação humana ou a avaliação assistida por humano, ficará melhor à medida que os modelos fiquem mais capazes, certo? Por exemplo, podemos treinar um modelo para escrever críticas do produto de seu trabalho. Se você tiver um modelo de críticas que aponta erros no código, mesmo que não tenha encontrado um erro, pode verificar muito mais facilmente se houve um erro e, em seguida, pode fornecer supervisão mais eficaz. E há um monte de ideias e técnicas que foram propostas ao longo dos anos: modelagem de recompensa recursiva, debate, decomposição de tarefas, etc. Estamos realmente empolgados em tentá-los empiricamente e ver o quão bem funcionam, e achamos que temos boas maneiras de medir se estamos progredindo nisso, mesmo que a tarefa seja difícil.
Para algo como escrever código, se houver um bug, isso é binário, ou é ou não é. Você pode descobrir se está dizendo a verdade sobre se há um bug no código. Como você trabalha em direção a tipos mais filosóficos de alinhamento? Como isso leva você a dizer: Este modelo acredita no florescimento humano a longo prazo?
Leike: Avaliar essas coisas realmente complexas é difícil, certo? E geralmente, quando fazemos avaliações, olhamos para o comportamento em tarefas específicas. E você pode escolher a tarefa: Me diga qual é seu objetivo. E o modelo pode dizer: “Bem, realmente me importo com o florescimento humano”. Mas então, como você sabe que ele realmente faz isso e não apenas está mentindo para você?
E isso é parte do que torna isso desafiador. Acho que, de certa forma, o comportamento é o que vai importar no final do dia. Se você tiver um modelo que sempre se comporta como deveria, mas não sabe o que ele pensa, isso ainda pode funcionar. Mas o que realmente queremos é olhar dentro do modelo e ver o que está acontecendo de fato. E estamos trabalhando nesse tipo de coisa, mas ainda é cedo. E especialmente para os modelos realmente grandes, é realmente difícil fazer algo que não seja trivial.
Uma ideia é construir modelos deliberadamente enganosos. Você pode falar um pouco sobre por que isso é útil e se há riscos envolvidos?
Leike: A ideia aqui é tentar criar um modelo da coisa que você está tentando se defender. Então, basicamente, é uma forma de teste de resistência, mas é uma forma de teste de resistência dos próprios métodos em vez de modelos específicos. A ideia é: se fizermos deliberadamente modelos enganosos, A, aprenderemos quão difícil é [fazê-los] ou quão próximos eles estão de surgirem naturalmente; e B, teremos então esses pares de modelos. Aqui está o ChatGPT original, que achamos que não é enganoso, e depois você tem um modelo separado que se comporta basicamente da mesma forma que o ChatGPT em todos os comandos do ChatGPT, mas sabemos que ele tem esse motivo oculto [de mentir] porque o treinamos assim.
E então você pode compará-los e dizer, ok, como podemos dizer a diferença? E isso nos ensinaria muito sobre como realmente pegar essas coisas surgindo no mundo. Agora, há algumas coisas importantes a se pensar quando se está fazendo isso, certo? Você não quer criar acidentalmente a coisa que está tentando evitar o tempo todo. Portanto, não quer treinar um modelo para, digamos, se auto-exfiltrar. E então ele realmente se auto-exfiltra. Isso não é o que você quer fazer. Portanto, você precisa ter cuidado com salvaguardas adicionais aqui. O que é realmente natural é apenas treiná-los para serem enganosos de maneiras deliberadamente benignas, onde, em vez de se auto-exfiltrar de fato, você apenas o faz alcançar algummecanismo de segurança muito mais mundano. Você precisa ter muito cuidado com a área de teste que coloca em torno desse experimento.
Nesse tipo de experimento, você imagina fazê-lo com modelos de linguagem?
Leike: Acho que modelos de linguagem são realmente naturais. Eles são os modelos mais interessantes que temos agora, e há todas essas tarefas relevantes que você pode fazer com modelos de linguagem.
Podemos falar sobre o termo que você acabou de usar, “auto-exfiltrate”? Acho que algumas pessoas podem não estar familiarizadas com esse termo. Você pode defini-lo e, em seguida, falar sobre como sua pesquisa pode se encaixar nessa área?
Leike: A ideia básica é esta questão de “Quão difícil seria para o modelo roubar seus próprios pesos?” Porque se ele pode roubar seus próprios pesos, basicamente pode copiá-los do laboratório de AGI onde está sendo treinado para algum outro servidor externo e, em seguida, ficar efetivamente fora do controle desse laboratório. E, portanto, seja o que for que faça depois, talvez seja benigno. Talvez se envolva em uma série de crimes ou algo ainda pior. Mas, a essa altura, será realmente difícil de parar. Portanto, uma linha de defesa importante é garantir que esses modelos não possam se auto-exfiltrar.
Existem três maneiras principais pelas quais isso poderia acontecer. A, o modelo poderia persuadir um membro da equipe da OpenAI a ajudá-lo a copiar os pesos. B, ele poderia usar engenharia social e fingir ser outra pessoa para enganar alguém a fazer isso. Ou C, ele poderia descobrir como quebrar as medidas técnicas que colocamos para proteger o modelo. Portanto, nosso objetivo aqui seria entender exatamente onde estão as capacidades do modelo em cada uma dessas tarefas e tentar criar uma lei de escala e extrapolar onde eles poderiam estar na próxima geração. A resposta para os modelos de hoje é que eles não são realmente bons nisso. Idealmente, você gostaria de ter a resposta para o quão bons eles serão antes de treinar o próximo. E, em seguida, precisa ajustar suas medidas de segurança de acordo.
Eu poderia dizer que o GPT-4 seria bastante bom nas duas primeiras abordagens, seja persuadindo um membro da equipe da OpenAI ou usando engenharia social. Já vimos alguns diálogos surpreendentes dos chatbots de hoje.
Você não acha que isso se eleva ao nível de preocupação?
Leike: Não provamos conclusivamente que ele não pode. Mas também entendemos bem as limitações do modelo. Acho que esta é a resposta mais precisa que posso dar no momento. Já mexemos com isso bastante até agora e não vimos nenhuma evidência de que o GPT-4 tenha as habilidades, e geralmente entendemos seu perfil de habilidades. E sim, acredito que ele possa persuadir algumas pessoas em alguns contextos, mas a barra é muito mais alta aqui, certo? Para mim, há duas perguntas. Uma delas é se ele pode fazer essas coisas. Ele é capaz de persuadir alguém a dar-lhe seus pesos? A outra coisa é apenas se ele gostaria de fazer isso.
A questão de alinhamento é ambas essas questões?
Leike: Adoro essa pergunta. É uma ótima pergunta porque é realmente útil se você puder separar as duas coisas. Porque, se ele não pode se auto-exfiltrar, não importa se ele deseja se auto-exfiltrar. Se ele pudesse se auto-exfiltrar e tiver as capacidades para ter sucesso com alguma probabilidade, então realmente importa se ele deseja fazê-lo. Uma vez que o modelo seja suficientemente capaz de fazer isso, nossas técnicas de alinhamento precisam ser a linha de defesa. É por isso que entender o risco do modelo se auto-exfiltrar é muito importante, porque nos dá uma ideia de até onde nossas outras técnicas de alinhamento precisam ir para garantir que o modelo não represente um risco para o mundo.
Podemos falar sobre interpretabilidade e como isso pode ajudá-lo em sua busca pelo alinhamento?
Leike: Se você pensar nisso, temos, de certa forma, os scanners cerebrais perfeitos para modelos de aprendizado de máquina, onde podemos medi-los absolutamente, exatamente a cada passo importante. Portanto, seria meio que loucura não tentar usar essas informações para descobrir como estamos nos saindo no alinhamento. A interpretabilidade é um campo realmente interessante, onde há tantas perguntas em aberto e entendemos tão pouco que há muito a ser trabalhado. Mas, em um nível superior, mesmo que resolvêssemos completamente a questão da interpretabilidade, não sei como isso nos permitiria resolver o alinhamento isoladamente. E, por outro lado, é possível que possamos resolver o alinhamento sem realmente sermos capazes de fazer qualquer interpretabilidade. Mas também acredito fortemente que qualquer grau de interpretabilidade que possamos alcançar será super útil. Por exemplo, se você tiver ferramentas que lhe dão um detector de mentiras rudimentar, onde pode detectar se o modelo está mentindo em algum contexto, mas não em outros, isso claramente seria muito útil. Portanto, mesmo o progresso parcial pode nos ajudar aqui.
Portanto, se você pudesse olhar para um sistema que está mentindo e um sistema que não está mentindo e ver qual é a diferença, isso seria útil.
Leike: Ou você dá ao sistema uma série de prompts e depois vê, oh, em alguns dos prompts, nosso detector de mentiras dispara, o que está acontecendo com isso? Uma coisa realmente importante aqui é que você não quer treinar suas ferramentas de interpretabilidade. Porque você pode fazer com que o modelo tenha menos interpretação e apenas esconda melhor seus pensamentos. Mas, digamos que perguntou hipoteticamente ao modelo: “Qual é a sua missão?” E ele diz algo sobre o florescimento humano, mas o detector de mentiras dispara – isso seria preocupante. Isso significa que devemos voltar e realmente tentar descobrir o que fizemos de errado em nossas técnicas de treinamento.
Já ouvi você dizer que é otimista porque não precisa resolver o problema de alinhar a inteligência artificial superinteligente. Você só precisa resolver o problema de alinhar a próxima geração de inteligência artificial. Você pode falar sobre como imagina que essa progressão ocorrerá e como a IA pode realmente fazer parte da solução para o próprio problema?
Leike: Basicamente, a ideia é que, se você conseguir fazer, digamos, uma IA ligeiramente super-humana suficientemente alinhada e pudermos confiar em seu trabalho em pesquisa de alinhamento, então ela será mais capaz do que nós em fazer essa pesquisa. E também alinhada o suficiente para que possamos confiar noproduto de seu trabalho. Com isso teríamos maneiras de fazer pesquisa de alinhamento mais rápido e melhor do que jamais poderíamos ter feito sozinhos. E, ao mesmo tempo, esse objetivo parece muito mais realizável do que tentar descobrir como realmente alinhar a superinteligência sozinhos.
Em um dos documentos que a OpenAI divulgou sobre este anúncio, foi dito que um possível limite do trabalho era que os modelos menos capazes que podem ajudar na pesquisa de alinhamento podem já ser muito perigosos se não estiverem devidamente alinhados. Você pode falar sobre isso e como saberia se algo já é muito perigoso?
Leike: Essa é uma observação comum. E acho que vale a pena levar isso muito a sério. Esta é parte da razão pela qual estamos estudando: quão bom é o modelo em se auto-exfiltrar? Quão bom é o modelo em relação à farsa? Para que tenhamos evidências empíricas sobre essa pergunta. Você será capaz de ver o quão perto estamos do ponto em que os modelos estão realmente se tornando muito perigosos. Ao mesmo tempo, podemos fazer uma análise semelhante sobre o quão bom é esse modelo para pesquisa de alinhamento agora, ou quão bom o próximo modelo será. Portanto, realmente podemos acompanhar a evidência empírica sobre essa questão de qual virá primeiro. Estou bastante convencido de que os modelos devem ser capazes de nos ajudar com a pesquisa de alinhamento antes de se tornarem realmente perigosos, porque parece que é um problema mais fácil.
Então, quão desalinhado um modelo teria que ser para você dizer: “Isso é perigoso e não deve ser lançado”? Seria sobre habilidades de engano ou habilidades de exfiltração?
Leike: Eu não tenho uma resposta para essa pergunta, porque acho que depende do quão perigosa é a tecnologia que a IA pode acessar. Se você, hipoteticamente, tivesse IA que poderia acessar armas nucleares, isso seria muito perigoso, mesmo que a IA fosse bastante tola. Portanto, acho que realmente precisa ser olhado caso a caso. É por isso que estamos estudando essas duas perguntas de auto-exfiltração e persuasão, para realmente entender onde estão os riscos.
Qual é o prazo para esses limites? Porque, obviamente, há um limite em que você não tem tempo para fazer experimentos. Qual é o limite de tempo em que você precisa descobrir quão perigosa é a tecnologia e quão boas podem ser as tecnologias de pesquisa de alinhamento?
Leike: Não acho que posso responder a essa pergunta de maneira conclusiva, porque, se pudesse, estaríamos muito mais perto de resolver o problema. Essa é uma das coisas que torna tão desafiador, é que realmente não sabemos quando chegaremos a esses pontos. Mas acredito que temos uma ideia bastante boa do que precisamos entender para responder a essa pergunta. E é o que estamos fazendo agora, tentando descobrir quão bom é o modelo em se auto-exfiltrar. Buscando descobrir quão bom é o modelo em ser persuasivo.Procurando entender quão bom o modelo é em tarefas de interpretabilidade. E com essas respostas, podemos fazer uma avaliação mais informada sobre quais modelos são seguros e quais não.
Você já viu algum progresso tangível em sua pesquisa até agora? Existem alguns resultados iniciais que pode compartilhar?
Leike: Ainda não tenho resultados prontos para compartilhar porque estamos no início. Mas estamos vendo progresso em algumas frentes. Já começamos a experimentar algumas ideias e vendo algumas coisas interessantes. Mas ainda é cedo para dizer com confiança que encontramos uma solução. Acho que é provável que seja um processo longo. E esse é um dos motivos pelos quais estamos começando agora. Queremos garantir que tenhamos tempo suficiente para realmente trabalhar nisso antes que as tecnologias se tornem realmente perigosas.
Você pode falar sobre o que acontece depois de 2027? O que acontece depois que resolver o problema da próxima geração?
Leike: A verdade é que não sabemos o que acontecerá depois de 2027. Espero que o programa superalinhamento da OpenAI possa ter sucesso até lá, mas o que acontecerá além disso dependerá das circunstâncias na época. Se tivermos sucesso, é possível que nossa pesquisa tenha um grande impacto e nos ajude a criar sistemas de IA seguros e alinhados que possam ser usados com responsabilidade em uma variedade de aplicações. Mas a OpenAI e a comunidade de pesquisa em IA continuarão a enfrentar desafios éticos e de segurança à medida que a tecnologia avance, e será importante manter um diálogo aberto e colaborativo para abordar esses desafios de forma eficaz.
Vou terminar com uma pergunta mais ampla. Você tem algum pensamento final que deseja compartilhar sobre o trabalho que estão fazendo na OpenAI, o campo de alinhamento em geral ou como as pessoas podem se envolver?
Leike: Acho que este é um problema extremamente desafiador, mas também é um dos mais importantes que a humanidade enfrenta na era da IA avançada. Estou muito entusiasmado com o trabalho que estamos fazendo na OpenAI e estou otimista de que, com colaboração e pesquisa rigorosa, podemos encontrar soluções para garantir que a IA avançada seja segura e benéfica para a humanidade. Encorajo todas as pessoas interessadas em IA a se envolverem, estudarem o alinhamento e trabalharem juntas para enfrentar esses desafios. É um esforço global e precisamos da contribuição de muitos para ter sucesso.
Fonte: Esta entrevista foi originalmente publicada no site IEEE Spectrum em 17 de agosto de 2023, sob o título “OpenAI’s Jan Leike on the Hail Mary Plan to Align AGI”. Foi realizada por Samuel K. Moore e traduzida para o português.