A ferramenta de agente da OpenAI pode estar perto do lançamento

A OpenAI pode estar prestes a lançar uma ferramenta de IA que pode assumir o controle do seu PC e executar ações em seu nome.

Tibor Blaho, um engenheiro de software com reputação por vazar com precisão produtos de IA futuros, alega ter descoberto evidências da ferramenta Operator há muito rumoreada da OpenAI. Publicações como a Bloomberg já relataram sobre o Operator, que é dito ser um sistema "agente" capaz de lidar autonomamente com tarefas como escrever código e reservar viagens.

De acordo com The Information, a OpenAI está mirando janeiro como mês de lançamento do Operator. O código descoberto por Blaho neste fim de semana dá credibilidade a essa reportagem.

O cliente ChatGPT da OpenAI para macOS ganhou opções, ocultas por enquanto, para definir atalhos para "Alternar Operator" e "Forçar a saída do Operator", segundo Blaho. E a OpenAI adicionou referências ao Operator em seu site, disse Blaho, embora referências que ainda não são visíveis publicamente.

Confirmado - o aplicativo de desktop ChatGPT macOS tem opções ocultas para definir atalhos para o lançador de desktop para "Alternar Operator" e "Forçar a saída do Operator" https://t.co/rSFobi4iPN pic.twitter.com/j19YSlexAS

— Tibor Blaho (@btibor91) 19 de janeiro de 2025

Segundo Blaho, o site da OpenAI também contém tabelas ainda não públicas comparando o desempenho do Operator com outros sistemas de IA que usam computadores. As tabelas podem muito bem ser espaços reservados. Mas se os números forem precisos, eles sugerem que o Operator não é 100% confiável, dependendo da tarefa.

O site da OpenAI já possui referências ao Operator/OpenAI CUA (Agente de Uso de Computador) - "Tabela de Cartão do Sistema do Operator", "Tabela de Avaliação de Pesquisa do Operator" e "Tabela de Taxa de Recusa do Operator"

Incluindo comparação com Claude 3.5 Sonnet Computer use, Google Mariner, etc.

(prévia das tabelas... pic.twitter.com/OOBgC3ddkU

— Tibor Blaho (@btibor91) 20 de janeiro de 2025

No OSWorld, um benchmark que tenta imitar um ambiente de computador real, o "Agente de Uso de Computador da OpenAI (CUA)" - possivelmente o modelo de IA que alimenta o Operator - obtém 38,1%, à frente do modelo de controle de computador da Anthropic, mas bem abaixo dos 72,4% que os humanos alcançam. O OpenAI CUA supera o desempenho humano no WebVoyager, que avalia a capacidade de um IA de navegar e interagir com sites. Mas o modelo não alcança pontuações de nível humano em outro benchmark baseado na web, WebArena, de acordo com os benchmarks vazados.

O Operator também enfrenta dificuldades com tarefas que um humano poderia realizar facilmente, se o vazamento for verdadeiro. Em um teste que exigiu que o Operator se inscrevesse em um provedor de nuvem e lançasse uma máquina virtual, o Operator teve sucesso apenas 60% das vezes. Encarregado de criar uma carteira de Bitcoin, o Operator teve sucesso apenas 10% das vezes.

Entramos em contato com a OpenAI para comentar e atualizaremos esta peça se recebermos uma resposta.

A iminente entrada da OpenAI no espaço de agentes de IA ocorre enquanto concorrentes como a Anthropic, o Google e outros fazem jogadas no segmento incipiente. Os agentes de IA podem ser arriscados e especulativos, mas gigantes de tecnologia já os estão anunciando como a próxima grande coisa em IA. De acordo com a empresa de análise Markets and Markets, o mercado de agentes de IA poderia valer US$ 47,1 bilhões até 2030.

Os agentes de hoje são bastante primitivos. Mas alguns especialistas levantaram preocupações sobre sua segurança, caso a tecnologia melhore rapidamente.

Um dos gráficos vazados mostra o Operator se saindo bem em avaliações de segurança selecionadas, incluindo testes que tentam fazer o sistema realizar "atividades ilícitas" e procurar "dados pessoais sensíveis". Relatadamente, os testes de segurança estão entre as razões para o longo ciclo de desenvolvimento do Operator. Em um post recente no X, o co-fundador da OpenAI, Wojciech Zaremba, criticou a Anthropic por lançar um agente que, segundo ele, carece de mitigação de segurança.

"Só posso imaginar as reações negativas se a OpenAI fizesse um lançamento semelhante", escreveu Zaremba.

Vale ressaltar que a OpenAI foi criticada por pesquisadores de IA, incluindo ex-funcionários, por supostamente desvalorizar o trabalho de segurança em favor de rapidamente transformar sua tecnologia em produtos.