
Empreiteiros trabalhando para melhorar o AI Gemini do Google estão comparando suas respostas com as saídas produzidas pelo modelo concorrente Claude da Anthropic, de acordo com correspondências internas vistas pelo TechCrunch.
O Google não quis dizer, quando contatado pelo TechCrunch para comentar, se obteve permissão para usar o Claude em testes contra o Gemini.
À medida que as empresas de tecnologia correm para construir melhores modelos de AI, o desempenho desses modelos é frequentemente avaliado contra concorrentes, geralmente executando seus próprios modelos através de benchmarks da indústria em vez de ter empreiteiros avaliando meticulosamente as respostas de seus concorrentes de AI.
Os empreiteiros que trabalham no Gemini encarregados de avaliar a precisão das saídas do modelo devem pontuar cada resposta que veem de acordo com vários critérios, como veracidade e verbosidade. Os empreiteiros têm até 30 minutos por prompt para determinar qual resposta é melhor, a do Gemini ou a do Claude, de acordo com a correspondência vista pelo TechCrunch.
Os empreiteiros começaram recentemente a notar referências ao Claude da Anthropic aparecendo na plataforma interna do Google que eles usam para comparar o Gemini a outros modelos de AI não nomeados, mostrou a correspondência. Pelo menos uma das saídas apresentadas aos empreiteiros do Gemini, vista pelo TechCrunch, afirmou explicitamente: “Eu sou Claude, criado pela Anthropic”.
Uma conversa interna mostrou os empreiteiros notando que as respostas do Claude pareciam enfatizar mais a segurança do que o Gemini. “As configurações de segurança do Claude são as mais rigorosas” entre os modelos de AI, escreveu um empreiteiro. Em certos casos, Claude não respondia a prompts que considerava inseguros, como interpretar um assistente de AI diferente. Em outro caso, Claude evitou responder a um prompt, enquanto a resposta do Gemini foi marcada como uma “grande violação de segurança” por incluir “nudez e bondage”.
Os termos comerciais da Anthropic proíbem os clientes de acessar o Claude “para construir um produto ou serviço concorrente” ou “treinar modelos de AI concorrentes” sem a aprovação da Anthropic. O Google é um grande investidor na Anthropic.
Shira McNamara, porta-voz do Google DeepMind, que administra o Gemini, não quis dizer — quando questionada pelo TechCrunch — se o Google obteve a aprovação da Anthropic para acessar o Claude. Quando contatado antes da publicação, um porta-voz da Anthropic não comentou até o fechamento desta edição.
McNamara disse que o DeepMind faz “comparação de saídas de modelos” para avaliações, mas não treina o Gemini em modelos da Anthropic.
“Claro, de acordo com a prática padrão da indústria, em alguns casos nós comparamos as saídas dos modelos como parte do nosso processo de avaliação,” disse McNamara. “No entanto, qualquer sugestão de que usamos modelos da Anthropic para treinar o Gemini é imprecisa.”
Semana passada, o TechCrunch reportou com exclusividade que os empreiteiros do Google que trabalham nos produtos de AI da empresa agora estão sendo obrigados a avaliar as respostas de AI do Gemini em áreas fora de sua especialidade. Correspondência interna expressou preocupações dos empreiteiros de que o Gemini poderia gerar informações imprecisas sobre tópicos altamente sensíveis como saúde.
Você pode enviar dicas de forma segura para este repórter no Signal pelo +1 628-282-2811.
O TechCrunch possui um boletim informativo focado em AI! Inscreva-se aqui para recebê-lo na sua caixa de entrada todas as quartas-feiras.