Esta Semana em IA: Talvez devamos ignorar os benchmarks de AI por agora

Bem-vindo ao boletim informativo regular de IA da TechCrunch! Estamos entrando em hiato por um tempo, mas você pode encontrar toda a nossa cobertura de IA, incluindo minhas colunas, nossa análise diária e notícias de última hora, na TechCrunch. Se você quiser essas histórias e muito mais na sua caixa de entrada todos os dias, inscreva-se em nossos boletins diários.

Nesta semana, a startup de IA do bilionário Elon Musk, xAI, lançou seu mais recente modelo de IA principal, o Grok 3, que alimenta os aplicativos de chatbot Grok da empresa. Treinado em cerca de 200.000 GPUs, o modelo supera vários outros modelos principais, incluindo da OpenAI, em benchmarks de matemática, programação e muito mais.

Mas o que esses benchmarks realmente nos dizem?

Aqui na TC, muitas vezes relatamos relutantemente números de benchmark porque são uma das poucas maneiras (relativamente) padronizadas pelas quais a indústria de IA mede melhorias nos modelos. Os benchmarks populares de IA tendem a testar conhecimentos esotéricos e fornecer pontuações agregadas que se correlacionam mal com a proficiência nas tarefas que a maioria das pessoas se preocupa.

Como apontou o professor da Wharton, Ethan Mollick, em uma série de posts no X após a divulgação do Grok 3 na segunda-feira, há uma "necessidade urgente de melhores baterias de testes e autoridades de teste independentes". As empresas de IA relatam os resultados dos benchmarks por conta própria na maioria das vezes, como Mollick aludiu, tornando esses resultados ainda mais difíceis de aceitar de maneira direta.

"Os benchmarks públicos são tanto 'mais ou menos' quanto saturados, deixando muitos testes de IA como críticas de comida, baseadas no gosto", escreveu Mollick. "Se a IA for crítica para o trabalho, precisamos de mais."

Não faltam testes independentes e organizações propondo novos benchmarks para a IA, mas seu mérito relativo está longe de ser um assunto resolvido dentro da indústria. Alguns comentaristas e especialistas em IA propõem alinhar os benchmarks com o impacto econômico para garantir sua utilidade, enquanto outros argumentam que a adoção e a utilidade são os benchmarks finais.

Este debate pode durar até o fim dos tempos. Talvez devêssemos, como o usuário do X Roon prescreve, simplesmente prestar menos atenção a novos modelos e benchmarks, exceto por grandes avanços técnicos em IA. Para nossa sanidade coletiva, isso pode não ser a pior ideia, mesmo que cause algum nível de FOMO em IA.

Como mencionado acima, Esta Semana em IA está entrando em hiato. Obrigado por continuar conosco, leitores, durante esta jornada de montanha-russa. Até a próxima vez.

Notícias

Créditos da Imagem: Nathan Laine/Bloomberg / Getty Images

OpenAI tenta "desencensurar" o ChatGPT: Max escreveu sobre como a OpenAI está mudando sua abordagem de desenvolvimento de IA para abraçar explicitamente a "liberdade intelectual", não importa o quanto desafiador ou controverso um tópico possa ser.

Nova startup de Mira: A nova startup da ex-CTO da OpenAI, Mira Murati, Thinking Machines Lab, pretende construir ferramentas para fazer com que a IA funcione para as necessidades e objetivos únicos das pessoas.

Grok 3 chegou: A startup de IA de Elon Musk, xAI, lançou seu mais recente modelo de IA principal, Grok 3, e revelou novas capacidades para os aplicativos Grok para iOS e web.

Uma conferência muito Llama: A Meta sediará sua primeira conferência de desenvolvedores dedicada à IA generativa nesta primavera. Chamada LlamaCon, em homenagem à família de modelos de IA generativa da Meta, a conferência está agendada para 29 de abril.

IA e soberania digital da Europa: Paul perfilou a OpenEuroLLM, uma colaboração entre cerca de 20 organizações para construir "uma série de modelos de fundação para uma IA transparente na Europa" que preserve a "diversidade linguística e cultural" de todas as línguas da UE.

Artigo de pesquisa da semana

Créditos da Imagem: Jakub Porzycki/NurPhoto / Getty Images

Pesquisadores da OpenAI criaram um novo benchmark de IA, SWE-Lancer, que visa avaliar a habilidade de codificação de sistemas de IA poderosos. O benchmark consiste em mais de 1.400 tarefas de engenharia de software freelance que vão desde correções de bugs e implantação de recursos até propostas de implementação técnica de nível "gerencial".

Segundo a OpenAI, o melhor modelo de IA em desempenho, o Claude 3.5 Sonnet da Anthropic, obteve 40,3% no benchmark completo do SWE-Lancer - sugerindo que a IA ainda tem um longo caminho a percorrer. Vale ressaltar que os pesquisadores não benchmarkaram modelos mais recentes, como o o3-mini da OpenAI ou o R1 da empresa chinesa de IA DeepSeek.

Modelo da semana

Uma empresa chinesa de IA chamada Stepfun lançou um modelo de IA "aberto", Step-Audio, que pode entender e gerar fala em vários idiomas. O Step-Audio suporta chinês, inglês e japonês e permite que os usuários ajustem a emoção e até o dialeto do áudio sintético que cria, incluindo canto.

Stepfun é uma das várias startups de IA chinesas bem financiadas que lançam modelos sob uma licença permissiva. Fundada em 2023, a Stepfun reportedly recentemente fechou uma rodada de financiamento no valor de centenas de milhões de dólares de uma série de investidores que incluem empresas de private equity estatais chinesas.

Pegar empréstimo

Créditos da Imagem: Nous Research

A Nous Research, um grupo de pesquisa de IA, lançou o que afirma ser um dos primeiros modelos de IA que unifica o raciocínio e as capacidades de "modelo de linguagem intuitiva".

O modelo, DeepHermes-3 Preview, pode alternar longas "cadeias de pensamento" para uma precisão aprimorada ao custo de alguma carga computacional. No modo "raciocínio", o DeepHermes-3 Preview, semelhante a outros modelos de IA de raciocínio, "pensa" mais para problemas mais difíceis e mostra seu processo de pensamento para chegar à resposta.

A Anthropic planeja lançar em breve um modelo arquitetonicamente similar, e a OpenAI afirmou que tal modelo está em seu roadmap de curto prazo.