Deep Cogito emerge da furtividade com modelos híbridos de IA 'racional'

Uma nova empresa, Deep Cogito, emergiu da furtividade com uma família de modelos de IA disponíveis publicamente que podem ser alternados entre modos de 'racional' e não-racional.

Modelos racionais como o o1 da OpenAI mostraram grande promessa em domínios como matemática e física, graças à sua capacidade de verificar efetivamente a si mesmos trabalhando através de problemas complexos passo a passo. No entanto, esse raciocínio tem um custo: maior computação e latência. Por isso, laboratórios como o Anthropic estão buscando arquiteturas de modelos 'híbridos' que combinam componentes de raciocínio com elementos padrão, não-racionais. Modelos híbridos podem responder rapidamente a perguntas simples enquanto dedicam tempo adicional para considerar consultas mais desafiadoras.

Todos os modelos da Deep Cogito, chamados Cogito 1, são modelos híbridos. A Deep Cogito afirma que superam os melhores modelos abertos do mesmo tamanho, incluindo modelos da Meta e da startup chinesa de IA DeepSeek.

“Cada modelo pode responder diretamente [...] ou fazer autoreflexão antes de responder (como modelos racionais)”, explicou a empresa em um post no blog. “[Todos] foram desenvolvidos por uma pequena equipe em aproximadamente 75 dias.”

Os modelos Cogito 1 variam de 3 bilhões a 70 bilhões de parâmetros, e a Deep Cogito diz que modelos de até 671 bilhões de parâmetros se juntarão a eles nas próximas semanas e meses. Parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, sendo mais parâmetros geralmente melhor.

O Cogito 1 não foi desenvolvido do zero, para deixar claro. A Deep Cogito construiu em cima dos modelos abertos do Llama da Meta e do Qwen da Alibaba para criar o seu próprio. A empresa diz que aplicou abordagens de treinamento inovadoras para impulsionar o desempenho dos modelos base e permitir o raciocínio alternável.

De acordo com os resultados da avaliação interna da Deep Cogito, o maior modelo Cogito 1, Cogito 70B, com raciocínio supera o modelo de raciocínio R1 da DeepSeek em algumas avaliações de matemática e linguagem. O Cogito 70B com o raciocínio desativado também supera o modelo Llama 4 Scout da Meta recentemente lançado no LiveBench, um teste de IA de propósito geral.

Cada modelo Cogito 1 está disponível para download ou uso via APIs nos provedores de nuvem Fireworks AI e Together AI.

Desempenho do Cogito 1 comparado a outros modelos de IA disponíveis publicamenteCréditos da Imagem: Deep Cogito

“Atualmente, ainda estamos nas fases iniciais da curva de escalonamento, usando apenas uma fração da computação normalmente reservada para o treinamento pós-continuado de grandes modelos de linguagem tradicionais”, escreveu a Deep Cogito em seu post no blog. “No futuro, estamos investigando abordagens complementares de pós-treinamento para autoaperfeiçoamento.”

De acordo com documentos registrados no Estado da Califórnia, a Deep Cogito, sediada em San Francisco, foi fundada em junho de 2024. A página do LinkedIn da empresa lista dois cofundadores, Drishan Arora e Dhruv Malhotra. Malhotra era anteriormente gerente de produto no laboratório de IA do Google, DeepMind, onde trabalhou em tecnologia de busca generativa. Arora era engenheiro de software sênior no Google.

A Deep Cogito, cujos apoiadores incluem o South Park Commons, de acordo com o PitchBook, tem a ambição de construir uma “superinteligência geral”. Os fundadores da empresa entendem a frase como significando IA que pode realizar tarefas melhor do que a maioria dos humanos e “descobrir totalmente novas capacidades que ainda não conseguimos imaginar.”