
Uma nova empresa, Deep Cogito, emergiu da furtividade com uma família de modelos de IA disponíveis publicamente que podem ser alternados entre modos de 'racional' e não-racional.
Modelos racionais como o o1 da OpenAI mostraram grande promessa em domínios como matemática e física, graças à sua capacidade de verificar efetivamente a si mesmos trabalhando através de problemas complexos passo a passo. No entanto, esse raciocínio tem um custo: maior computação e latência. Por isso, laboratórios como o Anthropic estão buscando arquiteturas de modelos 'híbridos' que combinam componentes de raciocínio com elementos padrão, não-racionais. Modelos híbridos podem responder rapidamente a perguntas simples enquanto dedicam tempo adicional para considerar consultas mais desafiadoras.
Todos os modelos da Deep Cogito, chamados Cogito 1, são modelos híbridos. A Deep Cogito afirma que superam os melhores modelos abertos do mesmo tamanho, incluindo modelos da Meta e da startup chinesa de IA DeepSeek.
“Cada modelo pode responder diretamente [...] ou fazer autoreflexão antes de responder (como modelos racionais)”, explicou a empresa em um post no blog. “[Todos] foram desenvolvidos por uma pequena equipe em aproximadamente 75 dias.”
Os modelos Cogito 1 variam de 3 bilhões a 70 bilhões de parâmetros, e a Deep Cogito diz que modelos de até 671 bilhões de parâmetros se juntarão a eles nas próximas semanas e meses. Parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, sendo mais parâmetros geralmente melhor.
O Cogito 1 não foi desenvolvido do zero, para deixar claro. A Deep Cogito construiu em cima dos modelos abertos do Llama da Meta e do Qwen da Alibaba para criar o seu próprio. A empresa diz que aplicou abordagens de treinamento inovadoras para impulsionar o desempenho dos modelos base e permitir o raciocínio alternável.
De acordo com os resultados da avaliação interna da Deep Cogito, o maior modelo Cogito 1, Cogito 70B, com raciocínio supera o modelo de raciocínio R1 da DeepSeek em algumas avaliações de matemática e linguagem. O Cogito 70B com o raciocínio desativado também supera o modelo Llama 4 Scout da Meta recentemente lançado no LiveBench, um teste de IA de propósito geral.
Cada modelo Cogito 1 está disponível para download ou uso via APIs nos provedores de nuvem Fireworks AI e Together AI.

“Atualmente, ainda estamos nas fases iniciais da curva de escalonamento, usando apenas uma fração da computação normalmente reservada para o treinamento pós-continuado de grandes modelos de linguagem tradicionais”, escreveu a Deep Cogito em seu post no blog. “No futuro, estamos investigando abordagens complementares de pós-treinamento para autoaperfeiçoamento.”
De acordo com documentos registrados no Estado da Califórnia, a Deep Cogito, sediada em San Francisco, foi fundada em junho de 2024. A página do LinkedIn da empresa lista dois cofundadores, Drishan Arora e Dhruv Malhotra. Malhotra era anteriormente gerente de produto no laboratório de IA do Google, DeepMind, onde trabalhou em tecnologia de busca generativa. Arora era engenheiro de software sênior no Google.
A Deep Cogito, cujos apoiadores incluem o South Park Commons, de acordo com o PitchBook, tem a ambição de construir uma “superinteligência geral”. Os fundadores da empresa entendem a frase como significando IA que pode realizar tarefas melhor do que a maioria dos humanos e “descobrir totalmente novas capacidades que ainda não conseguimos imaginar.”