Composo ajuda empresas a monitorar o desempenho de aplicativos de IA

IA e os grandes modelos de linguagem (LLMs) que os alimentam têm uma tonelada de aplicações úteis, mas, apesar de todas as promessas, não são muito confiáveis.

Ninguém sabe quando esse problema será resolvido, por isso faz sentido ver startups encontrando uma oportunidade em ajudar as empresas a garantir que os aplicativos movidos por LLMs pelos quais estão pagando funcionem como planejado.

A startup sediada em Londres, Composo, sente que tem uma vantagem inicial em tentar resolver esse problema, graças aos seus modelos personalizados que podem ajudar as empresas a avaliar a precisão e qualidade dos aplicativos alimentados por LLMs.

A empresa é semelhante à Agenta, Freeplay, Humanloop e LangSmith, que afirmam oferecer uma alternativa mais sólida e baseada em LLM ao teste humano, listas de verificação e ferramentas de observabilidade existentes. Mas a Composo afirma que é diferente porque oferece tanto uma opção sem código quanto uma API. Isso é notável porque amplia o escopo de seu mercado potencial - você não precisa ser um desenvolvedor para usá-lo, e especialistas de domínio e executivos podem avaliar os aplicativos de IA em busca de inconsistências, qualidade e precisão.

Na prática, a Composo combina um modelo de recompensa treinado na saída que uma pessoa gostaria de ver de um aplicativo de IA com um conjunto definido de critérios específicos para esse aplicativo para criar um sistema que essencialmente avalia as saídas do aplicativo em relação a esses critérios. Por exemplo, um chatbot de triagem médica pode ter seu cliente definir diretrizes personalizadas para verificar sintomas de alerta, e a Composo pode pontuar quão consistentemente o aplicativo o faz.

A empresa lançou recentemente uma API pública para o Composo Align, um modelo para avaliar aplicações LLM em qualquer critério.

A estratégia parece estar funcionando em parte: ela tem nomes como Accenture, Palantir e McKinsey em sua base de clientes, e recentemente levantou US$2 milhões em financiamento pré-semente. A pequena quantia levantada aqui não é incomum para uma startup no cenário de capital de risco de hoje, mas é notável porque estamos falando da Terra da IA - o financiamento para essas empresas é abundante.

Mas, de acordo com o co-fundador e CEO da Composo, Sebastian Fox, o número relativamente baixo se deve ao fato de que a abordagem da startup não é particularmente intensiva em capital.

“Pelo menos nos próximos três anos, não prevemos levantar centenas de milhões, porque há muitas pessoas construindo modelos de fundação e fazendo isso de forma muito eficaz, e isso não é nosso USP,” disse Fox, ex-consultor da Mckinsey. “Em vez disso, toda manhã, se eu acordar e ver uma notícia de que a OpenAI fez um grande avanço em seus modelos, isso é bom para o meu negócio.”

Com o dinheiro fresco, a Composo planeja expandir sua equipe de engenharia (liderada pelo co-fundador e CTO Luke Markham, ex-engenheiro de aprendizado de máquina na Graphcore), adquirir mais clientes e reforçar seus esforços de P&D. "O foco deste ano é muito mais sobre escalar a tecnologia que temos agora em essas empresas”, disse Fox.

O fundo de pré-semente Twin Path Ventures liderou a rodada seed, que também contou com a participação da JVH Ventures e da EWOR (esta última apoiou a startup por meio de seu programa de aceleração). “A Composo está enfrentando um gargalo crítico na adoção da IA corporativa,” disse um porta-voz da Twin Path em comunicado.

Esse gargalo é um grande problema para o movimento geral de IA, especialmente no segmento empresarial, disse Fox. “As pessoas estão cansadas da empolgação e agora estão pensando, ‘Bem, na verdade, isso muda algo sobre o meu negócio em sua forma atual? Porque não é confiável o suficiente, e não é consistente o suficiente. E mesmo que seja, você não pode provar o quanto é,’” ele disse.

Esse gargalo poderia tornar a Composo mais valiosa para empresas que desejam implementar a IA, mas que poderiam incorrer em riscos de reputação ao fazê-lo. Fox diz que é por isso que sua empresa escolheu ser agnóstica à indústria, mas ainda ter ressonância nos espaços de conformidade, jurídico, saúde e segurança.

Quanto à sua muralha competitiva, Fox sente que o P&D necessário para chegar até aqui não é trivial. “Há tanto a arquitetura do modelo quanto os dados que usamos para treiná-lo,” ele disse, explicando que o Composo Align foi treinado em um “grande conjunto de dados de avaliações de especialistas.”

Ainda resta a questão do que gigantes da tecnologia poderiam fazer se simplesmente usassem suas grandes reservas para entrar nesse problema, mas a Composo acredita ter uma vantagem do primeiro movimento. “Outro [ponto] é o dados que acumulamos ao longo do tempo,” disse Fox, referindo-se a como a Composo construiu preferências de avaliação.

Por avaliar aplicativos em relação a um conjunto flexível de critérios, a Composo também se vê mais adequada ao aumento da IA agente do que concorrentes que usam uma abordagem mais restrita. “Na minha opinião, definitivamente não estamos no estágio em que os agentes funcionam bem, e é exatamente isso que estamos tentando ajudar a resolver,” disse Fox.