.
A IA e os grandes modelos de idiomas (LLMs) que os alimentam têm uma tonelada de aplicativos úteis, mas, para toda a sua promessa, eles não são muito confiáveis.
Ninguém sabe quando esse problema será resolvido, por isso faz sentido que estamos vendo startups encontrando uma oportunidade para ajudar as empresas a garantir que os aplicativos movidos a LLM que estão pagando pelo trabalho conforme o pretendido.
Startup de Londres Comó Parece que ele tem um cabeçote ao tentar resolver esse problema, graças aos seus modelos personalizados que podem ajudar as empresas a avaliar a precisão e a qualidade dos aplicativos que são alimentados pelo LLMS.
A empresa é semelhante a AgenteFreeplay, Humanloop e Langsmithque afirmam oferecer uma alternativa mais sólida baseada em LLM aos testes humanos, listas de verificação e ferramentas de observabilidade existentes. Mas o Composo afirma que é diferente porque oferece uma opção sem código e uma API. Isso é notável porque isso amplia o escopo de seu mercado potencial – você não precisa ser um desenvolvedor para usá -lo, e especialistas e executivos de domínio podem avaliar aplicativos de IA quanto a inconsistências, qualidade e precisão.
Na prática, composto combina Um modelo de recompensa treinado na saída que uma pessoa prefere ver de um aplicativo de IA com um conjunto definido de critérios específicos desse aplicativo para criar um sistema que avalia essencialmente as saídas a partir do aplicativo em relação a esses critérios. Por exemplo, um chatbot de triagem médica pode fazer com que seus clientes definam diretrizes personalizadas para verificar os sintomas da bandeira vermelha, e o composto pode pontuar com que consistência o aplicativo o faz.
A empresa recentemente lançou uma API pública Para alinhamento de composto, um modelo para avaliar aplicativos LLM em qualquer critério.
A estratégia parece estar funcionando um pouco: tem nomes como Accenture, Palantir e McKinsey em sua base de clientes, e recentemente levantou US $ 2 milhões em financiamento pré-semente. A pequena quantidade levantada aqui não é incomum para uma startup no clima de risco de hoje, mas é notável porque essa é uma terra de IA, afinal – o financiamento para essas empresas é abundante.
Mas, de acordo com o co-fundador e CEO da Commó, Sebastian Fox, o número relativamente baixo é porque a abordagem da startup não é particularmente intensiva em capital.
“Nos três anos seguintes, pelo menos, não nos prevemos levantar centenas de milhões porque há muitas pessoas construindo modelos de fundação e fazê -lo com muita eficácia, e esse não é o nosso USP”, disse Fox, ex -consultor da McKinsey. “Em vez disso, todas as manhãs, se eu acordar e ver uma peça de notícia que o Openai fez um grande avanço em seus modelos, isso é bom para os meus negócios.”
Com o Fresh Cash, a Comoso planeja expandir sua equipe de engenharia (liderada pelo co-fundador e pela CTO Luke Markham, ex-engenheiro de aprendizado de máquina da GraphCore), adquirir mais clientes e reforçar seus esforços de P&D. “O foco deste ano é muito mais sobre escalar a tecnologia que agora temos nessas empresas”, disse Fox.
Fundo Britânico de AI antes da semente Twin Path Ventures liderou a rodada de sementes, que também viu a participação de JVH Ventures e Prisão (Este último apoiou a startup por meio de seu programa acelerador). “O Composo está abordando um gargalo crítico na adoção da IA corporativa”, disse um porta -voz do Twin Path em comunicado.
Esse gargalo é um grande problema para o movimento geral da IA, principalmente no segmento corporativo, disse Fox. “As pessoas estão acima do hype de emoção e agora estão pensando: ‘Bem, na verdade, isso realmente muda algo sobre o meu negócio em sua forma atual? Porque não é confiável o suficiente e não é consistente o suficiente. E mesmo que seja, você não pode me provar o quanto é ”, disse ele.
Esse gargalo poderia tornar o composto mais valioso para as empresas que desejam implementar a IA, mas podem incorrer em riscos de reputação de fazê -lo. Fox diz que é por isso que sua empresa optou por ser agnóstica da indústria, mas ainda tem ressonância nos espaços de conformidade, jurídica, assistência médica e segurança.
Quanto ao seu fosso competitivo, a Fox sente que a P&D necessária para chegar aqui não é trivial. “Existe a arquitetura do modelo e os dados que usamos para treiná -lo”, disse ele, explicando que o composto alinhado foi treinado em um “grande conjunto de dados de avaliações especializadas”.
Ainda existe a questão do que os gigantes da tecnologia poderiam fazer se eles simplesmente tocassem seus enormes baús de guerra para entrar nesse problema, mas a Comoso acha que tem uma vantagem de primeiro motor. “O outro [thing] são os dados que acumulamos ao longo do tempo ”, disse Fox, referindo -se a como a Composo construiu preferências de avaliação.
Como avalia aplicativos em relação a um conjunto flexível de critérios, o composto também se vê mais adequado ao surgimento da IA agêntica do que os concorrentes que usam uma abordagem mais restrita. “Na minha opinião, definitivamente não estamos no estágio em que os agentes funcionam bem, e é realmente isso que estamos tentando ajudar a resolver”, disse Fox.
.