Novo rival do ChatGPT, Claude 2, é lançado para testes beta abertos

antrópico

Na terça-feira, a Anthropic apresentou o Claude 2, um grande modelo de linguagem (LLM) semelhante ao ChatGPT que pode criar código, analisar texto e escrever composições. Ao contrário da versão original do Claude lançada em março, os usuários podem experimentar o Claude 2 gratuitamente em um novo site beta. Também está disponível como uma API comercial para desenvolvedores.

A Anthropic diz que Claude foi projetado para simular uma conversa com um colega útil ou assistente pessoal e que a nova versão aborda o feedback dos usuários do modelo anterior: “Ouvimos de nossos usuários que é fácil conversar com Claude, explica claramente seu pensamento , tem menos probabilidade de produzir saídas prejudiciais e tem uma memória mais longa.”

Anthropic afirma que Claude 2 demonstra avanços em três áreas principais: codificação, matemática e raciocínio. “Nosso modelo mais recente obteve 76,5% na seção de múltipla escolha do exame da Ordem, acima dos 73,0% com Claude 1,3”, escrevem eles. “Quando comparado aos estudantes universitários que se inscrevem na pós-graduação, Claude 2 pontua acima do 90º percentil nos exames de leitura e redação do GRE e de forma semelhante ao candidato mediano em raciocínio quantitativo.”

A resposta de Claude 2 à pergunta: “A cor seria chamada de ‘magenta’ se a cidade de Magenta não existisse?” Na realidade, a cor recebeu o nome de uma batalha, que recebeu o nome da cidade de Magenta, na Itália.

Strong The One
Resposta do ChatGPT-4 à pergunta: “A cor seria chamada de ‘magenta’ se a cidade de Magenta não existisse?” Na realidade, a cor recebeu o nome de uma batalha, que recebeu o nome da cidade de Magenta, na Itália.

Strong The One
Resposta do Google Bard para a pergunta: “A cor seria chamada de ‘magenta’ se a cidade de Magenta não existisse?” Na realidade, a cor recebeu o nome de uma batalha, que recebeu o nome da cidade de Magenta, na Itália.

Strong The One

Uma das principais melhorias do Claude 2 é seu comprimento de entrada e saída expandido. Como abordamos anteriormente, a Anthropic vem experimentando o processamento de prompts de até 100.000 tokens (fragmentos de palavras), o que permite que o modelo de IA analise documentos longos, como guias técnicos ou livros inteiros. Esse comprimento aumentado também se aplica às suas saídas, permitindo também a criação de documentos mais longos.

Em termos de capacidades de codificação, Claude 2 demonstrou um aumento relatado na proficiência. Sua pontuação no Codex HumanEval, um teste de programação em Python, subiu de 56% para 71,2%. Da mesma forma, no GSM8k, um teste que inclui problemas de matemática do ensino fundamental, melhorou de 85,2 para 88%.

Um dos principais focos da Anthropic tem sido tornar seu modelo de linguagem menos propenso a gerar resultados “nocivos” ou “ofensivos” quando apresentados a determinados prompts, embora medir essas qualidades seja altamente subjetivo e difícil. De acordo com uma avaliação interna do red-teaming, “Claude 2 foi 2x melhor em dar respostas inofensivas em comparação com Claude 1.3.”

O Claude 2 agora está disponível para uso geral nos EUA e no Reino Unido para usuários individuais e empresas por meio de sua API. A Anthropic relata que empresas como Jasper, uma plataforma de escrita de IA, e Sourcegraph, uma ferramenta de navegação de código, começaram a incorporar o Claude 2 em suas operações.

É importante observar que, embora modelos de IA como o Claude 2 possam analisar trabalhos longos e complexos, o Anthropic ainda está ciente de suas limitações. Afinal, os modelos de linguagem ocasionalmente inventam coisas do nada. Nosso conselho é não usá-los como referências factuais, mas permitir que eles processem os dados que você fornecer – se você já estiver familiarizado com o assunto e puder validar os resultados.

“Os assistentes de IA são mais úteis em situações cotidianas, como servir para resumir ou organizar informações”, escreve Anthropic, “e não devem ser usados quando a saúde e o bem-estar físico ou mental estiverem envolvidos”.

Akanejulho 12, 2023

0 3 minutos de leitura

Mostrar mais

Ler o Próximo

Novo rival do ChatGPT, Claude 2, é lançado para testes beta abertos

Akane

Ler o Próximo

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Deixe um comentário Cancelar resposta

Ler o Próximo

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA