Ciência e Tecnologia

A nova API do OCR da Mistral transforma qualquer documento em PDF em um arquivo de rekdown de AI-AI

.

Modelos de linguagem grandes funcionam particularmente bem com texto bruto. As empresas que desejam criar seu próprio fluxo de trabalho de IA sabem que se tornou extremamente importante armazenar e indexar dados em um formato limpo, para que esses dados possam ser reutilizados para o processamento da IA.

É por isso Mistral está lançando hoje uma nova API para desenvolvedores que lidam com documentos complexos em PDF. Mistral OCR é uma API de reconhecimento óptico de caracteres que pode transformar qualquer PDF em um arquivo de texto.

Ao contrário da maioria das APIs de OCR, o MISTRAL OCR é uma API multimodal, o que significa que ela pode detectar quando há ilustrações e fotos entrelaçadas com blocos de texto. A API OCR cria caixas delimitadoras em torno desses elementos gráficos e os inclui na saída.

Da mesma forma, o Mistral OCR não apenas produz uma grande parede de texto. A saída é formatada no Markdown, uma sintaxe de formatação que os desenvolvedores usam para adicionar links, cabeçalhos e outros elementos de formatação a um arquivo de texto simples.

Os grandes modelos de linguagem dependem muito do Markdown para seus conjuntos de dados de treinamento. Da mesma forma, quando você usa um assistente de IA, como o LE Chat de Mistral ou o ChatGPT da OpenAI, eles geralmente geram marcação para criar listas de balas, adicionar links ou colocar alguns elementos em negrito. Os aplicativos assistentes formam perfeitamente a saída de marcação em uma saída de texto rica. É por isso que o texto bruto – e o desdém – se tornaram mais importantes nos últimos anos.

“Ao longo dos anos, as organizações acumularam numerosos documentos, geralmente em formatos de PDF ou slide, que são inacessíveis aos LLMs, particularmente sistemas de pano. Com o Mistral OCR, nossos clientes agora podem converter documentos ricos e complexos em conteúdo legível em todos os idiomas ”, disse o co-fundador e diretor de ciências da Mistral, Guillaume Lample.

“Este é um passo crucial para a ampla adoção de assistentes de IA em empresas que precisam simplificar o acesso à sua vasta documentação interna”, acrescentou.

O Mistral OCR está disponível na própria plataforma de API da Mistral ou através de seus parceiros em nuvem (AWS, Azure, Google Cloud Vertex, etc.). E para empresas que trabalham com dados classificados ou sensíveis, a Mistral também oferece implantação local.

De acordo com a empresa de IA com sede em Paris, a Mistral OCR tem um desempenho melhor do que as APIs do Google, Microsoft e OpenAI. A empresa testou seu modelo de OCR com documentos complexos que incluem expressões matemáticas (formatação de látex), layouts ou tabelas avançadas. Também deve ter um melhor desempenho com documentos não ingleses.

Créditos da imagem:Mistral

Dado que o Mistral OCR faz uma coisa e apenas uma coisa, a empresa acredita que também é mais rápida do que o que está lá fora. Isso não é uma surpresa se você compará-lo com um modelo de linguagem grande multimodal como o GPT-4O, que também possui recursos de OCR (entre muitos outros recursos).

Mistral também está usando o Mistral OCR para seu próprio assistente de IA O gato. Quando um usuário envia um arquivo PDF, a empresa usa o MISTRAL OCR em segundo plano para entender o que está no documento antes de processar o texto.

Empresas e desenvolvedores provavelmente usarão o Mistral OCR com um sistema de pano para usar documentos multimodais como entrada em um LLM. E existem muitos casos de uso em potencial. Por exemplo, eu podia ver escritórios de advocacia usando -os para ajudá -los a acelerar através de enormes volumes de documentos.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo