Firecrawl reescreve o motor de análise de PDF em Rust, aumentando a velocidade em até 5,7 vezes em relação ao anterior

robot
Geração do resumo em andamento

ME News Notícias, 15 de abril (UTC+8), de acordo com a monitorização da 1M AI News, a ferramenta de extração de dados web Firecrawl lançou o Fire-PDF, um motor de análise de PDF reescrito em Rust, que aumenta a velocidade de conversão de PDF para Markdown estruturado em 3,5 a 5,7 vezes em relação à geração anterior, com um tempo médio de processamento por página inferior a 400 milissegundos.
A aceleração principal vem da redução de chamadas desnecessárias à GPU.
Firecrawl também lançou de forma sincronizada a biblioteca Rust pdf-inspector, que classifica cada página de PDF em milissegundos: páginas de texto puro são extraídas diretamente de forma nativa, pulando a GPU; apenas páginas de digitalizações ou com alta densidade de imagens são enviadas para o modelo de layout de rede neural e o modelo de linguagem visual GLM-OCR para processamento.
Tomando como exemplo um relatório financeiro de 150 páginas de texto mais 60 páginas de digitalizações, a maioria das páginas não necessita de GPU.
No que diz respeito à precisão, o Fire-PDF ajusta os parâmetros de acordo com diferentes tipos de conteúdo: tabelas recebem limites de tokens mais altos e até 25 segundos para geração, fórmulas são preservadas em LaTeX, e layouts de várias colunas são previstos por rede neural para determinar a ordem de leitura.
O Fire-PDF já está automaticamente ativo para todos os usuários do Firecrawl, sem necessidade de configuração.
(Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar