Blog

Extraindo texto de PDFs

Os arquivos PDFs podem conter imagens e textos, muitas vezes eles são gerados a partir de imagens digitalizadas. Sendo assim, para extrair o texto é necessário aplicar uma rotina de OCR.

Neste caso vamos precisar das duas APIs abaixo:

Utilize a API de PDFs para abrir o PDF e gerar a imagem de cada página.

  1. Abrir o arquivo PDF usando a função “PDF – Abrir arquivo“;
  2. Obter o número de páginas do arquivo PDF “PDF – Número de páginas do arquivo“;
  3. Fazer um laço de repetição pelas páginas (começando ná página 1);
    1. Obter a imagem de cada página “PDF – Gerar imagem da página“;
    2. Extrair o texto da imagem da página “OCR – Extrair Texto” e salvar como o texto da página;
    3. Ir para a página seguinte (incrementar contador);
  4. Fechar o arquivo PDF aberto no ínicio “PDF – Fechar arquivo“;

Anexos