Extraindo texto de PDFs
Os arquivos PDFs podem conter imagens e textos, muitas vezes eles são gerados a partir de imagens digitalizadas. Sendo assim, para extrair o texto é necessário aplicar uma rotina de OCR.
Neste caso vamos precisar das duas APIs abaixo:
Utilize a API de PDFs para abrir o PDF e gerar a imagem de cada página.
- Abrir o arquivo PDF usando a função “PDF – Abrir arquivo“;
- Obter o número de páginas do arquivo PDF “PDF – Número de páginas do arquivo“;
- Fazer um laço de repetição pelas páginas (começando ná página 1);
- Obter a imagem de cada página “PDF – Gerar imagem da página“;
- Extrair o texto da imagem da página “OCR – Extrair Texto” e salvar como o texto da página;
- Ir para a página seguinte (incrementar contador);
- Fechar o arquivo PDF aberto no ínicio “PDF – Fechar arquivo“;