{"id":1854,"date":"2020-07-02T23:19:04","date_gmt":"2020-07-03T02:19:04","guid":{"rendered":"http:\/\/www.l2maker.com.br\/documentacao\/?p=1854"},"modified":"2020-07-08T19:11:06","modified_gmt":"2020-07-08T22:11:06","slug":"extraindo-texto-de-pdfs","status":"publish","type":"post","link":"https:\/\/www.l2maker.com.br\/documentacao\/2020\/07\/extraindo-texto-de-pdfs\/","title":{"rendered":"Extraindo texto de PDFs"},"content":{"rendered":"\n<p>Os arquivos PDFs podem conter imagens e textos, muitas vezes eles s\u00e3o gerados a partir de imagens digitalizadas. Sendo assim, para extrair o texto \u00e9 necess\u00e1rio aplicar uma rotina de OCR.<\/p>\n\n\n\n<p>Neste caso vamos precisar das duas APIs abaixo:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li><a href=\"https:\/\/www.l2maker.com.br\/documentacao\/api-pdf\/\">API de Manipula\u00e7\u00e3o de PDF<\/a>;<\/li><li><a href=\"https:\/\/www.l2maker.com.br\/documentacao\/api-de-ocr-extracao-de-texto-2\/\">API de OCR (Extra\u00e7\u00e3o de texto)<\/a>.<\/li><\/ul>\n\n\n\n<p>Utilize a API de PDFs para abrir o PDF e gerar a imagem de cada p\u00e1gina.<\/p>\n\n\n\n<ol class=\"wp-block-list\"><li>Abrir o arquivo PDF usando a fun\u00e7\u00e3o &#8220;<strong>PDF &#8211; Abrir arquivo<\/strong>&#8220;;<\/li><li>Obter o n\u00famero de p\u00e1ginas do arquivo PDF &#8220;<strong>PDF &#8211; N\u00famero de p\u00e1ginas do arquivo<\/strong>&#8220;;<\/li><li>Fazer um la\u00e7o de repeti\u00e7\u00e3o pelas p\u00e1ginas (come\u00e7ando n\u00e1 p\u00e1gina 1);<ol><li>Obter a imagem de cada p\u00e1gina &#8220;<strong>PDF &#8211; Gerar imagem da p\u00e1gina<\/strong>&#8220;;<\/li><li>Extrair o texto da imagem da p\u00e1gina &#8220;<strong>OCR &#8211; Extrair Texto<\/strong>&#8221; e salvar como o texto da p\u00e1gina;<\/li><li>Ir para a p\u00e1gina seguinte (incrementar contador);<\/li><\/ol><\/li><li>Fechar o arquivo PDF aberto no \u00ednicio &#8220;<strong>PDF &#8211; Fechar arquivo<\/strong>&#8220;;<\/li><\/ol>\n\n\n\n<h2 class=\"wp-block-heading\">Anexos<\/h2>\n\n\n\n<ul class=\"wp-block-list\"><li><a href=\"https:\/\/www.l2maker.com.br\/publico\/apis\/exemplos\/l2maker_exemplo_extrair_txt_pdf.zip\">Exemplo em FRZ (Maker Studio)<\/a><\/li><\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Os arquivos PDFs podem conter imagens e textos, muitas vezes eles s\u00e3o gerados a partir de imagens digitalizadas. Sendo assim, para extrair o texto \u00e9 necess\u00e1rio aplicar uma rotina de OCR. Neste caso vamos precisar das duas APIs abaixo: API de Manipula\u00e7\u00e3o de PDF; API de OCR (Extra\u00e7\u00e3o de texto). Utilize a API de PDFs [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[106,214],"tags":[213,16,211,192],"class_list":["post-1854","post","type-post","status-publish","format-standard","hentry","category-pdf","category-api-ocr-instrucoes","tag-extrair-texto","tag-maker","tag-ocr","tag-pdf"],"_links":{"self":[{"href":"https:\/\/www.l2maker.com.br\/documentacao\/wp-json\/wp\/v2\/posts\/1854","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.l2maker.com.br\/documentacao\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.l2maker.com.br\/documentacao\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.l2maker.com.br\/documentacao\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.l2maker.com.br\/documentacao\/wp-json\/wp\/v2\/comments?post=1854"}],"version-history":[{"count":6,"href":"https:\/\/www.l2maker.com.br\/documentacao\/wp-json\/wp\/v2\/posts\/1854\/revisions"}],"predecessor-version":[{"id":1873,"href":"https:\/\/www.l2maker.com.br\/documentacao\/wp-json\/wp\/v2\/posts\/1854\/revisions\/1873"}],"wp:attachment":[{"href":"https:\/\/www.l2maker.com.br\/documentacao\/wp-json\/wp\/v2\/media?parent=1854"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.l2maker.com.br\/documentacao\/wp-json\/wp\/v2\/categories?post=1854"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.l2maker.com.br\/documentacao\/wp-json\/wp\/v2\/tags?post=1854"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}