Vamos a ver como convertir en testo e imágenes un fichero .pdf en linux:
1. Instalación
sudo apt install poppler-utils
2. Convertir a texto con:
pdftotext fichero.pdf
3. Obtener las imágenes con:
pdfimages -png fichero.pdf imagen
Fuentes:
1. https://guisheca.wordpress.com/2012/10/23/extraer-imagenes-de-un-archivo-pdf-desde-la-linea-de-comandos/
2. https://ubunlog.com/pdftotext-convierte-pdf-texto/