¿Cómo convertir archivos PDF a texto?

¿Cómo convertir archivos PDF a texto?

Descubra herramientas y trucos para copiar y editar información en ese formato.

Errores hoja de vida

Aprenda cómo reconocer un PDF nativo y use las mejores herramientas para extraer la información de textos y tablas en este formato. 

Foto:

iStock

Por: Redacción Tecnósfera
17 de abril 2019 , 09:39 a.m.

Los archivos PDF son famosos en internet porque son uno de los formatos más utilizados para compartir información. Se usan principalmente porque son el resultado  de un documento físico digitalizado y sobretodo porque evitan modificaciones posteriores de terceros

Si alguna vez se ha cruzado con estos archivos y ha querido usar la información y editarla para otro documento, a continuación podrá descubrir cómo puede extraer esos datos, paso a paso

Antes de extraer la información debe saber qué tipo de PDF tiene. Un PDF ‘nativo’ es un documento exportado que resulta de un programa digital y es más amigable para extraer. Puede reconocerlo porque al pasar el cursor sobre contenido usted puede ‘subrayar’ la información. 

Si por el contrario el PDF es en realidad el resultado de imágenes o documentos escaneados, se trata de un archivo menos ‘amigable’, con lo que deberá utilizar una herramienta de reconocimiento óptico de caracteres (OCR) y los resultados de la extracción pueden variar de acuerdo a la calidad de la imagen.

¿Cómo extraer información de un PDF nativo?

Para utilizar la información de un formato nativo puede optar por alguna de las siguientes opciones.  

Google Drive: usted puede hacer uso de la plataforma de documentos compartidos de Google para convertir un PDF en un Google Doc. 

  • Importe el documento que vaya a utilizar a su espacio de almacenamiento en Google Drive. 
  • Una vez cargado, haga clic derecho para elegir la opción de Google Docs. 
  • Aunque pueda tardar un poco más de lo esperado, lo que encontrará es que el documento se abrirá con posibilidad de edición sin inconvenientes.
  • Esta opción le permite detectar algunos formatos de texto como la cursiva, la negrita o el tipo de fuente, pero en caso de que el documento tenga tablas o esté en una orientación horizontal, lo resultados pueden no ser tan óptimos. 

Cometdocs: En su versión gratuita usted podrá extraer información de archivos, incluyendo tablas de excel, con una gran precisión. 

  • Primero debe registrarse en la plataforma, bien sea con su cuenta en redes sociales o creando una nueva. Luego, el sitio le dará un breve tutorial sobre cada una de sus funciones, pero para convertir el PDF lo que debe hacer es arrastrar el documento que va a utilizar y cargarlo desde su equipo o importarlo desde un Google Drive o un DropBox
  • Luego arrastre el documento a la opción 'convert' y elija uno de los formatos de transformación disponibles como Word, Powepoint o Excel. 
  • Haga clic en 'convertir'. Cuando termine el proceso la plataforma le dirigirá a la sección de almacenamiento donde usted podrá ver su PDF y el formato saliente. Haga clic en el documento resultante y descargue.  Cometdocs le ofrece un máximo de cinco conversiones semanales en su versión gratuita. 

Online2PDF: Una de las plataformas en línea más conocidas. Es tan simple como entrar en el sitio web y organizar sus documentos para convertirlos. Esta opción por ejemplo le permite al usuario visitante dividir o reorganizar páginas de su PDF, rotar orientación o hasta fusionar documentos. 

  • Suba el archivo que desea transformar. Puede elegir varios archivos al mismo tiempo. 
  • En la conversión estándar, usted obtendrá un archivo por todo el documento completo, pero también puede optar por la opción para exportar un archivo por cada página del PDF que está transformando. 
  • Elija el formato de conversión como DOC, XLS, PPT, RTF o JPG
  • El tiempo de la conversión depende de qué tan pesado sea su archivo. Una vez se realice el proceso, el documento resultante se descargará automáticamente.
¿Cómo trabajar con los documentos escaneados?

Sin embargo, si definitivamente usted trata de extraer información de un PDF que resulta de un documento escaneado no hay mucho más que hacer que confiar en el reconocimiento óptico de las imágenes (OCR).

Esto ocurre porque en vez de caracteres, los programas van a tener que descifrar y reconocer píxeles para adivinar el contenido. Algunas opciones, por supuesto tienen un muy buen sistema de OCR y permiten una extracción exitosa. Factores como la calidad de la imagen, si el documento está o no con suficiente nitidez y hasta la cantidad de luz pueden afectar el resultado. 

Para utilizar la información de un documento no nativo puede optar por alguna de las siguientes opciones.

Zamzar: Esta opción puede abrir en Chrome, Firefox y Safari. Se trata de un OCR capaz de convertir un máximo de 10 archivos. 

  • Ingrese al sitio de la herramienta y elija el archivo que desea analizar. 
  • Selecciones el formato de salida
  • Entregue una dirección de correo electrónico para recibir el enlace al archivo final. Dicho enlace permanece activo solo durante un día. 

OnlineOCR: Usted podrá optar por generar una cuenta gratuita para ampliar sus opciones de extracción. Para ayudar al sistema, es recomendable indicar el idioma del documento en el que va a trabajar. 

  • Agregue el documento con el que va a trabajar e indique un formato de salida. En este caso, la versión más sencilla solo permite exportar un word, un excel o un texto plano. 
  • Especifique si desea extraer el documento completo o solo algunas páginas. Si por el contrario, desea fusionar varios documentos puede elegir la opción para combinar archivos en un multipágina. 
  • La aplicación procesará la solicitud según el peso de los archivos a trabajar. Una vez esté completo, automáticamente le llevará a una nueva página con el enlace de descarga. 

REDACCIÓN TECNÓSFERA
@TecnosferaET¿Tiene programas o aplicaciones de las que le gustaría conocer trucos, tips o tutoriales? Escríbanos con el #ConsultorioTecnosfera o #TutorialesTecnosfera. 

Descarga la app El Tiempo. Con ella puedes escoger los temas de tu interés y recibir notificaciones de las últimas noticias. Conócela acá:

Sal de la rutina

Logo Boletin

Estás a un clic de recibir a diario la mejor información en tu correo. ¡Inscríbete!

*Inscripción exitosa.

*Este no es un correo electrónico válido.

*Debe aceptar los Términos y condiciones.

Logo Boletines

¡Felicidades! Tu inscripción ha sido exitosa.

Ya puedes ver los últimos contenidos de EL TIEMPO en tu bandeja de entrada

Sigue bajando para encontrar más contenido

CREA UNA CUENTA


¿Ya tienes cuenta? INGRESA

Llegaste al límite de contenidos del mes

Disfruta al máximo el contenido de EL TIEMPO DIGITAL de forma ilimitada. ¡Suscríbete ya!

Si ya eres suscriptor del impreso

actívate

* COP $900 / mes durante los dos primeros meses

Sabemos que te gusta estar siempre informado.

Crea una cuenta y podrás disfrutar de:

  • Acceso a boletines con las mejores noticias de actualidad.
  • Comentar las noticias que te interesan.
  • Guardar tus artículos favoritos.

Crea una cuenta y podrás disfrutar nuestro contenido desde cualquier dispositivo.