Componente para la extracción de metadatos bibliográficos a partir de corpus textuales en formato PDF

Núñez García, Paul; Zorrilla Rivera, Osbel

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.uci.cu/jspui/handle/123456789/7761

Título :	Componente para la extracción de metadatos bibliográficos a partir de corpus textuales en formato PDF
Autor :	Núñez García, Paul Zorrilla Rivera, Osbel
Tutor:	Hidalgo Delgado, Yusniel Ortiz Muñoz, Ernesto
Palabras clave :	METADATOS;EXTRACCION;APRENDIZAJE AUTOMATICO;METADATOS BIBLIOGRAFICOS
Fecha de publicación :	jun-2016
Editorial :	Universidad de las Ciencias Informáticas. Facultad 3
Resumen :	Los metadatos existen en numerosos contextos y estos se pueden reconocer por sus tipos, formas, características y usos. La extracción y almacenamiento de metadatos desde documentos en formato PDF han ganado en aplicabilidad al igual que la publicación de metadatos bibliográficos siguiendo los principios de los datos enlazados. El proceso de extracción de metadatos se vuelve complejo debido a que esta actividad generalmente requiere de personal altamente calificado. Este proceso se realiza manualmente en muchos casos, haciendo lento el proceso de digitalización y catalogación de los registros bibliográficos, por lo que es necesario contar con herramientas informáticas capaces de procesar, de manera semiautomática documentos en formato PDF, para posteriormente extraer sus correspondientes metadatos bibliográficos. El desarrollo de este tipo de herramienta constituye una solución viable para transformar un documento PDF o grupo de estos en metadatos, que luego pueden ser empleados por otros sistemas informáticos con fines específicos, tales como la búsqueda, recuperación de información y la clasificación de documentos. En esta investigación se propone un componente para la extracción de metadatos bibliográficos desde documentos en formato PDF, teniendo en cuenta los principales enfoques, técnicas y herramientas utilizadas para la extracción de metadatos en la actualidad. Con la implementación del componente se pretende dotar a los especialistas en bibliotecología de una herramienta de extracción de metadatos bibliográficos. There are metadata in many contexts. It can be recognized by types, forms, characteristics and uses. The extraction and storage of metadata from PDF documents has gained in applicability as the publication of bibliographic metadata following the principles of the linked data. The metadata extraction process becomes complex because this activity usually requires highly qualified personnel. The work of extraction is done manually by slow the process of digitizing and cataloging of bibliographic records, so it is necessary to have a software tool capable of processing, semi-automatically documents in PDF format, to later extract their corresponding bibliographic metadata. The development of such a viable tool to transform a PDF document or group of these metadata, which can then be used by other computer systems with specific, such as search, information retrieval and document classification purposes solution. In this research a component for extracting metadata from PDF documents taking into account the main approaches, techniques and tools used for extraction of metadata currently proposed. With the implementation of the component, it is to provide specialists in library science from an extraction tool.
URI :	https://repositorio.uci.cu/jspui/handle/123456789/7761
Aparece en las colecciones:	Trabajos de Diploma

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TD_08585_16.pdf Restricted Access		5.37 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem