Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.uci.cu/jspui/handle/123456789/7761
Título : | Componente para la extracción de metadatos bibliográficos a partir de corpus textuales en formato PDF |
Autor : | Núñez García, Paul Zorrilla Rivera, Osbel |
Tutor: | Hidalgo Delgado, Yusniel Ortiz Muñoz, Ernesto |
Palabras clave : | METADATOS;EXTRACCION;APRENDIZAJE AUTOMATICO;METADATOS BIBLIOGRAFICOS |
Fecha de publicación : | jun-2016 |
Editorial : | Universidad de las Ciencias Informáticas. Facultad 3 |
Resumen : | Los metadatos existen en numerosos contextos y estos se pueden reconocer por sus tipos, formas, características y usos. La extracción y almacenamiento de metadatos desde documentos en formato PDF han ganado en aplicabilidad al igual que la publicación de metadatos bibliográficos siguiendo los principios de los datos enlazados. El proceso de extracción de metadatos se vuelve complejo debido a que esta actividad generalmente requiere de personal altamente calificado. Este proceso se realiza manualmente en muchos casos, haciendo lento el proceso de digitalización y catalogación de los registros bibliográficos, por lo que es necesario contar con herramientas informáticas capaces de
procesar, de manera semiautomática documentos en formato PDF, para posteriormente extraer sus correspondientes metadatos bibliográficos. El desarrollo de este tipo de herramienta constituye una solución viable para transformar un documento PDF o grupo de estos en metadatos, que luego pueden ser empleados por otros sistemas informáticos con fines específicos, tales como la búsqueda, recuperación de información y la clasificación de documentos. En esta investigación se propone un componente para la extracción de metadatos bibliográficos desde documentos en formato PDF, teniendo en cuenta los principales enfoques, técnicas y herramientas utilizadas para la extracción de metadatos en la actualidad. Con la implementación del componente se pretende dotar a los especialistas en bibliotecología de una herramienta de extracción de metadatos bibliográficos. There are metadata in many contexts. It can be recognized by types, forms, characteristics and uses. The extraction and storage of metadata from PDF documents has gained in applicability as the publication of bibliographic metadata following the principles of the linked data. The metadata extraction process becomes complex because this activity usually requires highly qualified personnel. The work of extraction is done manually by slow the process of digitizing and cataloging of bibliographic records, so it is necessary to have a software tool capable of processing, semi-automatically documents in PDF format, to later extract their corresponding bibliographic metadata. The development of such a viable tool to transform a PDF document or group of these metadata, which can then be used by other computer systems with specific, such as search, information retrieval and document classification purposes solution. In this research a component for extracting metadata from PDF documents taking into account the main approaches, techniques and tools used for extraction of metadata currently proposed. With the implementation of the component, it is to provide specialists in library science from an extraction tool. |
URI : | https://repositorio.uci.cu/jspui/handle/123456789/7761 |
Aparece en las colecciones: | Trabajos de Diploma |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
TD_08585_16.pdf Restricted Access | 5.37 MB | Adobe PDF | Visualizar/Abrir |
Los ítems del Repositorio están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.