Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.uci.cu/jspui/handle/123456789/7714
Título : Componente para la extracción automática de metadatos bibliográficos a partir de corpus textuales en formato PDF
Autor : Flores Riera, Leduan
Tutor: Hidalgo Delgado, Yusniel
Ortiz Muñoz, Ernesto
Palabras clave : APRENDIZAJE AUTOMATICO;ARTICULOS CIENTIFICOS;BIBLIOTECAS DIGITALES;EXTRACCION DE METADATOS;DOCUMENTOS PDF;METADATOS;WEB SEMANTICA
Fecha de publicación : jun-2016
Editorial : Universidad de las Ciencias Informáticas. Facultad 3
Resumen : El avance tecnológico y la rápida creación de documentos digitales han permitido el desarrollo de las bibliotecas digitales. Estas se encargan de la gestión documental de los recursos digitales que almacenan, realizando tres procesos fundamentales: la selección, tratamiento y explotación de los recursos. Una de las tareas del tratamiento es la extracción de los metadatos, con el fin de facilitar su explotación, o sea, permitir la búsqueda, acceso y recuperación de la información. La extracción de metadatos es un proceso complejo y costoso, que requiere mucho tiempo y personal altamente calificado para su ejecución, por lo que es necesario contar con herramientas automatizadas que apoyen esta actividad. En el presente trabajo se hace un análisis de tres herramientas implementadas para efectuar la extracción de metadatos automáticamente, además de los métodos que utilizan para la extracción y análisis de la estructura del documento y se lleva a cabo un estudio sobre los lenguajes y estándares que emplean para representar los metadatos. En la investigación se propone un componente web para la extracción automática de metadatos bibliográficos. El componente está basado en tres procesos fundamentales que siguen un flujo de datos representando tuberías y filtros, donde la salida de un proceso constituye la entrada al próximo. Este componente será integrado al proyecto de investigación “Extracción, publicación y consumo de metadatos bibliográficos como datos enlazados en la web”, como parte de la fase de Extracción de Metadatos Bibliográficos, perteneciente al grupo de investigación de Web Semántica.
Technological progress and the fast creation of digital documents has enabled the development of digital libraries. Digital libraries are responsible for management of stored digitals resources and perform three fundamental processes selection, treatment and exploitation of resources. One of the functions of treatment is the extraction of the metadata, in order to facilitate its use, that is, allow the search, access and retrieval of information. Metadata extraction is a complex and expensive process, requiring long and highly qualified staff to run, so it is necessary to have automated tools to support this activity. In this paper is made an analysis of three tools implemented to perform extraction automatically, in addition to the methods used for the extraction and analysis of the document structure and takes place a study of the languages and standards that applications use to display the metadata. In this research is proposed a web component for the automatic extraction of bibliographic metadata. This component is based on three fundamental processes that follow a data stream representing pipes and filters where the output of one process is the input to the next. This component will be integrated into the research project "Extraction, publication and consumption of bibliographic metadata as linked data on the Web", as part of the phase Extraction bibliographic metadata, belonging to the Semantic Web research group.
URI : https://repositorio.uci.cu/jspui/handle/123456789/7714
Aparece en las colecciones: Trabajos de Diploma

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TD_08555_16.pdf
  Restricted Access
1.99 MBAdobe PDFVisualizar/Abrir  Request a copy


Los ítems del Repositorio están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.