Solución Informática para la representación matemática de archivos digitales textuales

Martínez Silva, Osciel

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.uci.cu/jspui/handle/123456789/10157

Título :	Solución Informática para la representación matemática de archivos digitales textuales
Autor :	Martínez Silva, Osciel
Tutor:	Reyes Estévez, Pável Yero Guevara, Andis Eloy
Palabras clave :	CORPUS TEXTUAL;REPRESENTACION MATEMATICA;ARCHIVO DIGITAL TEXTUAL;MODELO DE ESPACIO VECTORIAL
Fecha de publicación :	jun-2018
Editorial :	Universidad de las Ciencias Informáticas . Facultad 2
Resumen :	La recuperación de información es el área del conocimiento mediante la cual se localiza y accede a los recursos de información con el propósito de dar solución a necesidades específicas. La representación, el almacenamiento, la organización y el acceso a elementos de información forman parte de la misma. En la actualidad, la representación del contenido de archivos digitales en la recuperación de información se dificulta, debido a la necesidad de clasificar archivos digitales para la posterior identificación y el agrupamiento de documentos con características comunes. El objetivo de esta investigación consiste en el desarrollo de un componente informático para la representación de archivos digitales textuales en contribución a la recuperación de información. Para dar cumplimiento al mismo se realiza un estudio de los antecedentes de los sistemas informáticos de recuperación de información y se prepara el entorno de desarrollo de software para la resolución del problema planteado. Se hace uso del modelo de espacio vectorial, el cual permite la representación del corpus textual de los archivos digitales mediante el álgebra de vectores. Basado en dicho modelo se diseña y desarrolla un algoritmo que permite obtener una matriz de semejanza que contiene los valores de similitud entre archivos textuales representados por vectores. Este proceso es necesario para una posterior etapa de organización y clasificación automática de archivos digitales textuales en sistemas informáticos de recuperación de información. Information retrieval is the area of knowledge through which information resources are located and accessed with the purpose of solving specific needs. The representation, storage, organization and access to information elements are part of it. At present, the representation of the content of digital files in information retrieval is difficult, due to the need to classify digital files for the subsequent identification and grouping of documents with common characteristics. The objective of this research is the development of a computer component for the representation of textual digital files in contribution to information retrieval. In order to comply with it, a background study of information retrieval systems is carried out and the software development environment is prepared to solve the problem. The vector space model is used, which allows the representation of the textual corpus of the digital files through the vector algebra. Based on this model, an algorithm is designed and developed to obtain a similarity matrix that contains the values of similarity between textual files represented by vectors. This process is necessary for a later stage of organization and automatic classification of textual digital files in information retrieval systems.
URI :	https://repositorio.uci.cu/jspui/handle/123456789/10157
Aparece en las colecciones:	Trabajos de Diploma

Ficheros en este ítem:

Fichero	Tamaño	Formato
TD_09054_18.pdf Restricted Access	1.58 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem