Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.uci.cu/jspui/handle/123456789/7599
Título : Componente para Imputar Datos en Pentaho Data Integration
Autor : Thondique Guzman, Adrian Alberto
Tutor: Buchillón Soris, Adalennis
Cardoso García, Yanet
Palabras clave : CALIDAD;INFORMACION
Fecha de publicación : jul-2015
Editorial : Universidad de las Ciencias Informáticas. Facultad 6
Resumen : El estudio de la información es un proceso importante en el mundo de la informática. Diariamente se generan una gran cantidad de datos, la mayoría de los fenómenos que ocurren en el mundosearchivan para realizarle posteriormente un análisis con el fin de obtener nuevos conocimientos del entorno que nos rodea. La información que es estudiada generalmente no cuenta con la calidad requerida para obtener patrones que describan o generalicen el objeto del estudio.Mucha de esta información cuando se analiza es eliminada u obviada aunque presenten atributos que brinden un mejor entendimiento del problema. Con el objetivo de aprovechar al máximo los datos, se desarrolló unpluginque permite limpiar la informaciónmediante la imputación de valores en campos nulos en laherramienta Pentaho Data Integration. Este software se utiliza en la Universidad de las Ciencias Informáticas para realizar integración de datos.El componente fue desarrollado usando algoritmos de Machine Learning para predecir el comportamiento de una variable. Se utiliza la librería weka para el análisis de datos y Java para desarrollar la aplicación por ser el lenguaje utilizado en la implementacióndel Pentaho Data Integration. Se utilizó OpenUP como metodología de desarrollo y Eclipse como entorno de desarrollo.
Abstract The studyof information isan important process inthecomputer world. Dailya large amount ofdatais generated, most of the phenomena occurring in the world, are archived for later do atest in orderto gain new knowledgeof the environmentaround us. The information is studied usually does not have the quality required to obtain patterns that describe or generalize the object of study. Much of this information when analyzed is eliminated or overlooked although they have attributes that provide a better understanding of the problem. In order to maximize data, a plugin that allows you to clean the information by imputation null values in fields in the Pentaho Data Integration a plugin was developed. This software is used at the University of Informatics Sciences for data integration.The component was developed using Machine Learning algorithms to predict the behavior of a variable.The weka library for data analysis was used andJava to develop the application as the language used in the implementation of the Pentaho Data Integration. OpenUP was used as a development methodology and Eclipseas a development environment.
URI : https://repositorio.uci.cu/jspui/handle/123456789/7599
Aparece en las colecciones: Trabajos de Diploma

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TD_08327_15.pdf
  Restricted Access
830.9 kBAdobe PDFVisualizar/Abrir  Request a copy


Los ítems del Repositorio están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.