SIU-Wichi/Version6.0.0/Glosario de conceptos
v6.0.0
Sumario
Glosario
Sistema de información
Sistema constituido por personas, datos y actividades que procesan datos e información en una organización, e incluye procesos manuales y automatizados.
Otra definición: Un sistema de información es un conjunto de elementos relacionados entre sí, que se encarga de procesar manual y/o automáticamente datos, en función de determinados objetivos.
Estos elementos constituyentes de un sistema de información son:
- Personas o recurso humano: las personas que utilizan el sistema, siendo parte de éstos.
- Datos e información: de entrada, de salida y almacenada.
- Actividades
- Recursos materiales: por ejemplo, computadoras, dispositivos, archivadores, etc.
Un sistema de información realiza cuatro actividades básicas: entrada, almacenamiento, procesamiento y salida de información.
No debe confundirse un sistema de información con un sistema informático, por lo general el sistema informático puede estar dentro de un sistema de información (aunque no necesariamente). Un sistema informático involucra siempre dispositivos informáticos (como computadoras).
Base de datos
Según James Martin “La base de datos puede definirse como una colección de datos
interrelacionados almacenados en conjunto sin redundancias perjudiciales o innecesarias; su finalidad es la de servir a una aplicación o más, de la mejor manera posible; los datos se
almacenan de modo que resulten independientes de los programas que los usan; se emplean métodos bien determinados para incluir datos nuevos y para modificar o extraer los datos almacenados.”
Se puede considerar a una base de datos como al conjunto de datos que son utilizados por los sistemas de información de una organización.

Que es un Data Warehouse ( DW)
En forma sencilla se puede decir que un DW es una colección de datos, obtenidos a partir de los datos transaccionales y específicamente estructurados para realizar consultas y analizar la información [Kim1992]. Comúnmente se dice que los DW son fuentes secundarias de información, pues no generan datos por sí mismos, sino que son alimentados desde sistemas existentes internamente en la organización o desde datos externos.Típicamente los usuarios del DW tienen sólo permisos de lectura sobre este repositorio de datos.
La definición más tradicional del término DW fue especificada por Bill Inmon a principios de la década de los ‘90, quién lo definió como una colección de datos:
- orientados al sujeto, Ej: En el ambiente universitario se puede pensar en alumnos, carreras, egresados, en lugar de inscripciones, registro de actas de exámenes, gestión de títulos, etc.
- integrados, los datos con los que se nutre el DW provienen de diferentes fuentes y son integrados para dar una visión global coherente.
- variables en el tiempo, todos los datos en el DW están asociados con un período de tiempo específico
- no volátiles, los datos son estables en el DW. Se pueden agregar más datos, pero los datos existentes no son removidos.
para ayudar al proceso de toma de decisiones gerenciales
Necesidades para llevar adelante un proyecto de DW
Lo que se necesita para llevar adelante un proyecto de DW son los siguientes elementos y factores:
- Herramientas de desarrollo que habitualmente están compuestas por tres componentes: la base de datos, las herramientas que permiten la extracción de datos, transformación y carga de los datos que alimentarán el DW y las herramientas de visualización para el usuario.
- Datos confiables, disponibles y completos, que puedan ser utilizados.
- Mucho conocimiento de las reglas de la institución a analizar, experiencia y tiempo.
- Reflexionar sobre los datos que se necesitan, cómo los debemos organizar y como los tenemos que presentar para contestar las diversas preguntas que puedan surgir de los distintos destinatarios.
- Recursos humanos, especialistas que puedan mantenerlo y hacerlo evolucionar.
- Autoridad que promueva internamente el proyecto DW en la Universidad: designación de un equipo.
- Apoyo técnico del área de sistemas y Hardware necesario
Beneficios que trae la aplicación de una herramienta de este tipo
- Facilita una visión global de la institución.
- Permite realizar una proyección a futuro y redefinir estrategias.
- Suministra información consolidada.
- Ofrece imágenes integradas de los datos, simplificando los procesos de toma de decisiones.
- Está diseñado para consolidar y manejar distintos formatos de datos.
- Facilita el proceso de comparación entre datos.
- Permite construir indicadores y evaluar tendencias.
- Acceso a los datos fácil, rápido y en el lenguaje del usuario final.
- Permiten a los usuarios hacer sus propias consultas.
Cubo
Cubo: es una base de datos que responde a un modelo multidimensional y busca colaborar en el análisis de una determinada temática o problema.
El cubo se compone de:
Dimensiones
- Dimensiones: variables por las que se puede filtrar y realizar cruces. Ejemplos: Unidad Académica, Cohorte, Departamentos, Carreras, Fecha, Localidad de procedencia, Dependencia presupuestaria, Fuente de financiamiento, etc.
Medidas
- Medidas: variables a contar. Ejemplo: cantidad de alumnos, ingresantes, legajos, cargos, crédito.
Portal Gerencial
Contiene consultas y reportes con filtros predefinidos sobre las distintas tematicas: academica, RRHH, presupuesto, etc. Esas consultas habitualmente se las denomina tableros.
Tablero de control
Un tablero de control es “un conjunto de medidas que permite a la alta gerencia tener una visión rápida y abarcativa del estado del negocio”(1)
Qué medidas son representativas del “estado de mi negocio”?
Tomar una misma medida a lo largo del tiempo permite determinar si las estrategias definidas son consistentes con los objetivos que se quieren conseguir.
Hay que tomar en cuenta que el esfuerzo se mueve en el sentido en el que es medido….
Cada universidad puede definir y desarrollar su propio tablero de control con las herramientas que se utilizan en SIU-Wichi.
(1) Kaplan, Robert S; Norton, D. P. (1992). "The Balanced Scorecard - Measures That Drive Performance". Harvard Business Review (January–February): 71–79
ETL
Definición
Uno de los mayores desafíos se produce cuando los datos recibidos provienen de fuentes que los han organizado alrededor de claves diferentes. Por ejemplo en:
- En SIU-Guaraní una persona se identifica por el número de inscripción dentro de una unidad académica.
- En SIU-Mapuche la identificación de la persona se hace por su número de legajo.
Estas fuentes necesitan ser integradas para dar una visión única de persona. Este proceso puede involucrar sofisticadas reglas de mapeo de elementos, normalizaciones y estandarización de nombres, direcciones y otros datos comunes a las fuentes para determinar cuáles son los datos válidos.
El nivel de esfuerzo necesario para integrar y transformar datos está fundamentalmente afectado por el nivel de conocimiento que se tenga sobre estos.
Este proceso organiza el flujo de los datos entre los diferentes sistemas operacionales principales de una organización y el área de almacenamiento y presentación de datos. Aporta los métodos y herramientas necesarias para mover datos desde múltiples fuentes, limpiarlos, reformatearlos y cargarlos en un DW o Data Mart. En ese momento los datos quedan disponibles para ser analizados por los usuarios.
Otros nombres que recibe este proceso son “gestión de los datos”, “adquisición de datos” y en inglés “data staging” o “data cleansing”.
Cabe destacar que la integración y transformación de datos es uno de los procesos más
importantes de todo el entorno del DW. Tiene la tarea crítica de convertir el caos de datos del mundo operacional en un mundo ordenado de información. Este proceso asimila datos procedentes de tecnologías heterogéneas dentro de un entorno integrado y consistente, apto para ser consumido por los procesos de soporte de decisiones.
El proceso ETL en general tiende a ser subestimado, sin embargo es altamente demandante y puede abarcar la mayor parte del tiempo de desarrollo de un DW, ocupando hasta el 80% del tiempo en un proyecto de gran magnitud.
Tareas que incluye
A continuación se detallan las tareas que incluye:
- Limpieza de datos. Consiste en la corrección de errores de tipeo, resolución de dominios conflictivos (por ejemplo una ciudad que es incompatible con el código postal), manejo de datos perdidos (nulos o vacíos, referencias a datos que no existen), conversión a formatos estandarizados, y resolución de inconsistencias.
- Selección de atributos que son útiles para el DW. Por ejemplo, si lo que se quiere analizar es el rendimiento académico de los alumnos interesará saber, entre otras cosas, cuántas materias aprueba por año. Puede resultar útil saber cuáles son esas materias y las notas obtenidas; pero no interesará saber el número de acta y folio donde se registró esta información ni el día en que el dato fue ingresado al sistema.
- Combinación de fuentes de datos. Las fuentes se pueden combinar por medio de los valores claves o realizando mapeos difusos (“fuzzy matches”) sobre atributos que no son claves.
Este ejemplo surgió en el ámbito del SIU al integrar bases de datos del SIU-Guaraní de diferentes unidades académicas de una Universidad. La información de colegios secundarios era mantenida en forma independiente y no sincronizada en las diferentes implementaciones. Cada unidad académica generaba sus propios códigos y nombres. Al integrar los datos se hallaron casos como los mostrados en la figura siguiente.
- Crear claves. Asociar un nuevo identificador a cada registro de dimensión y evitar la dependencia de las claves definidas en las fuentes. El proceso de generación de nuevas claves sustitutas (o subrogadas) impone la integridad referencial entre las tablas de dimensiones y las tablas de hechos. Lo recomendable para las claves de dimensión es que sean numéricas y secuenciales y totalmente independientes de las claves de los sistemas operacionales.
El costo de todas las tareas descriptas depende en gran medida de la calidad de los datos en los sistemas fuentes y apuntan a garantizar la calidad de los datos en el DW. La calidad debe ser una línea conductora en todo el proceso de análisis de información y toma de decisiones.
Frecuencia de actualización
El DW será actualizado con cierta frecuencia sobre la base de una carga controlada de datos correctos.
Pentaho
La herramienta Pentaho Business Analytics Platform es la que utiliza SIU-Wichi para desarrollar los cubos; la misma cubre muy amplias necesidades de Análisis de los Datos y de los Informes empresariales.
Las soluciones de Pentaho están escritas en Java y tienen un ambiente de implementación también basado en Java. Eso hace que Pentaho es una solución muy flexible para cubrir una amplia gama de necesidades empresariales – tanto las típicas como las sofisticadas y específicas al negocio (Negocio: el concepto se refiere a las características generales de la organización como son sus principales procesos y actividades)
Video sobre pentaho ( en inglés )
Saiku
Saiku es una herramienta de Pentaho y suministra a los usuarios un sistema avanzado de análisis de información.
El usuario puede navegar por los datos, ajustando la visión sobre los mismos, aplicando filtros de visualización, añadiendo o quitando los campos de agregación.
Vista
Se llama vista a las consultas dinámicas que se pueden realizar con SIU-Wichi uTilizando Saiku.