El almacenamiento de datos es un sistema diseñado para almacenar y organizar datos en repositorios centrales, incluidos datos de otras fuentes. Es un concepto central de inteligencia de negocios en modelos de bases de datos relacionales que emplea técnicas analíticas para integrar datos de negocios en una base de datos central..
Hay dos modelos arquitectónicos comunes utilizados en el almacenamiento de datos:
Ambos son los modelos comunes de bases de datos multidimensionales que se utilizan para abordar las necesidades de grandes bases de datos para fines analíticos en almacenes de datos reales..
Presentamos una comparación imparcial entre los dos para entender mejor cuál es mejor que el otro..
Es el modelo arquitectónico más común y ampliamente aceptado utilizado para desarrollar almacenes de datos y mercados de datos en los cuales los datos se organizan en hechos y dimensiones. Es el modelo arquitectónico más simple en el que se usa una tabla de hechos para referirse a tablas de múltiples dimensiones, imitando un patrón de estrella.
Como sugiere su nombre, el diagrama se parece a una estrella con la tabla de hechos en el centro y múltiples tablas de dimensiones que irradian de ella, creando un patrón en forma de estrella..
También se conoce como Star Join Schema y almacena todos los atributos de una dimensión en una tabla de hechos desnormalizados para navegar rápidamente a través de grandes conjuntos de datos multidimensionales que representan tiempos de respuesta de consulta rápidos.
Es una extensión del esquema en estrella con funcionalidades añadidas. A diferencia del esquema en estrella, las tablas de dimensión en el esquema de copo de nieve se normalizan en varias tablas relacionadas.
El modelo arquitectónico representa una disposición lógica de tablas en una jerarquía de relaciones de muchos a uno donde las tablas de múltiples dimensiones se normalizan en tablas de subdimensiones, que se asemejan a un patrón similar a un copo de nieve, de ahí el nombre.
Es una versión más compleja del esquema en estrella con más combinaciones entre las tablas de dimensiones, lo que explica el lento tiempo de procesamiento para obtener datos, lo que significa tiempos de respuesta de consulta más lentos. Minimiza la redundancia de datos, lo que a su vez mejora el rendimiento de las consultas..
En las bases de datos relacionales, el esquema en estrella es el modelo arquitectónico más simple utilizado para desarrollar almacenes de datos y mercados de datos multidimensionales. Como su nombre indica, el modelo se asemeja a una estrella con puntos que irradian desde el centro, lo que significa que la tabla de hechos es el centro y los puntos son las tablas de dimensiones. Al igual que otros modelos dimensionales, consiste en datos en forma de hechos y dimensiones. El esquema de Snowflake, por otro lado, es el modelo arquitectónico más complejo que se refiere a una base de datos multidimensional con una disposición lógica de tablas en forma de copo de nieve..
El esquema del copo de nieve es bastante similar al esquema en estrella, excepto que puede tener más de una tabla de dimensión que se normaliza aún más en múltiples tablas relacionadas denominadas tablas de subdimensiones. Representa múltiples niveles de relaciones que se ramifican en un patrón de copo de nieve. Sin embargo, el esquema en estrella almacena todos los atributos relacionados de una dimensión en una tabla de dimensión desnormalizada, lo que facilita la comprensión y el manejo de consultas más simples..
Una tabla de dimensiones no puede contener filas duplicadas en modelos de bases de datos relacionales por el simple hecho de que podría crear ambigüedades en la recuperación. Cada tabla debe tener una columna o una combinación de columnas llamada clave principal que identifique de forma única todos los registros de la tabla. Una clave externa es una columna o un grupo de columnas que proporciona un enlace entre dos tablas. En el esquema en estrella, cada tabla de dimensión tiene una clave principal que está relacionada con una clave externa en la tabla de hechos. La jerarquía empresarial en un esquema de copo de nieve se representa mediante una relación de clave principal / clave externa entre las tablas de dimensiones.
La diferencia clave entre los dos modelos de bases de datos relacionales es la normalización. Las tablas de dimensiones en el esquema en estrella no están normalizadas, lo que significa que el modelo de negocio usará relativamente más espacio para almacenar tablas de dimensiones y más espacio significa más registros redundantes que, en última instancia, podrían causar inconsistencias. El esquema de Snowflake, por otro lado, minimiza la redundancia de datos porque las tablas de dimensiones están normalizadas, lo que representa registros mucho menos redundantes. La jerarquía empresarial y sus dimensiones se conservan a través de la integridad referencial, lo que significa que las relaciones se pueden actualizar de forma independiente en los almacenes de datos.
El esquema en estrella tiene menos combinaciones entre la tabla de dimensiones y la tabla de hechos en comparación con la del esquema de copo de nieve que tiene múltiples uniones, lo que explica menos complejidad de consulta. Debido a que las dimensiones en un esquema en estrella están vinculadas a través de una tabla de hechos central, tiene rutas de unión claras que significan tiempos de respuesta de consulta rápidos y tiempo de respuesta rápido significa un mejor rendimiento. El esquema de Snowflake tiene un mayor número de combinaciones, por lo que los tiempos de respuesta de consulta más largos dan como resultado consultas más complejas que en última instancia comprometen el rendimiento.
Ambos son los modelos arquitectónicos más comunes y ampliamente adoptados que se utilizan para desarrollar almacenes de bases de datos y mercados de datos. Sin embargo, cada modelo de negocio tiene su parte justa de ventajas y desventajas. Si bien el esquema en estrella es el modelo multidimensional más simple utilizado para organizar los datos en hechos y dimensiones, es ideal para desarrollar mercados de datos que impliquen relaciones menos complejas. El esquema de Snowflake es una representación lógica de tablas en una base de datos multidimensional en la que las dimensiones se almacenan en tablas de subdimensiones. La principal diferencia entre los dos es la normalización. Las tablas de dimensiones en un esquema de copo de nieve se normalizan completamente en múltiples tablas de consulta, mientras que en un esquema en estrella, las tablas de dimensiones se desnormalizan en una tabla de hechos central.