Data Mining vs OLAP
Tanto la minería de datos como OLAP son dos de las tecnologías comunes de Business Intelligence (BI). La inteligencia empresarial se refiere a los métodos informáticos para identificar y extraer información útil de los datos comerciales. La minería de datos es el campo de la informática que trata de extraer patrones interesantes de grandes conjuntos de datos. Combina muchos métodos de inteligencia artificial, estadísticas y gestión de bases de datos. OLAP (procesamiento analítico en línea) como su nombre sugiere es una compilación de formas de consultar bases de datos multidimensionales.
La minería de datos también se conoce como Knowledge Discovery in data (KDD). Como se mencionó anteriormente, es un campo de la informática, que se ocupa de la extracción de información previamente desconocida e interesante a partir de datos sin procesar. Debido al crecimiento exponencial de los datos, especialmente en áreas como negocios, la minería de datos se ha convertido en una herramienta muy importante para convertir esta gran cantidad de datos en inteligencia empresarial, ya que la extracción manual de patrones se ha vuelto aparentemente imposible en las últimas décadas. Por ejemplo, actualmente se utiliza para varias aplicaciones, como el análisis de redes sociales, la detección de fraudes y el marketing. La minería de datos generalmente se ocupa de las siguientes cuatro tareas: agrupación, clasificación, regresión y asociación. La agrupación es identificar grupos similares a partir de datos no estructurados. La clasificación es reglas de aprendizaje que pueden aplicarse a nuevos datos y que normalmente incluirán los siguientes pasos: preprocesamiento de datos, diseño de modelos, aprendizaje / selección de características y evaluación / validación. La regresión es encontrar funciones con un error mínimo para modelar datos. Y la asociación está buscando relaciones entre variables. La minería de datos generalmente se usa para responder preguntas como cuáles son los principales productos que podrían ayudar a obtener altas ganancias el año próximo en Wal-Mart..
OLAP es una clase de sistemas, que proporciona respuestas a consultas multidimensionales. Normalmente, OLAP se utiliza para mercadotecnia, presupuestos, pronósticos y aplicaciones similares. No hace falta decir que las bases de datos utilizadas para OLAP están configuradas para consultas complejas y ad hoc con un rápido rendimiento en mente. Normalmente, una matriz se utiliza para mostrar la salida de un OLAP. Las filas y columnas están formadas por las dimensiones de la consulta. A menudo utilizan métodos de agregación en varias tablas para obtener resúmenes. Por ejemplo, ¿se puede utilizar para conocer las ventas de este año en Wal-Mart en comparación con el año pasado? ¿Cuál es la predicción sobre las ventas en el próximo trimestre? ¿Qué se puede decir sobre la tendencia al observar el cambio porcentual??
Aunque es obvio que la minería de datos y OLAP son similares porque operan con datos para ganar inteligencia, la principal diferencia proviene de cómo operan con datos. Las herramientas de OLAP proporcionan análisis de datos multidimensionales y proporcionan resúmenes de los datos, pero, en contraste, la extracción de datos se centra en las proporciones, patrones e influencias en el conjunto de datos. Ese es un acuerdo OLAP con agregación, que se reduce a la operación de los datos a través de la "adición", pero la extracción de datos corresponde a la "división". Otra diferencia notable es que, si bien las herramientas de minería de datos modelan datos y devuelven reglas procesables, OLAP realizará técnicas de comparación y contraste a lo largo de la dimensión comercial en tiempo real.