KDD vs minería de datos
KDD (Knowledge Discovery in Databases) es un campo de la informática, que incluye herramientas y teorías para ayudar a los seres humanos a extraer información útil y desconocida anteriormente (es decir, conocimiento) de grandes colecciones de datos digitalizados. KDD consta de varios pasos, y Data Mining es uno de ellos. La minería de datos es la aplicación de un algoritmo específico para extraer patrones de datos. No obstante, KDD y Data Mining se usan indistintamente.
¿Qué es KDD??
Como se mencionó anteriormente, KDD es un campo de la informática, que se ocupa de la extracción de información previamente desconocida e interesante a partir de datos sin procesar. KDD es todo el proceso de tratar de dar sentido a los datos mediante el desarrollo de métodos o técnicas apropiadas. Este proceso trata el mapeo de datos de bajo nivel en otras formas que son más compactos, abstractos y útiles. Esto se logra creando informes cortos, modelando el proceso de generación de datos y desarrollando modelos predictivos que puedan predecir casos futuros. Debido al crecimiento exponencial de los datos, especialmente en áreas como las empresas, KDD se ha convertido en un proceso muy importante para convertir esta gran cantidad de datos en inteligencia empresarial, ya que la extracción manual de patrones se ha vuelto aparentemente imposible en las últimas décadas. Por ejemplo, actualmente se utiliza para diversas aplicaciones, como análisis de redes sociales, detección de fraudes, ciencia, inversión, fabricación, telecomunicaciones, limpieza de datos, deportes, recuperación de información y en gran medida para marketing. KDD se usa generalmente para responder preguntas como ¿cuáles son los principales productos que podrían ayudar a obtener altas ganancias el año que viene en Wal-Mart? Este proceso tiene varios pasos. Comienza con el desarrollo de una comprensión del dominio de la aplicación y el objetivo, y luego se crea un conjunto de datos objetivo. Esto es seguido por la limpieza, preprocesamiento, reducción y proyección de datos. El siguiente paso es usar Data Mining (que se explica a continuación) para identificar el patrón. Finalmente, el conocimiento descubierto se consolida mediante la visualización y / o interpretación..
¿Qué es la minería de datos??
Como se mencionó anteriormente, la minería de datos es solo un paso dentro del proceso general de KDD. Existen dos objetivos principales de Data Mining, según lo define el objetivo de la aplicación, y son la verificación o el descubrimiento. La verificación está verificando la hipótesis del usuario sobre los datos, mientras que el descubrimiento está encontrando automáticamente patrones interesantes. Hay cuatro tareas principales de minería de datos: agrupamiento, clasificación, regresión y asociación (resumen). La agrupación es identificar grupos similares a partir de datos no estructurados. La clasificación es reglas de aprendizaje que pueden aplicarse a nuevos datos. La regresión es encontrar funciones con un error mínimo para modelar datos. Y la asociación está buscando relaciones entre variables. Entonces, el algoritmo específico de minería de datos necesita ser seleccionado. Según el objetivo, se pueden seleccionar diferentes algoritmos como regresión lineal, regresión logística, árboles de decisión y Naïve Bayes. Luego se buscan patrones de interés en una o más formas de representación. Finalmente, los modelos se evalúan utilizando precisión predictiva o comprensibilidad..
¿Cuál es la diferencia entre KDD y minería de datos??
Aunque, los dos términos KDD y Data Mining se usan de manera indistinta, se refieren a dos conceptos relacionados pero ligeramente diferentes. KDD es el proceso general de extracción de conocimiento de los datos, mientras que la minería de datos es un paso dentro del proceso de KDD, que trata de identificar patrones en los datos. En otras palabras, la minería de datos es solo la aplicación de un algoritmo específico basado en el objetivo general del proceso KDD..