Clustering Jerárquico vs Particional
El agrupamiento es una técnica de aprendizaje automático para analizar datos y dividirlos en grupos de datos similares. Estos grupos o conjuntos de datos similares se conocen como grupos. El análisis de clústeres analiza los algoritmos de agrupación en clústeres que pueden identificar los clústeres automáticamente. Jerárquico y Particional son dos clases de algoritmos de agrupamiento. Los algoritmos de agrupación jerárquica dividen los datos en una jerarquía de agrupaciones. Los algoritmos de partición dividen el conjunto de datos en particiones mutuamente desunidas.
¿Qué es la agrupación jerárquica??
Los algoritmos de agrupación jerárquica repiten el ciclo de fusionar agrupaciones más pequeñas en otras más grandes o dividir agrupaciones más grandes en otras más pequeñas. De cualquier manera, produce una jerarquía de grupos llamados dendogramas. La estrategia de agrupación aglomerativa utiliza el enfoque de abajo hacia arriba de la fusión de agrupaciones en las más grandes, mientras que la estrategia de agrupación divisiva utiliza la aproximación de arriba hacia abajo de dividir en las más pequeñas. Típicamente, el enfoque codicioso se usa para decidir qué grupos grandes / pequeños se usan para fusionar / dividir. La distancia euclidiana, la distancia de Manhattan y la similitud de coseno son algunas de las métricas de similitud más utilizadas para datos numéricos. Para datos no numéricos, se utilizan métricas como la distancia de Hamming. Es importante tener en cuenta que las observaciones reales (instancias) no son necesarias para la agrupación jerárquica, porque solo la matriz de distancias es suficiente. El dendograma es una representación visual de los grupos, que muestra la jerarquía muy claramente. El usuario puede obtener diferentes agrupaciones en función del nivel en el que se corta el dendograma.
¿Qué es la agrupación parcial?
Los algoritmos de agrupamiento de particiones generan varias particiones y luego las evalúan según algún criterio. También se les conoce como no jerárquicos, ya que cada instancia se coloca en exactamente uno de k clusters mutuamente excluyentes. Debido a que solo un conjunto de clústeres es la salida de un algoritmo de clúster de partición típico, se requiere que el usuario ingrese el número deseado de clústeres (generalmente llamado k). Uno de los algoritmos de agrupación en partición más utilizados es el algoritmo de agrupación k-means. El usuario debe proporcionar la cantidad de clusters (k) antes de comenzar y el algoritmo primero inicia los centros (o centroides) de las k particiones. En pocas palabras, k-medias algoritmo de agrupación luego asigna miembros en función de los centros actuales y vuelve a estimar los centros en función de los miembros actuales. Estos dos pasos se repiten hasta que se optimicen una determinada función objetivo de similitud intra-cluster y una función objetivo de disimilitud inter-cluster. Por lo tanto, la inicialización sensata de los centros es un factor muy importante para obtener resultados de calidad a partir de algoritmos de agrupación en particiones..
¿Cuál es la diferencia entre la agrupación jerárquica y la agrupación parcial??
La agrupación jerárquica y la agrupación tradicional tienen diferencias clave en el tiempo de ejecución, las suposiciones, los parámetros de entrada y las agrupaciones resultantes. Normalmente, la agrupación en clúster es más rápida que la agrupación jerárquica. La agrupación jerárquica requiere solo una medida de similitud, mientras que la agrupación en partición requiere suposiciones más sólidas, como el número de agrupaciones y los centros iniciales. La agrupación jerárquica no requiere ningún parámetro de entrada, mientras que los algoritmos de agrupación en partición requieren la cantidad de agrupaciones para comenzar a ejecutarse. La agrupación jerárquica devuelve una división mucho más significativa y subjetiva de las agrupaciones, pero la agrupación particionada da como resultado exactamente a las agrupaciones k. Los algoritmos de agrupamiento jerárquico son más adecuados para datos categóricos siempre que se pueda definir una medida de similitud en consecuencia.