Diferencia entre el árbol de decisión y el bosque aleatorio

los diferencia principal entre el árbol de decisión y el bosque al azar es que un árbol de decisión es un gráfico que utiliza un método de bifurcación para ilustrar cada resultado posible de una decisión, mientras que un bosque aleatorio es un conjunto de árboles de decisión que proporciona el resultado final basado en los resultados de todos sus árboles de decisión.

El aprendizaje automático es una aplicación de la Inteligencia Artificial, que le da a un sistema la capacidad de aprender y mejorar en base a la experiencia pasada. El árbol de decisión y el bosque aleatorio son dos técnicas en el aprendizaje automático. Un árbol de decisión mapea los posibles resultados de una serie de elecciones relacionadas. Es popular porque es simple y más fácil de entender. Cuando el conjunto de datos se hace mucho más grande, un solo árbol de decisión no es suficiente para encontrar la predicción. Un bosque aleatorio, que es una colección de árboles de decisión, es una alternativa a este problema. La salida del bosque aleatorio se basa en las salidas de todos sus árboles de decisión.

Áreas clave cubiertas

1. ¿Qué es un árbol de decisión?
     - Definición, Funcionalidad, Ejemplos.
2. ¿Qué es un bosque aleatorio?
     - Definición, Funcionalidad, Ejemplos.
3. Diferencia entre el árbol de decisión y el bosque aleatorio
     - Comparación de diferencias clave

Términos clave

Árbol de decisiones, aprendizaje automático, bosque aleatorio

¿Qué es el árbol de decisión?

Un árbol de decisión es un diagrama de forma de árbol que se utiliza para determinar un curso de acción. Cada rama del árbol representa una posible decisión, ocurrencia o reacción.. 

Hay varios términos asociados con un árbol de decisión. La entropía es la medida de la imprevisibilidad en el conjunto de datos. Después de dividir el conjunto de datos, el nivel de entropía disminuye a medida que disminuye la imprevisibilidad. La ganancia de información es la disminución de la entropía después de escupir el conjunto de datos. Es importante dividir los datos de tal manera que la ganancia de información sea mayor. Las decisiones finales o las clasificaciones se denominan nodos hoja. El nodo superior o principal se denomina nodo raíz. El conjunto de datos debe dividirse hasta que la entropía final sea cero.

Un simple árbol de decisiones es el siguiente.

Figura 1: Árbol de decisión

Por encima del árbol de decisión se clasifica un conjunto de frutas. Hay 4 uvas, 2 manzanas y 2 naranjas. Cuando se considera el diámetro inferior a 5, las uvas se clasifican en un lado, mientras que las naranjas y las manzanas en el otro lado. Las uvas no pueden clasificarse más, ya que tiene cero entropía. Cuando la categorización se basa en el color, es decir, si la fruta roja es roja o no, las manzanas se clasifican en un lado, mientras que las naranjas se clasifican en el otro. Por lo tanto, este árbol de decisión clasifica una manzana, uva o naranja con 100% de precisión..

En general, un árbol de decisiones es fácil de entender, más fácil de interpretar y visualizar. No requiere mucha preparación de datos. Puede manejar tanto datos numéricos como categóricos. Por otro lado, el ruido en los datos puede causar sobreajuste. Además, el modelo también puede volverse inestable debido a pequeñas variaciones..

¿Qué es el bosque aleatorio?

El bosque aleatorio es un método que funciona mediante la construcción de múltiples árboles de decisión durante la fase de capacitación. Las decisiones de la mayoría de los árboles son la decisión final del bosque aleatorio. Un ejemplo simple es el siguiente.

Supongamos que hay un conjunto de frutas (cerezas, manzanas y naranjas). A continuación se presentan los tres árboles de decisión que clasifican estos tres tipos de frutas..

Figura 2: Árbol de decisión 1

Figura 3: Árbol de decisión 2

Figura 4: Árbol de decisión 3

Se le da al modelo una nueva fruta cuyo diámetro es 3. Esta fruta es de color naranja y crece en verano. El primer árbol de decisión lo categorizará como una naranja. El segundo árbol de decisión lo categorizará como una cereza, mientras que el tercer árbol de decisión lo categorizará como una naranja. Al considerar los tres árboles, hay dos salidas para naranja. Por lo tanto, la salida final del bosque aleatorio es una naranja..

En general, el bosque aleatorio proporciona resultados precisos en un conjunto de datos más grande. También reduce el riesgo de sobrealimentación..

Diferencia entre el árbol de decisión y el bosque aleatorio

Definición

Un árbol de decisiones es una herramienta de apoyo a las decisiones que utiliza un gráfico o modelo de decisiones en forma de árbol y sus posibles consecuencias, incluidos los resultados de eventos al azar, los costos de recursos y la utilidad. Bosques aleatorios es un método de aprendizaje conjunto que funciona mediante la construcción de una multitud de árboles de decisión en el momento de la capacitación y la salida de la clase en función de los árboles individuales..

Sobreajuste

Existe la posibilidad de sobreajuste en un árbol de decisión. El uso de múltiples árboles en el bosque aleatorio reduce el riesgo de sobrealimentación.

Exactitud

Un bosque al azar da resultados más precisos que un árbol de decisión.

Complejidad

Un árbol de decisiones es más simple y más fácil de entender, interpretar y visualizar que un bosque aleatorio, que es comparativamente más complejo.

Conclusión

La diferencia entre el árbol de decisión y el bosque aleatorio es que un árbol de decisión es un gráfico que utiliza un método de bifurcación para ilustrar cada resultado posible de una decisión, mientras que un bosque aleatorio es un conjunto de árboles de decisión que proporciona el resultado final basado en los resultados de todos sus árboles de decisión.

Referencia:

1. Algoritmo de bosque aleatorio - Explicación de bosque aleatorio | Bosque aleatorio en el aprendizaje automático , Simplilearn, 12 de marzo de 2018, disponible aquí.