Stanford MOOC MMD W6

MMDS logoLa sexta semana del MOOC Mining Massive Datasets tuvo unas 3 horas de video lecturas. Dos tercios de las lecturas se enfocaron a dos temas de machine learning: support vector machines y decision trees. En la parte de los árboles de decisión se revisó algo interesante entorno al concepto de «ganancia de información» (information gain).

La ganancia de información es la que se obtiene de una variable aleatoria X de la observación que sobre otra variable aleatoria A se tiene cuando esta adquiere un valor, en otras palabras la reducción de la entropía de X alcanzada por el aprendizaje del estado de la variable A. En términos generales la ganancia de información esperada es el cambio en la entropía H de un estado a otro por un atributo a:

IG(X,a)=H(X)-H(X|a)

IG(X,a)=H(X) - \sum\limits_{v} \frac{|\{x \in X|x_a =v\}|}{|X|} \cdot H(\{x \in X|x_a =v\})

El último tercio de las video lecturas se dedicó al tema del algoritmo MapReduce. De este tema se empezó por revisar los costos computacionales asociados al uso de aquello que esté soportando este algoritmo, esencialmente costo de comunicaciones y costo de procesamiento.

 

Deja un comentario

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.