
Para quien lleva prisa, una visión general de lo que actualmente comprende el campo del aprendizaje automático (machine learning).
Índice
Panorama
Sin lugar a dudas el subcampo del aprendizaje automático (machine learning) ha ganado popularidad en los últimos años, y no parece que tal tendencia decrezca. El Big Data continua también como tendencia tecnológica y el aprendizaje automático encaja perfectamente en este panorama para hacer predicciones o sugerencias calculadas basadas en grandes cantidades de datos.
De las referencias y ejemplos más comunes o sonados en torno al aprendizaje automático, está el caso de Netflix y sus servicios y algoritmos para hacer sugerencias de películas basadas en películas que el cliente ha visto en el pasado. Así también está el caso de los algoritmos de Amazon que recomiendan libros basados en libros que uno ha comprado anteriormente.
¿Cómo o por dónde empezar si se quiere aprender sobre aprendizaje automático? Para quienes están estudiando y su programa de estudios contemple este tema, su primer encuentro lo tendrán en materias como Inteligencia Artificial (Artificial Intelligence), Ciencia de Datos (Data Science), Minería de Datos (Data Mining) o quizás Inteligencia de Negocios (Business Analytics). Para quienes dejaron la escuela hace tiempo o quienes no tuvieron la fortuna de llevar un curso sobre este tema, les queda la experiencia práctica y aprender «sobre la marcha». La diferencia, sin lugar a dudas, será la guía de un profesor y la presión del momento, pero en ambos quedará siempre el tener que asimilar grandes dosis de material documental, desarrollar ciertas habilidades analíticas y será difícil saber con cual empezar.
Estas notas tiene el propósito, para los dos casos ya indicados, de servir de una guía rápida para poder profundizar en alguna técnica específica y ofrecer una visión más amplia de lo que el campo abarca para quienes sólo buscan una introducción y aclarar algunas dudas. Estas notas han sido elaboradas de alguien que académica y profesionalmente ha aplicado lo que aquí se describe.
Orígenes
Hoy en día contamos con un recurso que tenemos en abundancia: datos estructurados y no estructurados. La inteligencia artificial (Artificial Intelligence, AI), surge en la segunda mitad del siglo XX. Hasta ese momento, este campo de las ciencias de la computación era visto como uno en cel que el desarrollo de métodos, procedimientos y algoritmos para representar, resolver, y manifestar problemas, un comportamiento inteligente y soluciones era su razón de ser.
El aprendizaje automático (Machine Learning) evolucionó de la IA pero fue a la par del enriquecimiento que obtuvo de otras áreas. El término fue acuñado por Arthur Lee Samuel en 19591 para hacer énfasis en un proceso en el que la computadora «gana experiencia» (aprende) mas que un objeto en el que ésta (la experiencia, el aprendizaje) se programa. A este respecto, una definición más precisa es señalar que un programa de computadora aprende de una experiencia E con respecto a alguna clase de tareas T, y su rendimiento P se mide conforme el desempeño en las tareas en T mejora conforme la experiencia, práctica o repetición sobre E incrementa en precisión, efectividad o cercanía a un objetivo O.
Así, en lugar de requerir que los humanos deriven reglas manualmente y construyan modelos para analizar grandes cantidades de datos, el aprendizaje automático ofrece una alternativa más eficiente para capturar el conocimiento (que se espera está ya implícito) en los datos (por su sucesión, agrupamiento o valores) para mejorar gradualmente el rendimiento y tomar decisiones basadas en la información que de esto pueda derivarse.
Modalidades
Existen tres modalidades de aprendizaje automático, a saber:
Aprendizaje supervisado.- Parte de datos etiquetados, cuenta con retroalimentación directa, y se enfoca al pronóstico (a partir de lo que se infiere de hechos pasados), a la predicción o a la determinación de una característica (un resultado). El término supervisado se refiere a un conjunto de muestras donde ya se conocen las señales de salida deseadas (etiquetas, tags).

Fuente: Sebastian Raschkan & Vahid Mirjalili, «Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow«
Aprendizaje no supervisado.- Parte de conjuntos de datos no etiquetados (no anotados), se caracteriza por la ausencia de retroalimentación y se enfoca al descubrimiento de estructuras o relaciones ocultas en los datos.
Aprendizaje por reforzamiento.- Enfocadla los procesos de decisión, existe un proceso de recompensas durante el aprendizaje en una serie de acciones. El objetivo es desarrollar un sistema, agente, programa o elemento que mejore su rendimiento en función de las interacciones con el entorno. La diferencia con el aprendizaje supervisado radica en que el desempeño no se mide contra el objetivo que busca alcanzarse sino con respecto a la manera en cómo se ejecutó la acción. A través de su interacción con el entorno, el agente, programa, elemento o sistema utiliza las recompensas para «aprender» una serie de acciones que maximizan este premio a través de un enfoque de prueba y error exploratorios o una planificación deliberativa.

Fuente: Sebastian Raschkan & Vahid Mirjalili, «Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow«
Tipos
Los algoritmos y técnicas de aprendizaje automático se pueden dividir en 3 amplias categorías: aprendizaje supervisado (supervised learning), aprendizaje no supervisado (unsupervised learning) y aprendizaje por refuerzo (reinforcement learning).
Aprendizaje Supervisado
El aprendizaje supervisado es útil en los casos en el que un rasgo (feature) o propiedad (tag, etiqueta) está disponible para un determinado conjunto de datos (training set, conjunto de capacitación), pero debe predecirse para otros casos o circunstancias en loas que tal calificación o categorización no está disponible o no ha sido hecha.
Árboles de decisión
Un árbol de decisión es una herramienta de apoyo a la toma de decisiones que utiliza un gráfico, modelo o diagrama en forma de árbol para evaluar las posibles consecuencias (de preferencia todas), incluidos los resultados de eventos de probabilidad, los costos de recursos y la utilidad. Desde el punto de vista empresarial, un árbol de decisión es el número mínimo de preguntas sí/no que uno tiene que hacer para evaluar la probabilidad de tomar una decisión correcta la mayor parte del tiempo. Como método, permite abordar el problema de una manera estructurada y sistemática para llegar a una conclusión lógica.
Clasificación Naïve-Bayes
Los clasificadores Naïve-Bayes son una familia de clasificadores probabilísticos simples basados en la aplicación del teorema de Bayes, con supuestos de independencia fuertes (ingenuos) entre las características. Formalmente se describe como P(A|B) es la probabilidad posterior (posteriori), probabilidad de A dado B; P(B|A) es la probabilidad del evento B dado A, P(A) es la probabilidad previa de la clase y P(B) es la probabilidad previa del predictor.
Algunos de los ejemplos del mundo real son:
· Para marcar un correo electrónico como spam o no spam.
· Clasificar un artículo de noticias sobre tecnología, política o deportes
· ¿Revisar un texto que exprese emociones positivas o emociones negativas?
· Utilizado para software de reconocimiento facial.
Regresión de mínimos cuadrados
En estadística, es común hablar de regresión lineal. Los cuadrados mínimos es un método para realizar una regresión lineal. Puede pensar en la regresión lineal como la tarea de ajustar una línea recta a través de un conjunto de puntos. Hay varias estrategias posibles para hacer esto, y la estrategia de «mínimos cuadrados ordinarios» es la siguiente: puede dibujar una línea y luego, para cada uno de los puntos de datos, medir la distancia vertical entre el punto y la línea, y sumarlos ; la línea ajustada sería aquella en la que esta suma de distancias sea lo más pequeña posible.
Lineal se refiere al tipo de modelo que está utilizando para ajustar los datos, mientras que los mínimos cuadrados se refieren al tipo de métrica de error que está minimizando.
Regresión logística
La regresión logística es una forma estadística poderosa de modelar un resultado binomial con una o más variables explicativas. Mide la relación entre la variable dependiente categórica y una o más variables independientes mediante la estimación de probabilidades mediante una función logística, que es la distribución logística acumulativa.
En general, las regresiones se pueden utilizar en aplicaciones del mundo real, tales como:
· Puntuacion de credito
· Medición de las tasas de éxito de las campañas de marketing.
· Predecir los ingresos de un determinado producto.
· ¿Habrá un terremoto en un día en particular?
Máquinas de vectores de soporte
Las Máquinas de vectores de soporte (Support Vectors Machines, SVM) es un algoritmo de clasificación binaria. Dado un conjunto de puntos de 2 tipos en N lugar dimensional, SVM genera un hiperlano dimensional (N – 1) para separar esos puntos en 2 grupos. Digamos que tiene algunos puntos de 2 tipos en un papel que son linealmente separables. SVM encontrará una línea recta que separa esos puntos en 2 tipos y se ubica lo más lejos posible de todos esos puntos.SVM es un algoritmo de clasificación binaria. Dado un conjunto de puntos de 2 tipos en N lugar dimensional, SVM genera un hiperlano dimensional (N – 1) para separar esos puntos en 2 grupos. Digamos que tiene algunos puntos de 2 tipos en un papel que son linealmente separables. SVM encontrará una línea recta que separa esos puntos en 2 tipos y se ubica lo más lejos posible de todos esos puntos.
En términos de escala, algunos de los problemas más grandes que se han resuelto utilizando SVM (con implementaciones adecuadamente modificadas) son la publicidad gráfica, el reconocimiento del sitio de empalme humano, la detección de género basada en imágenes, la clasificación de imágenes a gran escala …
Métodos de conjunto
Los métodos de conjunto son algoritmos de aprendizaje que construyen un conjunto de clasificadores y luego clasifican nuevos puntos de datos tomando un voto ponderado de sus predicciones. El método de conjunto original es el promedio bayesiano, pero los algoritmos más recientes incluyen codificación de correcciones de errores, empaquetamiento y refuerzo.
Entonces, ¿cómo funcionan los métodos de conjunto y por qué son superiores a los modelos individuales?
Promedian sesgos: si promedias un grupo de encuestas de tendencia democrática y encuestas de tendencia republicana juntas, obtendrás un promedio que no se inclina de ninguna manera.
Reducen la varianza: la opinión agregada de un grupo de modelos es menos ruidosa que la opinión única de uno de los modelos. En finanzas, esto se denomina diversificación: una cartera mixta de muchas acciones será mucho menos variable que solo una de las acciones. Es por eso que sus modelos serán mejores con más puntos de datos en lugar de menos.
· Es poco probable que se ajusten en exceso: si tiene modelos individuales que no se ajustaron en exceso y está combinando las predicciones de cada modelo de manera simple (promedio, promedio ponderado, regresión logística), entonces no hay espacio para excesivo
Aprendizaje No Supervisado
El aprendizaje no supervisado es útil en los casos en los que el desafío reside en descubrir relaciones implícitas para un conjunto de datos no etiquetado (los elementos no han sido revisado o aprendidos previamente). Así, aquí no contamos con una «experiencia previa» de la cual aprender ni existe un «maestro» el cual guíe un proceso de «adquisición de conocimiento».
Algoritmos de agrupación en clúster: la agrupación en clúster es la tarea de agrupar un conjunto de objetos de manera que los objetos en el mismo grupo (agrupación) sean más similares entre sí que a los de otros grupos. Cada algoritmo de agrupación es diferente, y aquí hay un par de ellos:
· Algoritmos basados en el centroide.
· Algoritmos basados en la conectividad.
· Algoritmos basados en densidad
· Probabilística
Reducción de dimensionalidad
· Redes neuronales / Aprendizaje profundo
Análisis de componentes principales: PCA es un procedimiento estadístico que utiliza una transformación ortogonal para convertir un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables no correlacionadas linealmente llamadas componentes principales.
Algunas de las aplicaciones de PCA incluyen la compresión, que simplifica los datos para facilitar el aprendizaje y la visualización. Tenga en cuenta que el conocimiento del dominio es muy importante al elegir si continuar con PCA o no. No es adecuado en casos donde los datos son ruidosos (todos los componentes de PCA tienen una variación bastante alta).
Descomposición de valores singulares: en álgebra lineal, la SVD es una factorización de una matriz compleja real. Para una matriz M * n dada, existe una descomposición tal que M = UΣV, donde U y V son matrices unitarias y Σ es una matriz diagonal.
PCA es en realidad una aplicación simple de SVD. En la visión por computador, los primeros algoritmos de reconocimiento de rostro usaban PCA y SVD para representar rostros como una combinación lineal de «interfaces propias», reducir la dimensionalidad y luego unir caras con identidades a través de métodos simples; Aunque los métodos modernos son mucho más sofisticados, muchos todavía dependen de técnicas similares.
Análisis de componentes independientes: ICA es una técnica estadística para revelar factores ocultos que subyacen a conjuntos de variables, mediciones o señales aleatorias. ICA define un modelo generativo para los datos multivariados observados, que normalmente se proporciona como una gran base de datos de muestras. En el modelo, se asume que las variables de datos son mezclas lineales de algunas variables latentes desconocidas, y el sistema de mezcla también es desconocido. Las variables latentes se suponen no gaussianas e independientes entre sí, y se denominan componentes independientes de los datos observados.
ICA está relacionado con PCA, pero es una técnica mucho más poderosa que es capaz de encontrar los factores subyacentes de las fuentes cuando estos métodos clásicos fallan completamente. Sus aplicaciones incluyen imágenes digitales, bases de datos de documentos, indicadores económicos y mediciones psicométricas.
Aprendizaje por Refuerzo
El aprendizaje por refuerzo (reinforcement learning) se encuentra entre las dos categorías previas. Un tipo de retroalimentación está disponible para cada paso o acción predictiva, pero no hay una etiqueta precisa o un mensaje de error.
|
© Todos los derechos reservados. Dr. Eduardo René Rodríguez Avila |
Creación: 2018.12.06 Última actualización: 2021.10.27 |
|||
El contenido de este sitio puede ser copiado y reproducido libremente mientras no sea alterado y se cite su origen. Marcas y productos registrados son citados por referencia y sin fines de lucro o dolo. Todas las opiniones son a título personal del o los autores de éstas y, salvo sea expresado de otro modo, deben considerarse como registro y expresión de la experiencia de uso de aquello que es tratado. Para conocer más sobre la posición de privacidad y responsabilidad de lo que se presenta en este sitio web y como ha sido obtenido, consulte la declaración al respecto. |