
Hace tres semanas semana inicié el curso «Text Mining and Analytics» que la University of Illinions at Urbana-Champaign ofrece a través de Coursera. La verdad pensaba darme de baja del curso con el predoctoral ya muy cerca y con tanto por hacer… pero ofrece un ejercicio haciendo uso de una herramienta en C++ a lo que no pude resistirme. Así que, aquí estoy nuevamente relatando y registrando un curso en línea más. Este curso lo imparte ChengXiang Zhai; es el cuarto curso del track de especialización en Data Mining.

Un problema con los instructores chinos es el acento, hace a algunas palabras difíciles de entender. ChengXiang Zhai no es la excepción, aunque me parece mucho más entendible que Jiawei Han. Habrá que ver que tan monótono o variado es su tono de voz. En lo que se refiere a los quizzes… ¡son de todo o nada! Sólo una oportunidad para aprobarlos. Muy agresivo el modo.
Las primeras lecturas se enfocan a definir términos como text mining, analytics, text retrieval, etcétera. Se hace una presentación de cómo los textos se han vuelto muy comunes en el entorno digital y como se han vuelto parte intrínseca y fundamental del «Big Data«, así como también como «text retrieval and search» está relacionado con el tema. Se define también lo que es el problema general de la minería de datos: la integración de datos en diferentes formatos para a partir de éstos extraer información y transformarla en conocimiento para la acción y toma de decisiones, que lo hace un «conocimiento ejecutable» (actionable knowledge).
Las lecturas se pusieron cada vez más interesantes. Desafortunadamente sólo puedo indicar por el momento los principales temas que se tratan, podría hacer de cada cada uno de estos puntos un serie de tres o cuatro posts. Tal vez algún día. Los temas han sido:
- El procesamiento del lenguaje natural, en qué consiste, sus dificultades, su actual alcance y líneas a futuro.
- La representación de conocimiento e información mediante texto.
- Minado de la asociación de palabras y su análisis (relaciones sintagmáticas y paradigmáticas).
- El descubrimiento de relaciones paradigmáticas y sintagmáticas.
