Contra todo pronóstico no he usado nada de Python realmente para el asunto de la investigación doctoral. Una búsqueda en el blog dará cuenta de lo que he escrito al respecto de mi preparación e intentos de usar Python.
Believed or not, por el momento lo que tengo al respecto de la extracción de la extracción de tweets (conexión a Twitter, descarga del archivo JSON), preparación (extracción de texto, extracción de entidades de Twitter), normalización (substitución, preparación, limpieza) de entidades, preparativos para la creación de diccionarios y pipeline de procesamiento, lo tengo todo en scripts de BASH, jq y AWK.
Y tal vez me hubiera seguido en con AWK de no ser que, históricamente, éste fue concebido para trabajar con archivos ASCII y lo de hoy en día es Unicode, y uno debe lidiar con los correspondientes «encodings«. En mi caso UTF-8 pues es el seleccionado por Twitter. Aquí el obstáculo de continuación han sido los emojis.
