Esta serie de entradas las inicié cuando estaba cursando el doctorado y las dediqué a tratar de relatar la experiencia de un curso que impartieron en el CIC sobre lo que era un candente tema en ese momento. Ha pasado tiempo desde entonces; hoy «big data» es algo que se toma ya de una forma muy natural, es decir, tenemos datos, conjunto de datos y «muchos datos»; y la gente y los procesos se adaptan a la situación. Hablar de «big data» ya no es algo que lleve a la gente a pensar en expertos o habilitar algo ex profeso para ello.
Sin embargo, el procesar grandes volúmenes de datos de forma eficiente es algo que requiere pericia y conocimiento. No es lo mismo trabajar con datos que se pueden tomar de un archivo y colocar en un dataframe de Pandas. Tiempo de procesamiento, throughput y memoria se vuelven «parte de la ecuación», pero a diferencia de algo que requiere ser resuelto mediante aprendizaje automático y para lo que se requerirá de un conocimiento mucho más amplio y profundo en muchos otros temas para sacar el mejor provecho, las actividades en torno al «big data» no requieren una alta especialización. Así, considero, que «big data» se ha convertido en algo más operativo (y para completar la idea, consideremos al machine learning como algo que no solo contempla la resolución del problema sino su implementación).
Big Data queda ahora, en muchos sentidos, en saber hacer uso de productos, bibliotecas y servicios que permiten agilizar, mediante concurrencia, paralelismo y escalamiento, el procesamiento de grandes volúmenes de datos.

