La ley de Zipf

Escribía hace poco sobre el fenómeno de la pareidolia por un artículo que escribía. Para el mencionado artículo debí meterme con la ley de Zipf y una cosa llevo a la otra. De esa serie de cosas, hoy le toca a la ley de Zipf. No voy a describir ni a explicar la mencionada ley sino sobre algunas cosas con las que me topé que no me han quedado claras y están medio obscuras.

Para empezar, hay un… escrito en la red1, de quién creo es una investigadora en ciencias médicas o biológicas que describe la «formulación alfa» y una «formulación beta» de la ley de Zipf. La llamada formulación alfa es la más simplista y conocida forma en la que la ley de Zipf puede expresarse:

f(n)\propto\frac{1}{n^\alpha}

pero sobre la «formulación beta» no he podido encontrar algo concreto. Para complicar las cosas conforme uno indaga, y en gran medida por la notación empleada, pareciera que uno se topa con formulaciones distintas sobre la mencionada ley. Ya nada más con lo que uno se encuentra en la Wikipedia hay para entretenerse un rato.

Luego tenemos lo que Wolfram MathWorld2 cita al respecto de la mencionada ley e incluye la formulación

P(r) \approx \frac{1}{r ln(1.78 R)},

donde R es el número de palabras diferentes. La entrada está enfocada al idioma inglés pero aún así no hay indicaciones de dónde sale el 1.78. Esta entrada cita al trabajo de Goetz pero mediante una liga rota (y rota desde hace unos 17 años… la Wayback Machine de Archive.org parece que obtuvo algo diferente a un 404 a finales de 2000 o inicios de 2001). Este trabajo es meramente la formulación indicada pero sin mayores referencias.

Hay tantas similitudes entre varias distribuciones3-5, que dependen de algún parámetro, características de la fuente de datos o el origen de ésta que verdaderamente uno se pierde en algo que en un inicio pareciera era claro y simple.

Referencias

  1. Marjolein van Egmond, «Calculating Zipf’s Law
    (and building growth curves)«, web, Oct 2013. URL: http://mvanegmond.weebly.com/uploads/2/2/1/5/22153706/zipfs_law_practical.pdf.
  2. Weisstein, Eric W. «Zipf’s Law«, MathWorld, web. URL: http://mathworld.wolfram.com/ZipfsLaw.html.
  3. Lada A. Adamic, «Zipf, Power-laws, and Pareto – a ranking tutorial«, Information Dynamics Lab, HP Labs, web. URL: http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html.
  4. L. Egghe, “Untangling Herdan’s law and Heaps’ law: Mathematical and informetric arguments,” J. Am. Soc. Inf. Sci. Technol., vol. 58, no. 5, pp. 702–709, Mar. 2007.
  5. A. Gelbukh and G. Sidorov, “Zipf and Heaps LawsCoefficients Depend on Language,” in Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, 2001, pp. 332–335.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.