

Página dedicada al tema del «raspado web«. No es un tutorial, sólo una colección de ideas y técnicas al respecto; resgitro y referencia para el autor de esta página.
Introducción
La traducción literal a «web scrapping» es «raspado web«, que podrá sonar algo raro o forzado fuera de los círculos de desarrollo web, marketing, analytics y actividades que tengan que ver con la explotación de datos publicados en la WWW con un formato o intención incial que no es la de compartirlos para su procesamiento sino meramente formar parte de un contenido. Como podemos intuir, se trata de una actividad automatizada de extraccion y recolección de datos desde, y principalmente, páginas web.
Scrapfly
Notas en formación… pendientes de ser depuradas y organizadas.
$ export SCRAPFLY_KEY=<key>
$ conda create -n scrap python=3.12
$ conda activate scrap
$ pip install jupyterlab
$ pip install 'nodejs-bin[cmd]'
$ conda create --name scrapfly --clone scrap
$ conda activate scrapfly
$ pip install black
$ pip install ruff
$ pip install cerberus
$ pip install pytest
$ pip install pytest-asyncio
$ pip install loguru
$ pip install scrapfly-sdk
$ pip install parsel
Referencias
- David Amos, “A Practical Introduction to Web Scraping in Python”, realpython.com, web. Visited: 2024.03.10. URL: https://realpython.com/python-web-scraping-practical-introduction/.
- Ryan Mitchell, «Web Scraping with Python. Data Extraction from the Modern Web,» O’Reilly, 2024.
|
© Todos los derechos reservados. Dr. Eduardo René Rodríguez Avila |
Creación: 2024.03.10 Última actualización: 2024.09.28 |
|||
| El contenido de este sitio puede ser copiado y reproducido libremente mientras no sea alterado y se cite su origen. Marcas y productos registrados son citados por referencia y sin fines de lucro o dolo. Todas las opiniones son a título personal del o los autores de éstas y, salvo sea expresado de otro modo, deben considerarse como registro y expresión de la experiencia de uso de aquello que es tratado. Para conocer más sobre la posición de privacidad y responsabilidad de lo que se presenta en este sitio web y como ha sido obtenido, consulte la declaración al respecto. | |||||
