Las arañas de red (N. del T. : en inglés, web spiders) son las herramientas más potentes y útiles desarrolladas en Internet, tanto para buenas como malas intenciones.

Una spider sirve para una función principalmente, el Data Mining. Una spider típica (como Google) funciona inspeccionando las páginas de un site web automatizadamente una por una, almacenando la información relevante para crear un registro de páginas, direcciones e-mail metatags, datos de formularios, información sobre las direcciones URL, enlaces, etc.

Después, la spider recorre los enlaces de la página, recolectando información relevante en cada una de las páginas siguientes, y así sucesivamente. Antes de que te des cuenta, la spider ha recorrido miles de enlaces y páginas registrando elementos de información y almacenándolos en una base de datos. De esta red de rutas recorridas se deriva el término ‘araña’, ‘spider’.

Wget:

GNU Wget es una herramienta de Software Libre que permite la descarga de contenidos desde servidores web de una forma simple. Su nombre deriva de World Wide Web (w), y de «obtener» (en inglés get), esto quiere decir: obtener desde WWW. (Más información…)

Actualmente soporta descargas mediante los protocolos HTTP, HTTPS y FTP.

En el siguiente video tutorial se muestra el proceso de Spidering haciendo uso de la herramienta Wget.

Link: Labs OWASP: Técnicas de Spidering, Wget

Descargar video tutorial de spidering con Wget (Password: www.dragonjar.org)