EsePrimo

2005-03-10

¿Por qué Google si puede y yo no?

Digamos que haces una búsqueda en Google, algo relativo a noticias de hoy en día, como por ejemplo la salida voluntaria de EEUU del pacto de Vienna. Escribes tu cadena de búsqueda, y salen en pantalla un número determinado de páginas, la mayoría de las cuales pertenecen a periódicos y cadenas de información. Elige una de ellas, digamos esta, en el Washington Post. Al intentar abrirla, el servidor de dicho periódico nos reconoce como no usuarios, y nos pide que o bien nos suscribamos, o bien metamos nuestros datos que nos reconocerían inmediatamente como habituales. Y yo me pregunto, ¿es que Google puede, pero yo no? ¿De dónde ha sacado Google que en el interior de dicho artículo están esas palabras clave?
Ese principio puede ser usado a nuestro favor para hacernos camino dentro de muchos servicios de pago o subscripción… lo único que tenemos que hacer es convencer al sistema que somos Google o cualquier otro buscador. ¿Dificil? No, en absoluto. Por ejemplo, desde UNIX, Linux, o Windows con CygWin, si tenemos la utilidad wget instalada, no podría ser más fácil:
[Francisc@10 </Users/Francisco/test>] wget -U Googlebot http://www.washingtonpost.com/wp-dyn/articles/A21981-2005Mar9.html
--20:59:31-- http://www.washingtonpost.com/wp-dyn/articles/A21981-2005Mar9.html
=> `A21981-2005Mar9.html'
Resolving www.washingtonpost.com... done.
Connecting to www.washingtonpost.com[12.129.147.10]:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]

[ <=> ] 50,758 12.64K/s

20:59:38 (12.64 KB/s) - `A21981-2005Mar9.html' saved [50758]

[Francisc@10 </Users/Francisco/test>] ls
A21981-2005Mar9.html
Hemos bajado a nuestro ordenador una copia del artículo (en html) que, una vez abierto por nuestro navegador, podrá ser leído sin ningún problema. Incluso las imágenes son cargadas, ya que wget se encarga de transformar los enlaces internos en enlaces globales si es necesario (es decir, si el enlace interno es por ejemplo “img/foto.jpg”, wget lo cambiará a “dominio.com/img/foto.jpg”).