EsePrimo

2006-03-16

Bájate todos los mp3 de un directorio de una página web

$ wget --no-parent -r -l2 -A.mp3 “http://www.r adiocrazy.com/shows2/T/TarzanOfTheApes/”
He de decir que yo solía hacer todas estas rutinas con wget, pero por alguna extraña razón esta noche no da pié con bola, y he tenido que ponerme a mirar cómo se usa curl en su lugar.

Échale un vistazo a la siguiente página de OTRs (“Old Time Radio Shows”): http://www.radiolovers.com/. Es una colección de series antiguas de radio de diversas cadenas estadounidenses, con el copyright cumplido de sobra (de ahí que nos las podamos bajar sin infringir ninguna ley). Entre ellas, observamos joyas como las adaptaciones de novelas varias de Orson Welles en su Campbell Playhouse o en su época anterior con el Mercury Theatre (¿recordáis lo de la “broma” de la Guerra de los Mundos?). Si os gustan las novelas negras de detectives, ahí tenéis a Philip Marlowe o Nero Wolfe; si os va la ciencia ficción, está todo X Minus One entero; ¿de vaqueros?—las que queráis; ¿de misterio?—también. Por series que no quede.

Para bajarte todos los ficheros de una tacada, se puede hacer lo siguiente: Supongamos que nos queremos bajar los “Tarzanes”. Vamos a la página correspondiente
http://www.radiolovers.com/pages/tarzanoftheapes.htm
y observamos que los ficheros que buscamos están alojados en http://www.radiocrazy.com/shows2/T/TarzanOfTheApes/, bajo los directorios 1932, …, 1952. En cada una de las carpetas anuales indicadas, encontramos ficheros mp3 con nombres tales como 001.mp3, 032.mp3, etc.

Un comando curl apropiado para extraer todos estos ficheros a tu disco duro puede ser, por tanto, algo así:
$ mkdir tarzan
$ curl http://www.radiocrazy.com/shows2/T/Tarz anOfTheApes/[1932-1952]/[001-100].mp3 -o tarza n/#1/#2.mp3


[1/100]: http://www.radiocrazy.com/shows2/T/TarzanOfThe Apes/1932/001.mp3 --> tarzan/001.mp3
% Total % Received % Xferd Average Speed Time Curr.
Dload Upload Total Current Left Speed
100 2407k 100 2407k 0 0 12050 0 0:03:24 0:03:24 0:00:00 10606

[2/100]: http://www.radiocrazy.com/shows2/T/TarzanOfThe Apes/1932/002.mp3 --> tarzan/002.mp3
100 2082k 100 2082k 0 0 14252 0 0:02:29 0:02:29 0:00:00 20788

[3/100]: http://www.radiocrazy.com/shows2/T/TarzanOf TheApes/\1932/003.mp3 --> tarzan/003.mp3
100 2539k 100 2539k 0 0 18728 0 0:02:18 0:02:18 0:00:00 17633

[4/100]: http://www.radiocrazy.com/shows2/T/TarzanOfThe Apes/1932/004.mp3 --> tarzan/004.mp3
100 2507k 100 2507k 0 0 16959 0 0:02:31 0:02:31 0:00:00 9536

[5/100]: http://www.radiocrazy.com/shows2/T/TarzanOfThe Apes/1932/005.mp3 --> tarzan/005.mp3
100 2313k 100 2313k 0 0 13166 0 0:02:59 0:02:59 0:00:00 9363

[6/100]: http://www.radiocrazy.com/shows2/T/TarzanOfThe Apes/1932/006.mp3 --> tarzan/006.mp3
100 2567k 100 2567k 0 0 13714 0 0:03:11 0:03:11 0:00:00 12384

...

Este comando símplemente busca en la dirección de http www.radiocrazy.com/.../TarzanOfTheApes/ cualquier directorio anual, almacena su nombre en la variable #1, y dentro de dicho directorio busca cualquier fichero mp3, almacena su nombre en la variable #2, y tras bajarlo completamente, lo deposita dentro de la carpeta local tarzan, en la subcarpeta correspondiente.

Technorati Tags: , , , , ,