Page Grabber – Python

27 09 2008

Script scritto da me, in Python, che richiede pagine web con un cliclo for, prendendo il path da un dizionario .txt, e “grabba” il sorgente di ciascuna pagina, salvandolo in un file php.

NoPaste

Here

Uso

Per la scansione con httplib:
python pagegrabber.py -a <url> <user-agent> <txt page dictionary>

Esempio.
python pagegrabber.py -a localhost Google-Bot diz.txt

Per la scansione con urllib:
python pagegrabber.py -b <url> <user-agent> <txt page dictionary>

Esempio:
python pagegrabber.py -b localhost Google-Bot diz.txt

Si può scegliere l’user-agent, nel caso non vogliate usarlo basta mettere none al posto del nome dell’UA stesso.

Sono state usate due differenti librerie, per il fatto che httplib mi dà alcuni problemi sui 404 e sulla richiesta delle pagine dopo il ciclo for. Consiglio perciò di usare la scansione con urllib anche perchè esclude i 404 dal grabbing.