Page Grabber – Python

27 09 2008

Script scritto da me, in Python, che richiede pagine web con un cliclo for, prendendo il path da un dizionario .txt, e “grabba” il sorgente di ciascuna pagina, salvandolo in un file php.

NoPaste

Here

Uso

Per la scansione con httplib:
python pagegrabber.py -a <url> <user-agent> <txt page dictionary>

Esempio.
python pagegrabber.py -a localhost Google-Bot diz.txt

Per la scansione con urllib:
python pagegrabber.py -b <url> <user-agent> <txt page dictionary>

Esempio:
python pagegrabber.py -b localhost Google-Bot diz.txt

Si può scegliere l’user-agent, nel caso non vogliate usarlo basta mettere none al posto del nome dell’UA stesso.

Sono state usate due differenti librerie, per il fatto che httplib mi dà alcuni problemi sui 404 e sulla richiesta delle pagine dopo il ciclo for. Consiglio perciò di usare la scansione con urllib anche perchè esclude i 404 dal grabbing.


Azioni

Informazione

2 risposte

1 10 2008
miky4e

ottimo!! Script interessantissimo!! Python e una bomba su queste cose!

Saluti! M.

1 10 2008
sid93

Grazie miky4e ;)
Molto interessante tra l’altro è l’uso della libreria httplib e urllib(2), che infatti ho utilizzato per lo script.

Saluti, SiD

Lascia un commento