Freqs & Frequalyzer

23 04 2009

Frequalyzer è uno scriptino scritto in Perl che misura le frequenze di lettere e parole in un file di testo e restituisce tutti gli elementi valutati e le relative percentuali.
Più che altro lo script, per funzionare, è basato su una piccola libreria scritta da me ( Freqs ).
Per le frequenze di singole parole, compresi elementi come punti-virgole ecc, da linea di comando:
perl Frequalyzer.pl -s <file>
Per parole intere, quindi esclusi punti-virgole e via dicendo, Freqs valuta come separatori un qualsiasi spazio o segno di punteggiatura che sia.
perl Frequalyzer.pl -w <file>

http://blacklight.gotdns.org/cgi-bin/nopaste.pl?mode=view&id=1240505514 [Frequalyzer]
http://blacklight.gotdns.org/cgi-bin/nopaste.pl?mode=view&id=1240505547 [Freqs module]

Ora, avendo per esempio un file chiamato “current.txt” con all’interno un testo

To be or not to be, that is the question

vediamo le frequenze delle parole, con l’opzione -w current.txt

Newlines: NONE
Spaces:   9

the => 1 ( 0.1% )
that => 1 ( 0.1% )
not => 1 ( 0.1% )
is => 1 ( 0.1% )
question => 1 ( 0.1% )
to => 1 ( 0.1% )
or => 1 ( 0.1% )
be => 2 ( 0.2% )
To => 1 ( 0.1% )

Most used: be (2 time)

Come noterete è case sensitive e restuituisce anche il totale degli spazi, degli a capo e degli elementi più usati :P
Dimenticavo, passando come terzo argomento un carattere, se quel carattere è presente in una linea durante l’analisi del file, tutte le parole e/o lettere di quella linea verranno scartate ^^


Azioni

Informazione

Lascia un commento