Anàlisi estadística

Dades numèriques

La darrera descomposició dels textos són els signes gràfics. Les eines informàtiques permeten tractar-los de manera diverses per poder-los analitzar: llargada de mots, frases, usos de signes de puntuació. És a dir, convertir els signes gràfics en numèrics i els valors numèrics en estadístiques.

L’estilometria és l’anàlisi estadística de l’estil dels textos. Cal rercar dades quantificables que ajudin a distingir trets diferencials dels textos, normalment en comparació amb d’altres.

Jack Grieve (2007). “Quantitative Authorship Attribution: An Evaluation of Techniques”

En la introducció analitza 39 tipus de dades estadístiques que es poden tenir en compte per determinar l’autoria d’un text, entre els quals destaquen:
– Extensió de paraules i frases
– Ús de paraules no sensibles al context
– Distribució de les parts de l’oració (proporcions de N, V, Adj, Prep, Art…)
– Riquesa/densitat lèxica
– Distribució de vocabulari al llarg d’un text
– Anàlisi de tipologia d’expressions (p. ex.: hipotètiques, concessives)

 

Programari

– AutoMap (amb lematitzador)

– DBT (DataBase Testuale)

– Lexico 3

– Text Analysis Computing Tools (TACT)

– UNITEX

– WordSmith Tools

 

Exemples d’ús

Riba, Alexandre (2002). “Capítol 2. Literatura i estadística”Homogeneïtat d’estil en ‘El Tirant Lo Blanc’

Grieve, Jack (2007). “Quantitative Authorship Attribution: An Evaluation of Techniques”

Deixa un comentari

L'adreça electrònica no es publicarà.