Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita

Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita

Discente: 
Maelyson Rolim Fonseca dos Santos
Orientador: 
Pedro Hugo de Figueirêdo

A investiga¸c˜ao do processo de evolu¸c˜ao e caracteriza¸c˜ao das diversas linguagens humanas
tem sido um dos campos mais ativos de pesquisa nas ´ultimas d´ecadas. Embora
a busca por padr˜oes lingu´ısticos que possam estabelecer uma filogenia das l´ınguas seja
bem mais antiga, a caracteriza¸c˜ao estat´ıstica da linguagem escrita, comumente denominada
lingu´ıstica quantitativa, possui uma tradi¸c˜ao mais recente que se apoia nos trabalhos
desenvolvidos por George Zipf e Claude Shannon, escritos no final da d´ecada de 1940.
Nesta disserta¸c˜ao investigamos aspectos frequencistas e espaciais da distribui¸c˜ao de verbetes
em textos e o papel destas quantidades sobre a informa¸c˜ao contida em linguagem
escrita. Num primeiro momento exploramos a rela¸c˜ao de escala entre o vocabul´ario V
e o tamanho dos textos T, denominada Lei de Heaps, que segundo nossos resultados
´e t´ıpica para cada l´ıngua. Estabelecemos empiricamente, uma rela¸c˜ao funcional entre a
frequˆencia m´axima kmax e o n´umero total de palavras do texto T. Num segundo momento
analisamos caracter´ısticas morfol´ogicas dos s´ımbolos obtendo a distribui¸c˜ao de tamanho
P(l) dos verbetes e a partir desta a sua respectiva entropia, concluimos que este procedimento
nos permite categorizar diferentes grupos lingu´ısticos. Por fim introduzimos
dois modelos capazes de fornecer comportamentos limitantes universais, para a rela¸c˜ao
entre a intermitˆencia σ e a frequˆencia k dos verbetes. Os modelos foram concebidos de
forma a descrever o comportamento de verbetes correlacionados e n˜ao correlacionados,
reproduzindo diversas propriedades de textos como a fra¸c˜ao de verbetes correlacionada
f e a entropia estrutural H. Ao longo de nossa abordagem, todos os nossos resultados
te´oricos foram comparados com aqueles obtidos de um corpus composto por 500 textos,
que incluem artigos da wikipedia e obras liter´arias de diversas ´epocas, em 10 idiomas
distribu´ıdos em 3 fam´ılias lingu´ısticas: germˆanica (alem˜ao, dinamarquˆes, inglˆes e sueco),
latina (espanhol, italiano, francˆes e portuguˆes) e ur´alica (finlandˆes e h´ungaro).