N-gramas

1 Introdução

N-gramas (ou n-grams em sua versão original, em inglês) podem ser basicamente definidos como sequências contíguas de n itens. Tal conceito pode ser aplicado a qualquer sequência de símbolos, como acontece em textos (a aplicação original), mas também em outros tipos de informação simbólica notada sequencialmente, como se observa em sequenciação de aminoácidos (em biologia computacional) ou em música, o que se associa diretamente a nossos interesses.

O conceito de n-gramas tem suas origens na teoria da probabilidade e na linguística computacional, remontando – assim como a ideia de entropia (ver capítulo Probabilidade e entropia) – às primeiras formulações de Claude Shannon na década de 1940 sobre Teoria da Informação, a partir de uma intenção de quantificar a redundância em sequências de símbolos em textos. Na década de 1950 e 1960, com o surgimento da linguística computacional, os n-gramas foram empregados para modelar a linguagem natural, o que foi principalmente aperfeiçoado pelo trabalho de George Kingsley Zipf,1 que observou padrões na frequência das palavras em textos em inúmeros livros, independentemente de época ou de idioma em que foram escritos.

No contexto do Projeto MPB, com o intuito de trazer mais luzes para as preferências estilísitcas, n-gramas podem ser aplicados a diversas estruturas. Destacamos especialmente três delas para exames, cada qual associada a um domínio/subdomínio: c-letras e c-palavras (alturas), r-letras e r-palavras (ritmo) e categrias funcionais (harmonia). A bem da verdade, alguns dos levantamentos com n-gramas correspondem a atributos já avaliados, como é o caso da distribuição de c-letras (1-grama); a distribuição de r-letras (1-grama), r-dissílabos (2-grama) e r-trissílabos (3-grama); a distribuição de categorias funcionais (1-grama) e das RBFs (2-grama). A despeito desse fato, consideramos que trazer novamente tais avaliações e combiná-las a outras ainda não efetuadas (3-gramas e, especialmente, 4-gramas) é não apenas justificável (em nome da consistência e da presente nomenclatura), mas de grande utilidade para nossos propósitos de definição estilística, por permitir reunir as comparações entre os corpora em um único grupo.

2 N-gramas no domínio da harmonia

O quadro abaixo apresenta dados sobre os n-gramas (n entre 1 e 4)2 referentes às sequências de categorias funcionais em todos os 13 corpora (controle e análise), incluindo o conjunto MPB (que engloba os corpora de análise). Nesse quadro são apresentados, em cada nível, o n-grama mais recorrente do corpus em questão, seu percentual e o total de n-gramas encontrados.3

N-gramas (1 a 4) referentes a categorias funcionais nos corpora de controle, de análise e no conjunto MPB.

DISCUSSÃO

Embora exista sejam preponderantes como únicas alternativas para todos os 14 corpora os 1-gramas (I) e nos 2-gramas (V|I), torna-se interessante observar as distribuições percentuais em que isso acontece. Assim, Chico, Djavan e Jobim (nesta ordem) são, juntamente com o controle Jazz, os repertórios nos quais há relativamente menor peso de I como 1-grama (entre 18 e 20%). No extremo oposto se encontra o corpus Milton, no qual I corresponde a 35% de seus 1-gramas, percentual que evidencia o caráter predominantemente modal da música desse compositor. Por outro lado, o 2-grama V|I apresenta valores menores do que a média nesse mesmo corpus, o que também é consistente com uma lógica eminentemente modal. De um modo geral, os repertórios MPB apresentam percentuais baixos para essa sequência. Nos controles Choro e, principalmente, Samba (22%) V|I tem consideravelmente maior peso. Quanto aos 3-gramas, nove dos repertórios apresentam como principal a sequência II|V|I. Em três casos, a preferência recai sobre I|V|I. Apenas dois outros são distintos e envolvem acordes não diatônicos: a sequência cadencial V/II|V/V|V (Djavan) e I|IV7|I (Rita Lee), que evoca uma lógica de rhythm and blues, bem recorrente na música da compositora. Como se esperaria, a divergência de opções (e a redução dos percentuais) se acentuam nas sequências 4-gramas, o que não permite conclusões significativas.

2.1 Gráficos

Considerando que as sequências 1-grama e 2-grama já foram expostas graficamente, denominadas, respectivamente, “Distribuição de categorias funcionais” e “Distribuição de RBFs” (ver o capítulo Gráficos), seguem-se abaixo os gráficos referentes aos 30 mais recorrentes 3-gramas e 4-gramas associados às r-letras nos diferentes corpora.

3-GRAMAS

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Jazz.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Choro.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Samba.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Jobim.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Lins.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Chico.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Edu.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Caetano.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Djavan.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Bosco.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Milton.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Gil.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no corpus Rita.

Os 30 mais recorrentes 3-gramas referentes a sequências de categorias no conjunto MPB (corpora 1 a 10).

Comparação dos 3-gramas referentes a sequências de categorias funcionais nos corpora de controle (acima), de análise (centro) e no conjunto MPB (abaixo).

4-GRAMAS

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Jazz.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Choro.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Samba.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Jobim.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Lins.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Chico.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Edu.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Caetano.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Djavan.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Bosco.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Milton.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Gil.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no corpus Rita.

Os 30 mais recorrentes 4-gramas referentes a sequências de categorias no conjunto MPB (corpora 1 a 10).

Comparação dos 4-gramas referentes a sequências de categorias funcionais nos corpora de controle (acima), de análise (centro) e no conjunto MPB (abaixo).

3 N-gramas no subdomínio do ritmo

3.1 Nível das r-letras

N-gramas (1 a 4) referentes a r-letras nos corpora de controle, de análise e no conjunto MPB.

DISCUSSÃO

Com a exceção dos controles Choro (preferência pela r-letra v) e Samba (n), os demais corpora dividem-se em dois grupos: um no qual predomina o 1-grama b, o ataque tético isolado (Jobim, Lins, Lobo, Djavan, Bosco e Milton) e o outro com preferência sobre o 1-grama j, correspondendo ao par de colcheias (Jazz, Chico, Caetano, Gil e Rita). Como acontece com as categorias funcionais, um aspecto adicional a se observar em futuras avaliações compreende as diferenças percentuais, associadas aos totais envolvidos. Nesse sentido, chama especial atenção a destacada proeminência de j no corpus Rita (42.5%), denotando uma maior consistência rítmica nas linhas melódicas desse repertório (ou menor diversidade, alternativamente). Em polo oposto se encontra o caso do corpus Bosco, no qual b é o principal 1-grama, com apenas 16.7%.

Um fenômeno bastante interessante surge quando observamos 2-gramas, a saber, uma tendência quase unânime de replicação da r-letra prévia.4 Nesse sentido, os vários repertórios parecem agora convergir para uma sequência predominante (jj, em sete dos 13 corpora – oito, se considerarmos o conjunto MPB.), deixando mais afastado o segundo grupo, que duplica a r-letra b (três casos). Choro (vv) e Samba (nn) duplicam seus respectivos 1-gramas, com Jobim se tornando o único corpus sem duplicações nessa cardinalidade (jb).5

A tendência de replicação de r-letras se mantém quase inalterada nos 3-gramas: todas as oito sequências jj se tornam jjj, assim como acontece nos controles Choro (vvv) e Samba (nnn). Há ainda dois casos de triplicação bbb (Jazz e Milton), com apenas Jobim e Lins divergindo desse quadro.

Embora atenuada nos 4-gramas, a tendência de replicação ainda se apresenta em sete dos 13 corpora: como jjjj (Lobo, Gil e Rita),6 bbbb (Jazz, Djavan e Milton) e nnnn (Samba), com sequências mescladas em Jobim, Lins, Caetano, Bosco e Choro.

Como uma reflexão sobre a tendência de replicação, que se apresenta de forma tão intensa e consistente nesses n-gramas, embora seja ainda num nível da especulação, acreditamos que ela possa talvez ser associada a um princípio construtivo que levaria os compositores, intuitivamente, a preferir configurações que privilegiassem consistência e economia motívica, num sentido oposto ao de uma maior diversidade rítmica. Evidentemente, tais considerações se apresentam apenas como uma hipótese inicial que carecem, portanto, de estudos complementares para uma adequada avaliação.

3.1.1 Gráficos

Os gráficos das sequências de r-letras abrangem 2- 3- e 4-gramas (para 1-grama, ver a “Distribuição de r-letras” no capítulo Gráficos).

2-GRAMAS

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Jazz.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Choro.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Samba.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Jobim.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Lins.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Chico.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Edu.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Caetano.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Djavan.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Bosco.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Milton.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Gil.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no corpus Rita.

Os 30 mais recorrentes 2-gramas referentes a sequências de r-letras no conjunto MPB (corpora 1 a 10).

Comparação dos 2-gramas referentes a sequências de r-letras nos corpora de controle (acima), de análise (centro) e no conjunto MPB (abaixo).

3-GRAMAS

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Jazz.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Choro.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Samba.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Jobim.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Lins.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Chico.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Edu.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Caetano.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Djavan.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Bosco.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Milton.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Gil.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no corpus Rita.

Os 30 mais recorrentes 3-gramas referentes a sequências de r-letras no conjunto MPB (corpora 1 a 10).

Comparação dos 3-gramas referentes a sequências de r-letras nos corpora de controle (acima), de análise (centro) e no conjunto MPB (abaixo).

4 GRAMAS

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Jazz.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Choro.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Samba.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Jobim.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Lins.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Chico.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Edu.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Caetano.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Djavan.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Bosco.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Milton.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Gil.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no corpus Rita.

Os 30 mais recorrentes 4-gramas referentes a sequências de r-letras no conjunto MPB (corpora 1 a 10).

Comparação dos 4-gramas referentes a sequências de r-letras nos corpora de controle (acima), de análise (centro) e no conjunto MPB (abaixo).

3.2 Nível das r-palavras

N-gramas rítmicos também podem ser observados em um nível superior ao das r-letras, ou seja, envolvendo sequências de r-palavras. Em termos práticos, consideramos que interessa apenas observar sequências desse tipo que abranjam dois elementos, já que cardinalidades implicam considerável aumento de dispersão de alternativas. O quadro abaixo resume os mais recorrentes 2-gramas de r-palavras nos corpora, informando percentuais e o total de casos observados.

2-gramas referentes a sequências de r-palavras nos corpora de controle, de análise e no conjunto MPB.

DISCUSSÃO

Como visto no nível das letras, as r-palavras tendem também a se replicar sequencialmente, como demonstra a quase totalidade (11 dos 13 repertórios analisados) dos 2-gramas preferenciais dos corpora. Essa constatação parece reforçar a hipótese – agora num nível superior de organização – referente à tendência a um conservadorismo (ou consistência, ou ainda, economia) na construção rítmica.

A observação dos percentuais com que os 2-gramas preferenciais se apresentam fornece também informações relevantes. Nesse aspecto, podemos considerar três categorias: (a) por volta de 2% de ocorrências (Jobim, Lins e Chico); (b) no patamar de 1 a 1.6% (Jazz, Choro, Milton e Rita); (c) menores do que 1% (Samba, Caetano, Bosco e Djavan – o repertório que apresenta o menor valor, 0.5%). Tais flutuações de percentuais são correlacionadas provavelmente à maior ou menor diversidade rítmica no nível dos segmentos melódicos (ou seja, r-palavras): assim, repertórios da primeira situação (por exemplo, Jobim) poderiam ser talvez vistos como menos diversificados do que os de baixos percentuais (Djavan).7

3.2.1 Gráfico

A relativa baixa diversidade geral dos 2-gramas de r-palavras em relação aos das r-letras fica visualmente evidente pela simples observação dos gráficos de barras abaixo, que apresentam as 30 mais comuns sequências de cada repertório. Isso se expressa pela presença (maciça, em certos casos, como no corpora Samba e Djavan) de “planaltos” que correspondem a equivalências percentuais entre 2-gramas (e denotam, consequentemente, baixa consistência de padrões rítmicos em médio nível).

Comparação dos 2-gramas referentes a sequências de r-palavras nos corpora de controle (acima), de análise (centro) e no conjunto MPB (abaixo).

4 N-gramas no subdomínio das alturas

4.1 Nível das c-letras

N-gramas (1 a 4) referentes a c-letras nos corpora de controle, de análise e no conjunto MPB.

DISCUSSÃO

De início, em relação aos 1-gramas, observa-se uma forte consistência na presença da c-letra p, não apenas considerando os corpora nos quais é preferencial (10 em 13), como nos níveis percentuais em que isso acontece (em média, 30%). Dessa média divergem apenas Milton (quase 40%) e Djavan (23%).

Nos 2-gramas, assim como acontece com as r-letras, a tendência de replicação é predominante. Começa também a surgir como uma alternativa à dupla pp (em oito corpora) a replicação do uníssono uu (quatro casos). Importante ainda assinalar que apenas nos repertórios Jazz, Choro e Chico Buarque todas as combinações possíveis (49) das sete c-letras acontecem. Djavan é o corpus com menos alternativas empregadas (43).

A replicação é novamente total nos 3-gramas. Desta vez, a sequência ppp como a mais recorrente se apresenta em sete repertórios, com o 3-grama uuu predominante em cinco.8

Replicação também é a regra nos 4-gramas preferenciais, porém, nesse nível, as sequências de quatro uníssonos se tornam predominantes nos repertórios (10 deles, se incluirmos o conjunto MPB). Apenas nos corpora Choro, Lins e Lobo a sequência de passos escalares descendentes pppp é a mais comum.9

É bastante interessante constatar como a tendência de replicação se estende além do subdomínio rítmico, alcançando a organização melódica. Essa generalização parece extrapolar a questão da economia de meios e se associar a metaforicamente a algo semelhante ao princípio físico da inércia. Parece-nos também como uma via promissora de prospecção investigar essa ramificação da hipótese inicial.

4.1.1 Gráficos

2-GRAMAS

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Jazz.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Choro.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Samba.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Jobim.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Lins.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Chico.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Edu.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Caetano.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Djavan.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Bosco.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Milton.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Gil.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no corpus Rita.

Os 30 mais recorrentes 2-gramas referentes a sequências de c-letras no conjunto MPB (corpora 1 a 10).

Comparação dos 2-gramas referentes a sequências de c-letras nos corpora de controle (acima), de análise (centro) e no conjunto MPB (abaixo).

3-GRAMAS

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Jazz.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Choro.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Samba.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Jobim.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Lins.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Chico.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Edu.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Caetano.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Djavan.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Bosco.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Milton.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Gil.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no corpus Rita.

Os 30 mais recorrentes 3-gramas referentes a sequências de c-letras no conjunto MPB (corpora 1 a 10).

4-GRAMAS

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Jazz.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Choro.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Samba.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Jobim.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Lins.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Chico.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Edu.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Caetano.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Djavan.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Bosco.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Milton.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Gil.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no corpus Rita.

Os 30 mais recorrentes 4-gramas referentes a sequências de c-letras no conjunto MPB (corpora 1 a 10).

Comparação dos 4-gramas referentes a sequências de c-letras nos corpora de controle (acima), de análise (centro) e no conjunto MPB (abaixo).

4.2 Nível das c-palavras

2-gramas referentes a c-palavras nos corpora de controle, de análise e no conjunto MPB.

DISCUSSÃO

Parece paradoxal que, embora sejam construídos com um alfabeto bem mais limitado em relação ao das r-palavras (sete, contra 26 letras), os 2-gramas de c-palavras apresentem consideravelmente maior dispersão do que aquelas (ver discussão na seção 4.2 deste capítulo). Aqui, o valor percentual máximo (1.0), no corpus Caetano, é menos do que a metade do valor máximo observado para as r-palavras. Na maior parte dos demais repertórios, o percentual do 2-grama mais recorrente gira ao torno de 0.5%, com o Samba apresentando o valor mínimo (0.3%).10 Como discutido anteriormente, esses dados sugerem haver, relativamente, ainda menos consistência motívica no subdomínio das alturas do que no rítmico. Isso, por si só, reforça o conhecimento intuitivo que temos sobre a importância do ritmo na caracterização de ideias melódicas, especialmente temáticas e motívicas (ou seja, aquelas que têm consequência construtiva).

Por outro lado, observamos novamente a ubiquidade do princípio da replicação: em apenas dois dos repertórios a segunda c-palavra da sequência não replica a primeira.

4.2.1 Gráfico

Em sintonia com o que é acima mencionado, a presença de “planaltos” nos gráficos abaixo parece ser ainda mais expressiva do que nos gráficos referentes aos 2-gramas de r-palavras.

Comparação dos 2-gramas referentes a sequências de c-palavras nos corpora de controle (acima), de análise (centro) e no conjunto MPB (abaixo).

Referências

Zipf, George. 1965. The Psycho-Biology of Language. Cambridge: The MIT Press.

Notas de rodapé

  1. Ver Zipf (1965).↩︎

  2. Segundo nosso entendimento, embora possíveis de serem obtidos, n-gramas com cardinalidades 5 em diante tornam-se cada vez menos informativos, além de implicarem pulverização das alternativas de sequências, perdendo, assim, valor como elementos de determinação estilística.↩︎

  3. Uma convenção que adotaremos (não apenas para o quadro abaixo, mas também para os demais, é considerar como representativo apenas um dos n-gramas que por ventura ocupem a primeira posição estatística (há alguns poucos casos ao longo das sequências analisadas). Isso se justifica apenas por questões de conveniência, evitando-se assim o uso de células muito extensas nos quadros. Para o detalhamento das unidades que enventualmente compartilhem as posições preferenciais dos rankings, os gráficos (apresentados abaixo de cada discussão) serão suficientemente informativos.↩︎

  4. Essa tendência se apresenta também nos n-gramas de maior cardinalidade, bem como no subdomínio das c-letras e mesmo no nível das r-palavras e c-palavras, como veremos.↩︎

  5. Como discutido acima, as diferenças de percentuais e de totais de combinações entre os corpora traz complexidade e novos relevos para a avaliação dos 2-gramas (bem como para os demais casos), uma perspectiva que deixaremos para futuras abordagens do assunto.↩︎

  6. Também no corpus global da MPB.↩︎

  7. Evidentemente, esse argumento não deve ser considerado como uma conclusão, mas como um ponto de partida para uma possível linha de investigação. Afinal, o fato evidenciado dá conta apenas dos 2-gramas de r-palavras mais recorrentes.↩︎

  8. Todos os repertórios com 2-grama preferencial pp evoluem para ppp, com a exceção do Samba, que apresenta uuu como mais recorrente.↩︎

  9. Chama a atenção o fato de que os movimentos escalares replicados também são preferenciais no controle Jazz, mas em sentido ascendente (PPPP).↩︎

  10. No conjunto MPB, o valor é ainda menor, 0.2%.↩︎