segunda-feira, 28 de junho de 2010

1303 - HISTÓRIA DO LIVRO

UNIVERSIDADE DE SÃO PAULO
Instituto de Ciências Matemáticas e de Computação
ISSN - 0103-2569
____________________________________________________________
Web como um córpus versus córpus tradicionais:
uma avaliação da aplicabilidade na construção da Wordnet.Br
Isa Mara da Rosa Alves
Sandra Maria Aluísio
N0 268
______________________________________________________________
RELATÓRIOS TÉCNICOS DO ICMC
São Carlos - SP
Jan/2006
2
Universidade de São Paulo - USP
Universidade Federal de São Carlos - UFSCar
Universidade Estadual Paulista - UNESP
Isa Mara da Rosa Alves
Sandra Maria Aluísio
NILC-TR-06-02
Janeiro, 2006
Série de Relatórios do Núcleo Interinstitucional de Lingüística Computacional
NILC - ICMC-USP, Caixa Postal 668, 13560-970 São Carlos, SP, Brasil.
Web como um córpus
versus córpus tradicionais:
uma avaliação da aplicabilidade na
construção da Wordnet.Br
3
Resumo*
O objetivo maior deste trabalho é verificar a metodologia mais adequada para a
localização de frases que exemplifiquem os conceitos expressos por unidades lexicais
polissêmicas do português do Brasil. Foi feita, portanto, uma análise das vantagens e
limitações do uso da Web como um córpus versus os córpus tradicionais. Foram avaliados os
recursos disponibilizados pela Linguateca para a manipulação do CórpusNilc, do WebCorp e
do buscador Google. Tendo em vista que as diferentes áreas de estudo envolvidas nesta
pesquisa - Semântica, Processamento Automático da Língua Natural (PLN) e Lingüística de
Córpus -, a metodologia que norteia as reflexões aqui apresentadas fatora a busca de solução
para o problema em dois dos domínios mutuamente complementares previstos em Dias-da-
Silva (1996; 1998; 2003): (i) lingüístico e (ii) lingüístico-computacional. Por se tratar de um
trabalho exclusivamente de avaliação da usuabilidade de ferramentas e recursos
computacionais disponíveis para auxiliar na tarefa de construção de uma base de dados
lexicais do tipo wordnet, especificamente a Wordnet.Br, o terceiro domínio previsto pelo
autor, o domínio computacional, não foi previsto.
*Este trabalho contou com o apoio financeiro da CAPES.
4
Índice
1. Introdução........................................................................................................05
2. Objetivos..........................................................................................................07
2.1 Objetivo Geral.........................................................................................................07
2.2 Objetivos Específicos...............................................................................................07
3. Metodologia ....................................................................................................08
4. Ferramentas e recursos computacionais utilizados..........................................09
5. Tarefas Realizadas...........................................................................................10
6. O que são wordnets e como está a Wordnet.Br?..............................................11
7. O fenômeno lingüístico em foco: graus de multiplicidade semântica.............13
7.1 Questões introdutórias..............................................................................................15
7.2 Graus de multiplicidade semântica...........................................................................15
7.2.1 Multiplicidade semântica lexical....................... ....................... ...........................16
7.2.1.1 Polissemia....................... ....................... ...........................................................16
7.2.1.2 Homonímia.........................................................................................................18
7.2.1.3 Vagueza ou Vaguidade.......................................................................................20
7.2.1.4 Uso conotativo da linguagem..............................................................................21
7.2.3 Ambigüidade intencional ou percebida.................................................................24
8 Análise de “abacaxi”.........................................................................................24
9. Córpus tradicionais....................... ....................... .....................................................27
9.1 O Córpus Nilc....................... ....................... ...........................................................27
9.2 Utilizando o Córpus Nilc. ....................... ....................... ........................................29
10. Web como córpus ....................... ....................... ....................................................31
10.1 Utilizando o Google....................... ....................... ...............................................33
10.2 O uso do WebCorp....................... ....................... ..................................................36
11. Conclusões e próximos passos....................... ....................... ..................................39
12. Referências Bigliográficas ............................................................. .........................41
5
1. Introdução
Há várias noções em Lingüística de Córpus sobre as quais ainda não se tem um
consenso. Sendo esse um ramo de estudo ainda em desenvolvimento, isso é compreensível.
Não há consenso sobre várias noções como a definição de córpus, a classificação de córpus,
padrões de anotação, etc. Nosso foco, neste trabalho, é a problemática relacionada à
aplicabilidade da Web como um córpus em comparação ao uso de córpus tradicionais.
O objetivo maior aqui é verificar a metodologia mais adequada para a localização de
frases que exemplifiquem os conceitos expressos por unidades lexicais polissêmicas do
português do Brasil. Para tanto, será apresentada uma análise das vantagens e limitações do
uso da Web como um córpus versus córpus tradicionais. Para essa avaliação, serão estudados
os recursos disponibilizados pela Linguateca para a manipulação do CórpusNilc, as
possibilidades do buscador Google e do WebCorp.
Tendo em vista que as diferentes áreas de estudo envolvidas nesta pesquisa -
Semântica, Processamento Automático da Língua Natural (PLN) e Lingüística de Córpus -, a
metodologia que norteia as reflexões aqui apresentadas fatora a busca de solução para o
problema em dois dos domínios mutuamente complementares previstos em Dias-da-Silva
(1996; 1998; 2003): (i) lingüístico e (ii) lingüístico-computacional. Por se tratar de um
trabalho exclusivamente de avaliação da usuabilidade de ferramentas e recursos
computacionais disponíveis para auxiliar na tarefa de construção de uma base de dados
lexicais do tipo wordnet, especificamente a Wordnet.Br, o terceiro domínio previsto pelo
autor, o domínio computacional, não foi previsto.
A motivação para a escolha deste tema de pesquisa se deve a aplicabilidade das
discussões apresentadas aqui em um trabalho maior, tese de doutorado, onde o tema é a
modelação lingüístico-computacional dos graus de multiplicidade semântica de nominais em
bases relacionais de dados lexicais do tipo wordnet.
Este trabalho toma como pressuposto básico a viabilidade técnica de se associarem os
synsets da base da Wordnet.Br a synsets equivalentes da base WordNet de Princeton, com
vistas à implementação de uma base bilíngüe inglês-português brasileiro. Estudos desse tipo
têm sido realizados pelas equipes ligadas à EuroWordNet e, para o português do Brasil, foi
apresentado por Dias-da-Silva (2005).
6
Há várias questões teóricas e práticas a serem tratadas neste relatório. Para facilitar o
entendimento, portanto, organizamos o trabalho da seguinte forma: apresentaremos em (2),
os objetivos; em (3), a metodologia; em (4), as ferramentas e recursos computacionais
utilizados; em (5), as tarefas realizadas; em (6), as wordnets e a Wordnet.Br; em (7), o
fenômeno lingüístico em foco: graus de multiplicidade semântica; em (8), uma análise de
“abacaxi”; em (9), os córpus tradicionais, onde trataremos do Córpus Nilc; e, em (10), por
fim, o foco é a Web como córpus, onde falaremos sobre o Google e sobre o WebCorp.
7
2. Objetivos
2.1 Objetivo Geral
Verificar a metodologia mais adequada para a localização de frase-exemplo para os
conceitos expressos por unidades lexicais polissêmicas do português do Brasil para a
construção de uma base de dados do tipo wordnet a partir da avaliação comparativa dos
resultados fornecidos pela busca no CórpusNilc, na Web através do Google e do WebCorp.
2.2 Objetivos Específicos
- Extrair os synsets da WN referentes ao domínio em questão, alimentação;
- Analisar os synsets e escolher o que servirá de exemplo para a verificação da metodologia
proposta;
- Estabelecer equivalências dos conceitos lexicalizados em inglês nos synsets da WN de
Princeton com sua lexicalização em português com synsets que serão integrados na Wn.Br.
- Redigir uma glosa para cada synset analisado, tomando como base aquela fornecida pela
WN de Princeton.
- Gerar, para cada conceito materializado através das unidades lexicais integrantes do synset
selecionados, sua respectiva frase-exemplo utilizando os três recursos: CórpusNilc, Google,
WebCorp.
- Avaliar a metodologia mais adequada para a geração de frases-exemplo para os conceitos
da Wn.Br: CórpusNilc, Google, WebCorp.
- Avaliar a aplicabilidade das frases-exemplo e a boa formação dos synsets, verificando se
todas as unidades lexicalizam um mesmo conceito. Para tal análise, testa-se a possibilidade
de intercâmbio de todas as unidades lexicais candidatas a comporem os synsets na(s) frase(s)
em questão.
8
3. Metodologia
Tendo em vista que as diferentes áreas de estudo envolvidas nesta pesquisa -
Semântica, Processamento Automático da Língua Natural (PLN) e Lingüística de Córpus -, a
metodologia que norteia as reflexões aqui apresentadas fatora a busca de solução para o
problema em dois dos domínios mutuamente complementares previstos originalmente em
Dias-da-Silva (1996): (i) lingüístico e (ii) lingüístico-computacional. Por se tratar de um
trabalho exclusivamente de avaliação da usuabilidade de ferramentas e recursos
computacionais disponíveis para auxiliar na tarefa de construção de uma base de dados
lexicais do tipo wordnet, especificamente a Wordnet.Br, o terceiro domínio previsto pelo
autor, o domínio computacional, não se aplica.
No domínio lingüístico, o foco é a compreensão do que se entende por multiplicidade
semântica e esboçaremos uma primeira proposta de delimitação das diversas denominações
encontradas na literatura. Esta fase do estudo busca o estabelecimento de um recorte teóricometodológico
consistente e capaz de instrumentalizar a descrição formal desse fenômeno.
Ainda neste domínio é que será delimitado o conjunto de nominais que serão alvos do
trabalho empírico e estabelecidas as equivalências de um conjunto de synsets da WordNet de
Princeton (WN) com os possíveis synsets da Wordnet.Br (Wn.Br).
No domínio lingüístico-computacional, o objetivo é propor uma metodologia para a
localização de frases-exemplo para os conceitos da Wn.Br. Para a realização de tal tarefa será
analisado o desempenho do Córpus Nilc (disponibilizado pela Linguateca), do Google e do
WebCorp.
9
4. Ferramentas e recursos computacionais utilizados
Para a realização desta avaliação apresentada aqui foram utilizadas as seguintes
ferramentas:
I. Dicionário bilíngue:
(a) Webster (eletrônico e impresso)
(b) Michaelis (eletrônico)
II. Dicionário monolíngue Português do Brasil:
(a) Houaiss (eletrônico)
(b) Dicionário de Usos do Português do Brasil (impresso)
(c) Aurélio (eletrônico)
(d) Michaelis (impresso)
III. WordNet Princeton
IV. Ferramenta/recursos de disponibilização/manipulação de córpus:
(a) Linguateca
(b) WebCorp
V. Córpus:
(a) Córpus Nilc
VI. Sistemas de busca
(a) AllTheWeb
(b) Google
10
5. Tarefas Realizadas
(i) Domínio Lingüístico:
(a) Extração dos synsets da WN referentes ao domínio em questão,
alimentação;
(b) Análise dos synsets e escolher o que servirá de exemplo para a verificação
da metodologia proposta;
(c) Estabelecimento de equivalências dos conceitos lexicalizados em inglês nos
synsets da WN de Princeton com sua lexicalização em português com synsets que serão
integrados na Wn.Br com auxílio dos dicionários referidos na seção (4).
(d) Redação de uma glosa para cada synset analisado, tomando como base
aquela fornecida pela WordNet de Princeton.
(ii) Domínio lingüístico-computacional
(e) Geração, para cada conceito materializado através das unidades lexicais
integrantes dos synsets selecionados, sua respectiva frase-exemplo utilizando os três
recursos: CórpusNilc, Google, WebCorp.
(f) Avaliação da metodologia mais adequada para a geração de frases-exemplo
para os conceitos da Wn.Br: CórpusNilc, Google, WebCorp.
(g) Avaliação a aplicabilidade das frases-exemplo e a boa formação dos synsets,
verificando se todas as unidades lexicalizam um mesmo conceito. Para tal análise, testase
a possibilidade de intercâmbio de todas as unidades lexicais candidatas a comporem
os synsets na(s) frase(s) em questão.
11
6. As wordnets e a Wordnet.Br?
As wordnets (de Princeton, a EuroWordNet e a WordNet.Br) são bases de
dados lexicais de orientação lingüística. Wordnets são redes de palavras cujas
arquiteturas foram construídas sob o viés de recentes teorias lingüísticas e
psicolingüísticas da memória lexical humana que se propõem a descrever e explicar
como a informação é armazenada de modo econômico no cérebro.
Nas wordnets, os termos encontram-se organizados hierarquicamente em
synsets, de acordo com relações léxico-conceituais existentes entre eles. Vossen (1997)
explica que synsets são grupos de palavras com a mesma classe gramatical que podem
ser substituídos em algum contexto. Trata-se de uma noção bastante larga de sinonímia.
Por exemplo, o grupo {carro, auto, automóvel, máquina}. Cada synset refere-se a um
mesmo conceito e é definido por uma glosa; por exemplo, o conceito “veículo de quatro
rodas” é definido como algo que “movimenta-se usualmente pela combustão interna do
motor”.
As wordnets assemelham-se aos dicionários comuns na medida em que
apresentam glosas e aos tesauros na medida em que são organizadas a partir de
sinônimos. Seu grande diferencial é o fato de organizarem suas bases lexicais a partir de
relações semânticas ou conceituais, e não seguindo uma ordenação alfabética. As
wordnets adotaram essa organização com o intuito de apresentar o léxico em uma
organização inspirada na que seria a do léxico mental, conforme mostram teorias
psicolingüísticas. Como é possível percebermos no sistema, essa proposta inicial é
corrompida, de certo modo, ao apresentar recursos como “glosa”. Contudo, isso não
afeta de forma alguma o mérito e a qualidade desse léxico computacional, até porque
facilita a interação da ontologia com humanos. Por apresentar tal estrutura, essas bases
de dados lexicais podem ser aproveitadas para a construção de sistemas dedicados ao
PL N. O quadro abaixo mostra as principais relações léxico-conceituais existentes nas
wordnets:
12
Figura 1 - Relações Léxico-Conceituais wordnets1
Cada synset da EuroWordNet (EWN) – base de dados multilingüe – é
relacionado a um synset semanticamente mais próximo da WordNet de Princeton (WN),
que funciona como uma interlíngua. Cada língua da EWN constrói seus synsets
separadamente e, posteriormente, compara com os da WN de Princeton. Sempre que
necessário, é feita uma reestruturação na rede para estabelecer as equivalências entre as
bases lexicais. Os dados resultantes dessa comparação entre wordnets são salvos em
uma base de dados comum a todas as wordnets, chamada de Índice Interligual (do
Inglês: ILI – Inter-Lingual-Index). A partir das relações de equivalências estabelecidas
no ILI, é possível ir de uma wordnet para outra, bem como comparar os synsets e suas
relações entre as diferentes línguas. Com base nessa proposta e nos resultados positivos
apresentados em Dias-da-Silva (2005) para a equivalência WN Princeton e Wn.Br, é
que definimos a metodologia para esse nosso trabalho partindo da “tradução” (ou do
estabelecimento de equivalências).
Esse conhecimento lingüístico descrito nas wordnets pode ter várias aplicações,
enfatiza Vossen (1997). Serve, por exemplo, para realizar inferências semânticas (ex.:
identificar que coisas podem ser usadas como veículos); para encontrar expressões que
podem ser intercambiáveis em determinado contexto (ex.: identificar que palavras
podem se referir a veículos); para explicitar a relação semântica não apenas entre
palavras, mas entre grupos de palavras (ex.: recuperação de informações monolíngüe ou
multilíngüe); para transferir informações de uma wordnet para outra; para dar
informações sobre padrões lexicais entre diferentes línguas (ex.: informações úteis para
tradução automática e sistemas de aquisição de conhecimento); para fornecer
informações sobre itens lexicais equivalentes semanticamente; para dar uma visão geral
da expressão, a qual não é possível se ter em recursos tradicionais alfabeticamente
organizados; para recuperar informação em sistemas de pergunta e resposta; para
1 Sistematização apresentada em Dias-da-Silva (2005).
13
reconhecer fala em sistemas inteligentes; para comparar wordnets, sendo que tal
comparação pode dizer algo sobre a consistência das relações entre wordnets, em que as
diferenças podem apontar para inconsistências ou para propriedades específicas de
determinada língua ou também para propriedades gerais das línguas. Como se pode ver,
uma base de dados como as wordnets é uma poderosa ferramenta para o estudo de
recursos lógico-conceituais e especificações da língua.
Verdejo et al. (1999) mencionam que o projeto EWN tem especial interesse na
aplicação de sua base de dados para recuperação de informação (RI) e que a WN tem
ampliado sua estrutura para incluir informações, como rótulos de domínio, o que é
especificamente interessante para a tarefa de recuperação de informação de textos.
Para encerrar a seção, apresentaremos alguns dados numéricos que mostram o
estágio de desenvolvimento em que se encontra a Wn.Br (iniciada em 2002) em
comparação com a de Princeton (iniciada em 1985): a WN de Princeton possui 78 mil e
500 unidades lexicais distribuídas em 94.000 substantivos; 10.000 verbos; 20.000
adjetivos; 4.500 advérbios), a Wn.Br possui 44 mil unidades lexicais distribuídas em
(11.000 verbos, 15.000 substantivos, 16.000 adjetivos e 1.000 advérbios), em cerca de 20
mil synsets2. Em relação aos números vê-se um certo equilíbrio considerando que o trabalho
até agora tem sido todo feito manualmente. A grande diferença entre as bases é que a
Wn.Br possui apenas relações de antonímia e sinonímia para todas essas entidades e iniciase
o estabelecimento manual de equivalências entre a base Br e a de Princeton. A idéia é
que, feito esse mapeamento entre as bases sejam geradas automaticamente as possíveis
relações léxico-conceituais entre synsets para que o humano apenas confira sua validade e
traduza.
7. O fenômeno lingüístico em foco: graus de multiplicidade semântica
Como já foi dito na introdução deste trabalho, este relatório técnico descreve um
exercício de construção de parte da Wn.Br que fornecerá elementos para a parte
aplicada de um trabalho maior que está sendo realizado, tese de doutorado. Tendo em
vista esse contexto maior, o foco de análise aqui são os nominais que remetem a
múltiplos sentidos. No caso específico da wordnet, trata-se de uma forma lexical que
2 Dados apresentados em Dias-da-Silva (2005).
14
está associada a mais de um conceito. Sendo assim, do conjunto de synsets extraídos da
WordNet de Princeton relacionados ao domínio semântico alimentação (ou seja,
hipônimos de food), selecionamos a unidade lexical abacaxi por ser bastante rica para
análise.
A multiplicidade semântica é um tema bastante já estudado; porém, observa-se
uma profusão de denominações para esse fenômeno de natureza léxico-semântica que
não dão conta da descrição e explicação das propriedades semânticas expressas na
língua. “Multiplicidade semântica” foi o rótulo bastante genérico que escolhemos para
abranger um conjunto de fenômenos apresentados na literatura de maneira confusa e
sobreposta. Polissemia, polissemia complementar, lógica ou contrastiva, homonímia,
vagueza, vaguidade, subespecificação são alguns deles. Em estudo prévio que
realizamos em 2003, chegamos a algumas conclusões sobre como organizar essas
denominações de maneira coerente com os fenômenos da língua. Tal pesquisa será
tomada como base para as pesquisas a serem feitas no âmbito da tese no intuito de
instrumentalizar a descrição formal desse fenômeno. Neste relatório técnico
apresentaremos uma síntese de Alves (2003) que contribuirá para compreender a
semântica do nominal selecionado para os testes.
Abaixo apresentamos uma figura que sintetiza os estudos realizados e permite
que delimitemos o tipo de problema a ser focalizado aqui. Observe:
Figura 1 – Graus de Multiplicidade Semântica
15
Tendo em vista a motivação deste trabalho, a contribuir para a construção da
Wn.Br, o foco será dado à modelagem dos graus de multiplicidade semântica com
origem no léxico, sejam elas intencionais ou não.
7.1 Questões introdutórias
Para uma melhor compreensão da organização proposta é importante que se leve
em consideração as áreas de estudo que servirão de base para a classificação adotada,
elas as grandes áreas, complementares, que dividem os estudos lingüísticos: Semântica,
a Pragmática e a Sintaxe.
Em breves palavras, pode-se dizer que a Pragmática é a área de estudo que leva
em conta a linguagem relacionada a uma determinada situação de uso, ou seja,
considerando o contexto extralingüístico. Um outro enfoque é dado pela Semântica
lingüística que analisa as propriedades lingüísticas do significado da linguagem de
forma independente de quem usa ou de como é usada determinada expressão,
enfatizando a carga semântica carregada pela palavra ou proposição. Destaca-se que não
há limites precisos entre essas abordagens de estudo da língua. Determinar em que
medida a significação está subordinada exclusivamente ao contexto ou é uma
propriedade intrínseca ao léxico nem sempre é possível; muitas divergências e
incompatibilidades teóricas se dão por essa questão. Além das visões da pragmática e
da semântica, a linguagem pode ser analisada sob o ponto de vista da sintaxe, a qual se
dedica à análise da função de cada elemento dentro da frase e da relação entre os
elementos na estrutura interna das frases. Contudo, todas as abordagens têm um objetivo
comum que é a busca da compreensão da língua, cada área sob seu enfoque.
7.2 Graus de multiplicidade semântica
A partir da análise das classificações da multiplicidade semântica estabelecidas
por diversos autores (como Cruse, 1986 e 2000; Kempson, 1977; Moura, 2002; Poesio,
1996; Pustejovsky, 1995), optou-se por sistematizá-los sob as três visões da significação
discutidas na seção anterior, a semântica, a sintaxe e a pragmática.
16
7.2.1 Multiplicidade semântica lexical
A multiplicidade semântica lexical compreende os casos que têm origem no
léxico, ou seja, aqueles casos de multiplicidade de sentidos que ocorrem quando a
própria palavra pode estar associada a mais do que um conceito.
7.2.1.1 Polissemia
A polissemia, em geral, é definida como a propriedade que uma palavra possui
de apresentar diferentes sentidos sem que os mesmos sejam opostos ou excludentes.
Os diferentes sentidos polissêmicos relacionam-se em maior ou menor grau dentro de
um mesmo sentido geral.
De acordo com a visão clássica da teoria do significado, apresentada por Moura
(2002), a qual propõe uma análise semântica diacrônica, a polissemia abrange os
casos de alternâncias de sentido que estão etimológica e semanticamente
relacionados. Sob essa visão, atribui-se ao uso metafórico da linguagem a principal
razão para o surgimento da polissemia na palavra. Como exemplo, apresentaremos a
palavra posição nos contextos abaixo:
(1) Estou cansado de ficar sentado nesta posição.
(2) Gostou da posição dos móveis na sala? (= disposição)
(3) Na posição em que estamos será difícil reverter a opinião do povo.
(4) Felipe atingiu uma boa posição na empresa.
(5) Esta é a minha posição.
Percebemos que os significados associados à palavra posição nas sentenças de
1-6 são diferentes. Sentimos a necessidade de em (1) interpretarmos posição no
sentido de postura córpusl; em (2) o foco é a disposição dos móveis num espaço
delimitado – a sala -; em (3) o sentido de posição refere-se à situação ou
circunstância em que o falante se encontra; em (4) a interpretação de posição focaliza
a situação hierárquica de Felipe na empresa; no último exemplo, (5), o significado
focalizado é de opinião. Contudo, ainda que seja necessário que se selecione um dos
significados associados à palavra posição, há alguma relação entre eles, ou seja, não
são totalmente excludentes, há em comum a noção de localização.
17
Mesmo dentro da categoria da polissemia, há palavras que apresentam uma
forma diferente e mais sutil de variação semântica. Este é o caso da polissemia
sistemática3 - também chamada de polissemia lógica, complementar ou regular -
grau de multiplicidade semântica que tem recebido especial destaque em recentes
estudos tanto em Semântica Lexical, quanto em Semântica Lexical Computacional.
Palavras sistematicamente polissêmicas apresentam uma alternância entre as
diferentes interpretações, porém, além de uma estar intimamente relacionada a outra,
elas co-ocorrem em uma mesma sentença. Portanto, as diferentes nuances no
significado de determinada unidade lexical podem estar presentes, mas uma é mais
proeminente do que as outras, uma delas é o foco da atenção. Como exemplo, temos
a palavra universidade nos contextos abaixo:
(7) A universidade está em festa.
(8) A universidade inicia em fevereiro.
(9) A universidade foi fundada há 31 anos.
(10) A universidade está em obras.
Em (1), o termo universidade focaliza o sentido comunidade acadêmicas da
universidade; em (2) o termo universidade focaliza o sentido atividades científicoacadêmicas
realizadas na universidade; em (3), o termo universidade focaliza o sentido
instituição universidade; em (4), o termo universidade focaliza o sentido estrutura física
da universidade. Isso mostra que a unidade lexical universidade não possui diferentes
significados, o que se nota é uma focalização maior em uma das particularidades
semânticas do sentido mais abrangente, instituição de ensino. A sistematicidade desse
tipo de polissemia se deve ao fato de que outras palavras apresentam o mesmo tipo de
variação semântica de universidade (pessoal, atividades, instituição, estrutura física),
como e o caso de escola, colégio, creche, berçário, etc. Para testarmos a sistematicidade
das referidas unidades lexicais basta substituirmos universidade nos contextos acima,
por qualquer uma das palavras (escola, colégio, creche, berçário); diz-se, então, que é
possível identificarmos classes de palavras que apresentam o mesmo tipo de variação
de sentido, no caso palavras que representam instituição educacional.
Este tipo de polissemia apresenta duas propriedades básicas: (i) os sentidos não
são excludentes, razão pela qual Pustejovsky (1995) denomina-a de polissemia
3Como chamaremos o fenômeno daqui para frente.
18
complementar; (ii) o mesmo tipo de variação de sentido pode ser encontrado em
várias outras palavras, diz-se que é possível identificar classes de palavras que
apresentam o mesmo tipo de variação, por isso este fenômeno é chamado de
polissemia sistemática ou regular4. Para que se possa comprovar a propriedade
regular da polissemia sistemática, basta substituir a palavra universidade, nos
exemplos (7-10)¸ por qualquer outro termo que represente lugar, como escola,
biblioteca, fábrica etc. Como será possível perceber, estas palavras apresentarão
tipos de variação semântica semelhantes ao caso de universidade.
Como dissemos previamente, encontram-se, na literatura, conceitos sobrepostos
ou divergências entre autores no que se refere à classificação dos diferentes graus/tipos
de multiplicidade semântica. Exemplo disso temos na classificação apresentada por
Cruse (2000) e Pustejovsky (1995) para o fenômeno abaixo exemplificado:
(10) Passe por aquela porta.
(11) Tire as dobradiças da porta.
Em (10), a unidade lexical porta remete ao significado de porta como uma
abertura através da qual se pode passar, sentido abstrato de porta (passagem). Em (11),
a mesma palavra remete ao sentido de objeto físico porta, ou seja, sentido concreto de
porta, a qual pode ser de madeira, de ferro, de vidro, etc. Seguindo as considerações de
Cruse (2000), em (10), há um caso de automeronímia, pois a parte (abertura) é tomada
pelo todo. Já Pustejovsky (1995) considera este um caso de polissemia sistemática, por
apresentar uma variação entre os sentidos concreto e abstrato, tal como outras palavras
(ex.: janela, portão, cancela).
7.2.1.2 Homonímia
A homonímia, ou polissemia contrastiva, ocorre quando um item lexical carrega
dois significados distintos que apresentam a mesma forma gráfica e/ou fonológica.
Diacronicamente, a homonímia distingue-se da polissemia pela origem das palavras.
Palavras homônimas, ao contrário das polissêmicas, caracterizam-se por serem
4 Por falta de espaço não apresentaremos aqui, mas Cruse (2000), Chishman (2000), Pustejovsky (1995) e
Weinreich (1964) vão mais a fundo no estudo da sistematicidade da multiplicidade de sentidos e tratam
da sistematicidade existente em relações semânticas que apresentam uma certa vagueza de significado.
Estudo que contrasta com o tipo de multiplicidade apresentado por Kempson (1977) como caso de
vaguidade – a ser tratado mais adiante.
19
etimologicamente sem relação, ocorrendo apenas a mesma forma gráfica
acidentalmente.
Na literatura apresentam-se diferentes critérios para definir homonímia. Por se
tratar de um estudo sincrônico do significado, como definição de base, será considerada
aqui a seguinte: “A situação na qual um item lexical é associado com ao menos dois
sentidos diferentes sem relação entre si” (Pustejovsky & Bouguraev, 1996, p. 2). Esta
definição vem a justificar a denominação dada por Pustejovsky (1995) a este fenômeno
de multiplicidade semântica: polissemia contrastiva.
Caso clássico de homonímia sem mudança categorial entre nominais tem-se em
banco, a qual apresenta dois sentidos claramente contrastivos provenientes de distintas
origens: (a) do germânico: bank, oriunda do latim vulgar, significando assento; e (b) do
italiano banco, significando instituição financeira. A homonímia entre os verbos é ainda
mais representativa do que entre os nominais. Observe o exemplo abaixo de suspender
(elevar ou privar-se de):
Figura 2 – Homonímia: Suspender5
O uso da polissemia contrastiva em textos de humor é bastante freqüente6. Como é
o caso do expresso na figura acima, o sentido pretendido pelo médico era o de privar-se
de e o selecionado pelo paciente (Radicci) foi o de elevar.
A análise desse exemplo permite perceber quatro características típicas do
fenômeno da homonímia. Percebemos que (i) as palavras homônimas possuem mais de
um sentido; (ii) o significado se dá através da interpretação da palavra em si dentro do
5 Fonte: arquivo pessoal do professor Dr. Marcos Goldnadel da UNISINOS (RS), não consta a data.
6 Trata-se aqui de um caso de polissemia intencional, da qual trataremos mais adiante.
20
contexto da frase; que (iii) há um número relativamente determinável de significados
que se restringe às possibilidades semânticas do léxico; por fim e decisivamente
conclui-se que (iv) não há relação semântica entre os significados e que eles são
mutuamente excludentes. Tem-se, então, a comprovação de que entre homônimos não é
possível estabelecer um sentido de base – como na polissemia –, pois os sentidos são
totalmente incompatíveis, ou seja, contrastantes.
7.2.1.3 Vagueza ou Vaguidade
A fonte do fenômeno da vagueza ou vaguidade encontra-se no limite entre o
léxico e o contexto. Pode-se considerar que uma palavra é vaga quando não é possível –
apenas com as informações fornecidas por ela, ou seja, no léxico – recuperar seu
referente ou sentido com precisão. Kempson (1977) diz que a vagueza ocorre quando
uma palavra gera casos duvidosos de aplicação a certos seres ou situações.
Um primeiro tipo de vagueza ou vaguidade é o clássico caso da palavra bom, que
deixa em aberto diferentes interpretações. A autora explica que o termo é vago, ou não
especificado, em função de uma multiplicidade de critérios de definição – bom x ruim –
diferentes interpretações podem ser evocadas num contexto. O que é bom para uma
pessoa pode não ser para outra; além disso, dependendo do nome ao qual o adjetivo
estiver relacionado, ele tomará rumos semânticos distintos. Para Pustejovsky (1995),
adjetivos como bom devem ser considerados caso de polissemia complementar – ou
seja, um termo que não é contrastivamente ambíguo – porque apresenta um diferente
sentido dependendo do nome o qual está modificando.
Um segundo tipo de vagueza ocorre com aquelas palavras que envolvem uma
escala de aplicação, gerando também casos duvidosos no limite definido por essas
palavras. São consideradas palavras vagas em função da indefinição dos limites da
escala a que elas referem. Este é o caso de “morro” e “montanha”, há vagueza no limite
para um acidente geográfico deixar de ser considerado um “morro” e passar a ser
considerado uma “montanha”.
Para o uso da língua, a desambiguação é necessária no caso da homonímia, mas
não no caso da polissemia e da vagueza por relacionarem em maior ou menor grau
sentidos complementares. Por outro lado, no que se refere a tradução entre línguas, ou
ao processamento automáticos da língua a desambiguação torna-se necessária na maior
21
parte dos casos. Daí a grande importância do estudo da multiplicidade semântica
aplicado ao PLN.
A oposição entre vagueza e polissemia é relevante não apenas do ponto de vista
prático, mas principalmente do ponto de vista teórico; no entanto, é ainda uma questão
em aberto na literatura sobre o assunto. Do ponto de vista prático, ela permitiria ao
lexicógrafo definir que acepções inserir na rede de acepções associadas a um item
lexical, ou então, inserir no léxico algumas propriedades semânticas, como as previstas
na estrutura qualia7, nível de representação proposto por Pustejovsky (1995), relevantes
para a produção sistemática de novos sentidos.
Contudo, Moura (2002) salienta que a diferença entre a vagueza e a polissemia
não se reduz a um mero debate terminológico. O tipo de recorte a ser estabelecido entre
esses dois tipos de indeterminação semântica depende de uma série de decisões teóricas
por parte do lingüista. Tais como o papel reservado para a representação lexical e a
função atribuída ao contexto na determinação dos sentidos lexicais. De um modo geral,
a questão a ser abordada é a diferença entre o sentido lexical que é representado no
léxico (polissemia) e o sentido lexical que é gerado pelo contexto extralingüístico
(vagueza). No debate semântico atual, há pelo menos duas maneiras divergentes de
tratar a indeterminação de sentidos lexicais. Essas duas maneiras propõem papéis
diferentes para o léxico e para o contexto. Ou elas propõem uma carga maior nas
funções do léxico, ou uma na função do contexto. Salienta-se que a decisão se a
polaridade da produção de sentidos lexicais se dirige para o léxico ou, alternativamente,
para o contexto dependerá da perspectiva teórica adotada.
7.2.1.4 Uso conotativo da linguagem
Nesta seção serão estudadas tanto palavras quanto expressões que variam entre o
seu sentido literal e o conotativo. A maioria dos significados polissêmicos, sob um
enfoque diacrônico - conforme dito anteriormente -, tem origem na metáfora. Ela é
7 A estrutura qualia é parte da Teoria do Léxico Gerativo proposta por Pustejovsky (1996). Nela estão
previstos papéis temáticos aos nominais em quatro níveis. Ou seja, as palavras aparecem definidas de
acordo com os quatro papéis: no nível constitutivo incluem-se informações referentes a relação entre um
objeto e seus constituintes; no nível formal representa-se a relação que distingue um objeto dentro de um
domínio mais amplo; no nível télico representa-se o objetivo e a função do objeto; no nível agentivo são
representados fatores envolvidos na origem do objeto; fatores que dizem como esse objeto apareceu,
nasceu ou foi constituído. Maiores informações podem ser encontradas em Chishman (2000), fonte desta
explicação, e Pustejovsky (1996).
22
considerada por Cruse (2000) como um caso de “polissemia não-linear”, isso porque
não liga palavra a palavra, mas sim, uma palavra a conceitos que foram a ela
associados por semelhança. Determinado item lexical adquire duplo sentido por meio do
uso metafórico através de alguma comparação mental que é feita em um dado momento
da história da língua e acaba sendo incórpusda no léxico.
Embora nosso foco aqui sejam os nomes, apresentaremos abaixo mais um caso de
multiplicidade semântica de verbos que brinca com os dois sentidos da palavra pegar:
(1) conseguir e (2) agarrar.
Figura 3 – Uso Conotativo: pegar8
Como se pode perceber, os sentidos (1) conseguir e (2) agarrar estão lado a lado
na situação expressa na figura 2, isso porque cada uma das personagens seleciona um
dos contextos semântico de pegar. A personagem que faz a primeira observação referese
ao sentido (1) conseguir, enquanto a segunda interpreta como o sentido (2) agarrar.
Da mesma forma que os itens lexicais acima apresentam variação semântica entre
o uso literal e o conotativo, as expressões idiomáticas também têm esse comportamento.
Em geral, as palavras que formam as expressões idiomáticas apresentam um sentido se
interpretadas separadamente e outro considerando o conjunto, a expressão. No entanto,
conforme salienta Arnold et al. (1994) – autor comprometido como processamento da
linguagem humana –, essa não é uma regra.
8 Fonte: ver nota 5.
23
Alvarez (2000) observa que as expressões idiomáticas refletem claramente o lado
dinâmico da língua devido a sua adaptação constante às necessidades de comunicação
do momento, tanto que muitas vezes desaparecem logo depois do seu surgimento.
Entretanto, outras ficam e se incórpusm ao vocabulário de determinada língua. A autora
salienta que a interpretação de tais expressões é totalmente dependente do contexto
sociocultural e lingüístico particular de cada comunidade. Observe-se no anúncio
publicitário a seguir o emprego da expressão dar as costas.
Figura 4 – Expressão Idiomática: “dar as costas”9
A expressão dar as costas, em nosso cotidiano brasileiro atual, pode significar
tanto virar de costas quanto ignorar. O estranhamento que causaria a interpretação de
alguém estar anunciando que vai abandonar uma causa muito importante é utilizado
como estratégia publicitária para chamar a atenção do público. Entretanto, esse
estranhamento do leitor – causado pela ambigüidade da expressão – ocorre apenas em
um primeiro momento, pois, ao observar os demais elementos do anúncio, o leitor volta
e refaz a sua interpretação, recuperando a idéia de que a LZBus é uma empresa de
ônibus e que a mensagem ali expressa é que a empresa permitirá a publicação “nas
costas” dos ônibus de sua frota. Também há a possibilidade de esse estranhamento não
acontecer, pois o leitor pode já saber que a LZBus é uma empresa de ônibus e, portanto,
selecionar direto a segunda interpretação. Ou ainda, a desambiguação pode se dar de
forma equivocada se o leitor não buscar os elementos do co-texto, ou seja, informações
que se encontram junto ao texto para a interpretação.
9 Fonte: ver nota 5.
24
7.2.3 Ambigüidade intencional ou percebida
Analisa-se o caso da ambigüidade percebida ou intencional como uma seção à
parte, pois esse é um tipo de multiplicidade semântica que pode ter qualquer uma das
fontes de ambigüidade mencionadas: léxico, sintaxe, pragmática. O que caracteriza esse
fenômeno não é a fonte da ambigüidade, mas a intencionalidade do falante em fazer
com que o leitor perceba a ambigüidade de determinada frase. Essa é uma propriedade
bastante simples do fenômeno da multiplicidade de sentidos, portanto, para
exemplificarmos faremos apenas referências aos exemplos já comentados sobre as
figuras 2-4.
Dentre os autores estudados, Poesio (1996), informata, é o único que trata desse
tipo de ambigüidade como um fenômeno em especial. O autor explica que a
ambigüidade intencioal/percebida, a qual é resolvível no contexto, presta-se a diferentes
propósitos com a publicidade e o humor conforme vimos nos referidos exemplos.
8 Análise de “abacaxi”
Conforme previsto na metodologia deste trabalho, a primeira tarefa refere-se a
seleção do synset com o qual vamos trabalhar. A extração dos synsets da WN referentes
ao domínio em questão, foi feita executando o comando expresso na figura abaixo:
Figura 5 – Prompt de comando Ms-Doss
Através da linha de comando torna-se mais simples e rápida a consulta ao WN,
pois já é possível que seja gerado um arquivo com o conjunto de synsets solicitados.
Neste caso, solicitamos que todos os hipônimos de food fossem enviados para um
arquivo de nome saída0.txt (esse nome obviamente poderia ser melhorado). De posse
desses dados analisamos os synsets e escolhemos os correspondentes à abacaxi. Eles
são dois, conforme ilustramos com a figura abaixo:
25
Figura 6 – WordNet de Princeton: “pineapple”
O próximo passo é estabelecer a equivalência dos conceitos lexicalizados em
inglês nos synsets da WN de Princeton (figura acima) com sua lexicalização em
português com synsets que serão integrados na Wn.Br com auxílio de dicionários
bilíngües e monolíngues referidos na seção (4).
Nos dicionários bilíngües (ing.,port), pineapple, do inglês, remete aos seguintes
termos em português abacaxi, ananás, ananaseiro, abacaxizerio; ou como gíria, bomba,
granada de mão.
Abacaxi é uma palavra bastante rica semanticamente devido à multiplicidade de
sentidos a que remete. Conforme classifica Borba (2002), abacaxi apresenta duas
variações sistemáticas entre contável e não-contável, e, concreto e abstrato. O sentido
contável e concreto remete tanto ao fruto em si quanto à planta adulta do abacaxi
(equivalente a abacaxizeiro). O sentido não-contável remete ao fruto considerado como
substância. O sentido abstrato de estado, considerado coloquial remeta a tudo o que é
indesejável e perigoso, coisa complicada e trabalhosa; ou coisa ruim.
Com base no que discutimos na seção anterior, poderíamos dizer que se trata de
um caso de polissemia sistemática, pois há um conjunto de palavras que apresentam os
mesmos tipos de variação entre concreto/abstrato, contável/não-contável. Sobre seu
sentido abstrato - mais especificamente, abstrato de ação – observamos o caso de uso
conotativo da linguagem que foi abarcado pela língua e já está dicionarizado.
Analisados semanticamente abacaxi, a tarefa agora representar os synsets do
português com suas respectivas glosas e equivalências com os synsets do inglês. A
conclusão vem expressa no quadro a seguir:
26
Quadro 1 – Equivalências synsets WN de Princeton e Wn.Br
Esse exercício mostrou quão complexa é a tarefa de construção de synsets e de
estabelecimento de equivalências entre o português do Brasil e o Inglês. Como pudemos
perceber, os padrões de lexicalização entre o inglês e o português variam muito, de dois
synsets da WN de Princeton, geramos sete para a Wn.Br. É uma tarefa interessantíssima
para o lingüista; porém, muito custosa por necessitar ser um trabalho totalmente manual,
pelo menos na etapa aqui descrita.
27
Nas seções 8 e 9 trataremos dos recursos/ferramentas utilizada para a busca de
frases-exemplo para os synsets expressos no quadro acima.
9. Córpus tradicionais
A realização de pesquisas sobre textos falados ou escritos não é fato restrito à
lingüística de córpus. De fato, conjuntos de textos, ou textos individuais são
freqüentemente utilizados por muitos tipos de pesquisas e análises lingüísticas.
Contudo, conforme defendem McEnery e Wilson10, a noção de “córpus” como base
para uma forma de pesquisa lingüística é diferente da análise totalmente manuais feitas
em textos de diferentes formas e seguindo diferentes fundamentos teóricos.
Os autores comentam que, em princípio, qualquer coleção de um ou mais textos
podem ser chamadas de córpus (no sentido original do Latin, córpus significa corpo,
então um córpus é qualquer córpus de textos). Mas o termo córpus quando usado em
um contexto da moderna lingüística tende mais freqüentemente a ter certas
características mais específicas do que essa simples definição. Segundo McEnery e
Wilson, são elas: amostragem e representatividade; tamanho finito; formato legível por
máquina; servir como referência padrão para determinada comunidade lingüística.
Não iniciaremos aqui uma discussão que seria longa confrontando as diferentes
opiniões dos lingüistas de córpus. Tomaremos como referência de conceito tradicional
de córpus a expressa pelos referidos autores. Com base nessas característica, é que
selecionamos como exemplar de córpus tradicional o CórpusNilc, a ser descrito na
seção seguinte.
9.1 O Córpus Nilc
O Córpus Nilc possui 40 milhões de palavras distribuídas em textos
jornalístico, didático, epistolar e redações de alunos em português do Brasil. Há um
conjunto de textos corrigidos, outro semi-corrigidos e não corrigidos. A correção foi
feita principalmente no âmbito do projeto ReGra11 e é disponibilizado em
http://acdc.linguateca.pt/acesso/ ou feito o download em
http://www.nilc.icmc.usp.br/nilc/tools/córpus.htm. Os textos para download encontram-
10 http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/córpus2/2fra1.htm
11 Inoformações sobre o ReGra pode-se ter em http://www.nilc.icmc.usp.br/nilc/projects/regra.htm
28
se em vários arquivos em formato de texto, numa estrutura de diretorias indicando a
fonte.
O projecto AC/DC (Acesso a córpus/Disponibilização de córpus) tem como
objetivo tornar o acesso a córpus em português mais fácil. Os córpus estão codificados
no sistema IMS córpus workbench, para o qual foi desenvolvida a interface na rede. Os
córpus foram anotados com o analisador sintático de Eckhard Bick, o PALAVRAS
(córpus anotados). Dada uma expressão de procura, pode obter concordâncias ou a
distribuição dos resultados.
Abaixo apresentaremos uma tabela que retrata os dados quantitativos do Córpus
Nilc12:
Córpus SAOCARLOS Número de formas Número de tipos
Unidades 41372943 457556
Total de palavras 32091996 433030
Palavras em minúscula 23217976 158261
Palavras com inicial maiúscula 4595495 127721
Palavras todas em maiúsculas 464974 22996
Números 427186 2978
Palavras com números 38568 4379
Palavras mistas 98344 9267
Pontuação 2415505 24522
Tabela 1 – Dados quantitativos
Os textos disponíveis para download possuem as seguintes características: (i) as
primeiras linhas de cada arquivo foram classificadas como títulos; (ii) como subtítulos
foram identificadas linhas sem pontuação final todas em maiúsculas; (iii) no caso das
cartas comerciais, também a assinatura da carta foi marcada separadamente; (iv) cada
texto tem como identificação o nome do arquivo de que provém, o que dá alguma
indicação sobre o tipo de texto.
Uma reorganização desses identificadores criou uma nova versão das anotações.
Isso ocorreu devido a detecção de alguns textos repetidos. Possíveis alterações em
relação ao conteúdo dos textos que constituem o córpus são previsíveis. O atributo
12 Informações extraídas de http://www.linguateca.pt/
29
classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua
distribuição, correspondendo à versão 7.1, é a seguinte:
Tipo Descrição Tamanho
DI texto didáctico 423.893
ENC enciclopédia 283.838
ENS ensaio 2.177.193
EP texto epistolar 3.338
JO.* jornalístico 29.462.874
JOCF jornalístico só CETENFolha 29.462.874
JO jornalístico sem CETENFolha 29.462.874
LE texto legal 1.083.200
LI literário 919.628
RE revista 153.454
Tabela 2 – Tipo de texto, descrição, tamanho
O tamanho, na tabela anterior, é medido pelo número de unidades do córpus
com a classificação indicada. Mais detalhes sobre a anotação do córpus podem ser
obtidos no referido site do projeto.
9.2 Utilizando o Córpus Nilc.
Para utilizar o Córpus Nilc basta entrar no site da Linguateca e selecionar entre
os vários recursos lá disponibilizados, o “Acesso a recursos” e depois o “CetenFolha”.
Quando estiver visualizando o concordanceador, basta digitar uma palavra no campo de
busca e selecionar o “CórpusNilc/SãoCarlos”. Além das concordâncias, também é
possível ter acesso aos seguintes recursos para córpus anotado ou não:
Figura 7 – Opções Consulta Linguateca
Consultamos o córpus para a palavra abacaxi. Obtivemos o seguinte resultado:
102 ocorrências. Nessa etapa do trabalho, além de escolhemos as frases suficientemente
30
representativas do conceito lexicalizado nos synsets tivemos a preocupação de testar a
boa formação dos synsets através da substituição de cada uma das unidades lexicais do
synset nos contextos fornecidos pelas concordâncias. Dessa forma, abaixo serão
apresentadas as concordâncias selecionadas a fazerem parte do synset. Esses mesmos
procedimentos serão aplicados à análise do Google e do WebCorp. Tal tarefa serve,
portanto, para testar e fazer correções (quando for o caso) na etapa anterior, expressa no
quadro das equivalências entre os synsets da WN de Princeton e da Wn.Br13.
• Referente ao synset 1:
Exemplo:
par Cotidiano-94b-soc-1: A Associação dos Fruticultores da Paraíba e a Secretaria da
Agricultura estão implantando, em Mamanguape (51 km de João Pessoa) , um
projeto para a produção de 2,7 milhões de mudas de abacaxi tipo exportação .
• Referente ao synset 2:
Exemplo:
par 40593: - Trago abacaxi de Goiana e de todo o Estado rolete de cana .
• Referente ao synset 3:
Exemplo:
par Cotidiano-94a-soc-1: Os organizadores esperam vender cerca de 2.500 drinques
de frozen margarita e frozen Malibu (bebida à base de coco com abacaxi servida em
forma de sorvete) .
• Referente ao synset 4:
Exemplo:
par Brasil-94a-pol-1: O abacaxi que esse general pegou é do tamanho de uma safra
inteira .
• Referente ao synset 5:
Exemplo:
par 35117: O líder da bancada, José Anibal (SP) , ficou nas mãos com o abacaxi de
levar ao presidente a proposta que contraria a orientação do ministro da Fazenda,
Pedro Malan .
• Referente ao synset 6:
Exemplo:
par Brasil-94b-pol-1: Ele começou a se preparar para, segundo ele, «descascar o
maior abacaxi dessa CPI» .
• Referente ao synset 7:
Exemplo:
13 A descrição completa dos synsets foi expressa no quadro 1 (página 26).
31
par Cotidiano-94a-soc-1: O posto é visto como «um abacaxi» ..
O Córpus Nilc possibilitou com bastante rapidez que encontrássemos os
exemplos desejados. Sem que precisássemos analisar nem a metade das concordâncias
disponibilizadas já havia exemplos satisfatórios suficientes. A consulta ao Córpus Nilc,
portanto, nos deixou bastante satisfeitas. Os exemplos encontrados são muito bem
construídos e há várias concordâncias para um mesmo sentido da palavra.
10. Web como córpus
“A World Wide Web – ‘a Web’ ou ‘WWW’ para
encurtar -- (‘teia do tamanho do mundo’, traduzindo
literalmente) é uma rede de computadores na Internet que
fornece informação em forma de hipertexto. Para ver a
informação, pode-se usar um software chamado
navegador (browser) para descarregar informações
(chamadas "documentos" ou ‘páginas’) de servidores de
Internet (ou ‘sites’) e mostrá-los na tela do usuário. O
usuário pode então seguir os links na página para outros
documentos ou mesmo enviar informações de volta para
o servidor para interagir com ele. O ato de seguir links é
comumente chamado de ‘surfar’ [ou navegar] na web.”
(Fonte: http://pt.wikipedia.org/wiki/Web)
O protótipo de Tim Berners-Lee que deu origem a Internet foi criado mais ou
menos no início de 1989. O intento original do sistema foi tornar mais fácil o
compartilhamento de documentos de pesquisas entre os colegas14. Atualmente, a
Internet pode ser vista como um produto de criação coletiva que reflete os hábitos, os
costumes, as opiniões da sociedade, como um grande arquivo histórico, como uma
grande rede semântica etc. Como lingüista, de um modo geral, vejo a Web como um
imenso repositório gratuito de textos repleto de possibilidades de pesquisas. Seu uso
como um recurso para pesquisas em Lingüística e Lingüística de Córpus tem se tornado
cada vez mais comum, embora sua aplicação e aplicabilidade ainda seja motivo de
debates.
A definição de córpus não é algo unânime entre os estudiosos da área (ex.
SINCLAIR, 1991; ATKINS, CLEAR & OSTLER, 1992; McENECY & WILSON
1996; BERBER SARDINHA; 2004); no entanto, seja qual for a definição adotada, não
14 Fonte Wikipedia disponível em http://pt.wikipedia.org/wiki/CERN
32
há como negar que a Internet representa um tipo especial de córpus, pois não se tem
controle total do seu tamanho ou dos tipos de texto nela existentes, por exemplo. Por
razões como essas, há quem não a considere um córpus: “Clearly the Web is not a
córpus: it has obviously not been designed on linguistic principles (it hasn't been
designed at all).”15 (STUBBS, 2000)
Não há dúvidas de que o tema de considerar a Internet como um córpus é fato
polêmico. Vimos acima que, o lingüista alemão Michael Stubbs é radicalmente contra
considerar a rede WWW como um córpus. Já os lingüistas computacionais ingleses
Adam Kilgarriff e Gregory Grefenstette, são bastante otimistas ao analisar a
aplicabilidade da Web como um córpus em seu artigo da ACL 2003.
Stubbs (2000) questiona a validade de uso da Web como fonte verificadora de
dados lingüísticos. O lingüista apresenta algumas potenciais desvantagens: muitos
documentos ocorrem mais do que uma vez, apesar disso ser verdade também para
muitos dos córpus tradicionais; é um amplo repositório de dados escritos, no entanto, há
versões transcritas de certos textos sem que se tenha controle; nem todos os documentos
são escritos por falantes nativos, apesar disso poder não afetar certas análises; não se
tem a real noção da proporção de tipos de textos, nem de quantas palavras eles contém,
no entanto é possível estimar mais ou menos.
Por outro lado, Stubbs (2000) vê vantagens da utilização da Web como uma
“coleção de textos”, são elas: seu tamanho; sua atualidade; sua variedade em relação aos
tipos de texto; a probabilidade de encontrar certos “materiais” raros em córpus como
textos escritos não editados; mesmo sem ter a verdadeira noção do tamanho do todo da
coleção, qualquer exemplo individual (oração, colocação, etc) pode ser estudada em seu
co-texto completo; o autor diz ainda que a Web tem um alto potencial de ser
considerada fonte de córpus temporários e individuais para o estudo de certos padrões.
A forma mais comum de recuperar os textos que estão na rede é através dos
sistemas de busca. Há diferentes buscadores, analisaremos aqui os recursos disponíveis
e os textos disponibilizados do Google.
10.1 Utilizando o Google
15 Tradução minha: Certamente a Web não é um córpus: obviamente ela não foi projetada com os
princípios lingüísticos (ela nem mesmo foi projetada).”
33
A maioria dos sistemas de busca faz a recuperação de informações através da
simples identificação da seqüência de caracteres. Entretanto, a ferramenta de busca
Google, criada por Larry Page e Sergey Brin, estudantes Ph.D de Stanford em 1998, é
uma exceção a essa regra. No site do sistema,16 a equipe de administração explica que o
Google não utiliza apenas palavras-chave ou tecnologia de meta-busca.17 A ferramenta
é baseada em diferentes tecnologias, tais como a PageRank™, a qual prevê que os
resultados mais importantes para o domínio consultado apareçam no topo da lista. Essa
tecnologia possibilita que o sistema faça uma medição objetiva de importância das
páginas da Web através de um cálculo com uma equação de 500 milhões de variáveis e
mais de 2 bilhões de termos. O PageRank usa a enorme estrutura de links da Web como
uma ferramenta organizacional. Em essência, são criadas regras para que o Google
interprete um link de uma página A para uma página B como um “voto” da página A
para a página B. Esse sistema avalia a importância de uma página a partir de “votos”
que ela recebe (links a ela direcionados) e também analisa a página que efetua o “voto”
(página que contém o link). Os organizadores destacam que, diferentemente de outros
serviços de busca, o Google é estruturado. Eles afirmam que não é possível que o
usuário obtenha uma listagem maior nem que os resultados sejam comercialmente
manipulados.
Além de utilizar diferentes técnicas para indexar seus documentos, os
diferentes motores de busca utilizam diferentes métodos para indexar as palavras das
web pages. Há os que indexam todas as palavras, os que indexam somente as cem
primeiras e outros que indexam todas as palavras e filtram as noise words (ou
stopwords) que são palavras que não tem um sentido particular quando utilizadas
sozinhas, tais como: o, a, e, é, no, na, em etc. Lembramos que a definição de noise word
varia de sistema para sistema18.
Entre as diferentes formas de indexação de documentos há formas totalmente
automáticas e com interferência humana. O Google faz a indexação das palavras
automaticamente, o Yahoo, ao contrário, utiliza o trabalho humano. O trabalho
automático é feito por um software robots popularmente chamados de spiders ou
16 www.google.com
17 Tecnologias de meta-busca são tecnologias que não pesquisam somente pelas palavras que o "usuário" escreveu, mas que tentam utilizar um nível
superior de abstração (meta) como, por exemplo, ontologias e relações entre conceitos. No caso particular do sistema Google, a tecnologia de metabusca
a que eles se referem é o algoritmo PageRank.
18 Informação disponível em http://www.fraqs.org/faqs/www/wisefaq
34
crawlers que constroem a lista das palavras para seu índice. Enquanto a Web Semântica
ainda não é de fato uma realidade na Web, o buscador que mais me agrada é o Google
isso porque através de suas diversas técnicas automáticas de recuperação de
informações, esse buscador ranqueia de forma que quando se procura por homepage ou
de um programa especial ela aparece geralmente no topo.
Conforme dissemos na introdução, trata-se aqui de um trabalho de avaliação do
desempenho de ferramentas computacionais; portanto, não entraremos em questões
computacionais de construção de ferramentas, mas trataremos de questões práticas úteis
aos usuários. Dessa forma, sabermos que os motores de busca possuem distintas formas
de indexar seus documentos nos indica que há diferentes estratégias e recursos
simbólicos para solicitar a recuperação desses documentos. Tais recursos podem ser
obtidos nas próprias páginas dos buscadores e sugerimos dar uma olhada nos seguintes
endereços: (i) Quis on Serching Techniques19, onde se encontra uma espécie de teste
para que o usuário descubra se ele domina os recursos; e (ii) Web serching seminar20,
onde se pode encontrar algumas dicas bem simples sobre as busca e buscadores.
Entre as estratégias de busca, citaremos aqui apenas algumas que consideramos
bastante úteis. As três primeira dicas são válidas para diferentes buscadores: (a) para a
busca de uma oração ou seqüência de palaras específica use (""); (b) para solicitar a
busca por mais de uma palavra words sem a utilização da noisy Word (e), use (+); e (c)
para excluir textos contendo determinada palavra, use (-). As duas dicas seguintes são
específicas para buscas no Google: (d) para procurar por um domínio ou site específico,
digite (site:dominio.com) seguido da palavra desejada; (e) para ver o seu resultado com
links somente para arquivos contendo a versão PDF, digite (filetype:pdf), seguido da
palavra desejada; (f) utilize o link “estou com sorte” para ir direto à primeira página
Web que o Google devolveu para a sua pesquisa, geralmente uma homepage da pessoa,
empresa, entidade, recurso etc. Com esses recursos (e outros encontrados nas
referências dadas) podemos definir melhor o que desejamos, possibilitando uma busca
mais refinada e até auxiliar na escolha do tipo de texto provável do tipo de texto dos
documentos retornados ou domínio.
Feitas algumas considerações gerais sobre o uso da Web como um córpus, sobre
os recursos disponibilizados pelo e suas técnicas para melhorar o desempenho,
19 Disponível em http://www.guia.com/tq/106756.html
20 Disponível em http://www.lib.montana.edu/notess/li/basicsearch.html
35
passaremos para a análise do resultado da busca em páginas do Brasil para as unidades
lexicais abacaxi.
A busca para abacaxi em páginas do Brasil resultou em aproximadamente
116.000 para abacaxi (0,28 segundos). Abaixo apresentaremos frases-exemplo
selecionadas do site no formato em que aparecem na página do buscador.
• Referente ao synset 1:
Exemplo:
Untitled Document
Histórico da Planta: O abacaxi era desconhecido dos europeus. Os índios brasileiros
é que apresentaram o abacaxi aos portugueses com o nome de ananá e nana ...
www.terradeos.com.br/ tom%20das%20ervas/plantas_abacaxi.html - 30k - Em cache -
Páginas Semelhantes
Outro exemplo interessante:
Casais
Você planta abacaxi, colhe abacaxi, planta manga, colhe manga, planta abacate,
colhe abacate, se você plantar elogio, vai colher elogio, apreciação, ...
www.acsbrasil.com.br/estcasais.htm - 52k - Em cache - Páginas Semelhantes
• Referente ao synset 2:
Exemplo:
Abacaxi
Fruta conhecida mundialmente como ananás e no Brasil como abacaxi. Indicações :
Energeticamente é refrescante, de sabor doce e ácido. Acalma, abaixa a pressão, ...
www.belaischia.com.br/frutas/page/abacaxi.html - 20k - Em cache - Páginas Semelhantes
Referente ao synset 3:
Exemplo:
www.chefonline.com.br
Cortar o abacaxi no sentido longitudinal e retirar sua polpa com cuidado. ...
Numa panela, colocar a polpa do abacaxi, o suco de laranja, o açúcar ea água. ...
www.chefonline.com.br/receitas/ receitas.php?codigo=651&tela=receita - 72k - Em cache -
Páginas Semelhantes
• Referente ao synset 4:
Exemplo:
AONDE.com :: Seu site de busca no Brasil !
Um jovem advogado pega uma causa que é um grande abacaxi: o cliente dele é acusado
de roubo e foi pego em flagrante. Mas ele resolve ...
www.aonde.com/piadas/lerpiad. cgi?id_piada=417&id_categoria=2 - 8k - Em cache -
Páginas Semelhantes
• Referente ao synset 5:
Exemplo:
Primeiros Socorros - Rudah On Line
Para simplificar o terrível abacaxi que era instalar uma placa no muque é que
foram inventadas as placas PNP. Elas negociaram automaticamente (isso em ...
www.rudah.com.br/ps/resolvendo.htm - 64k - Em cache - Páginas Semelhantes
36
• Referente ao synset 6:
Exemplo:
Folha Online - Cotidiano - PT tem agora um abacaxi para descascar ...
PT tem agora um abacaxi para descascar, diz Genoíno. Campanha de 2002 não
aprisionará PT, diz Genoíno SÉRGIO RIPARDO da Folha Online ...
www1.folha.uol.com.br/folha/cotidiano/ult95u18169.shl - 15k - Em cache - Páginas Semelhantes
• Referente ao synset 7:
Exemplo:
Bote a boca no trombone !
O Troféu Abacaxi é um site onde você denuncia abusos e outras coisa do gênero
com humor, tudo aqui depende de você.O site é pura interatividade.
indicacaotrofeuabacaxi.vilabol.uol.com.br/ - 12k - Em cache - Páginas Semelhantes
Apesar do Google disponibilizar um número muito maior de resultados, a
seleção de exemplos razoáveis foi mais demorada do que no Córpus Nilc. Para induzir
certos sentidos da palavra e agilizar a busca incluímos junto com abacaxi,
alternadamente, palavras como planta, grande e terrível. Os exemplos selecionados
referem-se aos conceitos indicados; porém, para uma versão final da Wn.Br, considero
que eles devam passar por mais uma filtragem no sentido de encontrar exemplos mais
apropriados. Outra questão um tanto desagradável do uso direto de buscadores é que,
algumas vezes, é necessário entrar no site para obter a frase completa.
10.2 O uso do WebCorp
O WebCorp é uma ferramenta que oferece recursos de manipulação de córpus
tradicionais para a Web. Ele foi criado e é mantido pelo Research and Development
Unit for English Studies (RDUES) da School of English da University of Central
England, Birmingham.
O WebCorp recupera dados lingüísticos da Web através de concordâncias
mostrando o contexto no qual o termo solicitado pelo usuário ocorre. Ele usa os motores
de busca tradicionais para buscar pela palavra ou expressão solicitada e gerar
concordâncias das páginas que as contém. A solicitação do usuário é submetida ao
motor de busca selecionado pelo usuário e a ferramenta então visita os sites da Web
extraindo automaticamente concordâncias para os termos solicitados.
37
Há na página um guia bastante simples de ser entendido explicando cada uma
das opções que o usuário pode ou deve fazer ao usar a ferramenta. Abaixo,
apresentaremos uma breve síntese das opções avançadas disponíveis no sistema.
(1) Search Engine: as opções de motor de busca são Google, AllTheWeb, Altavista e
Metacrawler;
(2) Concordance Span: o número de palavras à direita e à esquerda do termo solicitado,
é possível solicitar a visualização da sentença completa;
(3) Case Option: sensível ou não a maiúsculas e minúsculas;
(4) Output Format: formato de visualização - HTML, HTML Tables (KWIC), Plain
Text (KWIC)-, sugerimos HTML Tables, por já disponibilizarem a opção de seleção ou
exclusão das sentenças e construção de um córpus sentencial automaticamente;
(5) Web Adresses (URLs): mostrar ou omitir as URLs;
(6) Number of Concordance Lines: seleção da quantidade de concordâncias criadas por
linha do texto original.
(7) Site Domain: para Google e AltaVista pode-se escolher um site ou certas restrições
que indiquem o tipo de site desejado. No nosso caso, solicitamos consulta somente em
.br;
(8) Newspaper Domain: pode-se direcionar a busca, por exemplo, para jornais
franceses, ingleses, ou tablóides.
(9) Textual Domain: aqui se pode selecionar o assunto do texto, como por exemplo,
todos, recreação, notícas, jovens e adolescentes etc.
(10) Word Filter: este campo serve para incluir palavras extras que devem ou não
devem aparecer no mesmo site do termo solicitado na busca. Para excluir palavras basta
usar o sinal de (-) para excuir palavras, para incluir, basta redigir a palavra.
(11) Pages Last Modified: pode-se delimitar períodos específicos ou deixar em todos.
(12) Collocation: (a) external collocates, para visualizar uma tabela de freqüências para
as palavras em quatro posições a esquerda e a direita do termo de busca; (b) internal
collocates, se esta opção for selecionada e o termo de busca segue algum dos padrões
(abaixo expressos), o sistema retornará uma tabela contendo os wildcards, as palavras
mais freqüentes que ocupam essas posições wilcard; (13) pode-se solicitar que o sistema
exclua stopwords; (14) pode-se limitar o número de concordâncias por web site para
38
um; e (15) pode-se solicitar que sejam excluídos da varredura os links do texto e os emails.
Assim como referimos na seção sobre o Google, o WebCorp oferece alguns
recursos que possibilitam uma busca mais abrangente ou mais específica, dependendo
da intenção do usuário. Exemplo de recurso desse tipo é o uso de asterisco (*) após a
palavra solicitada para indicar que se deseja qualquer terminação.
Portanto, os recursos de manipulação de córpus disponibilizados pelo WebCorp
são: busca de textos, concordanceador, gerador de wordlist, recurso para seleção das
frases interessantes e a possibilidade de processar um novo resultado somente com as
selecionadas para ser salvo e, para quem selecionar a opção external collocates, vem
uma tabela com contagem de freqüência e análise de prováveis colocações.
A busca por concordâncias contendo abacaxi gerou 371 concordâncias em 9
minutos. Destas, selecionamos as seguintes:
• Referente ao synset 1:
Exemplo:
Em meses muito chuvosos não se deve plantar o abacaxi .
• Referente ao synset 2:
Exemplo:
Na África Oriental e Ocidental ocorre
unicamente o ananás e jamais o abacaxi , presentemente o nome preferido no Brasil para as
incomparáveis variedades do ananás.
Referente ao synset 3:
Exemplo:
Também é ingrediente do famoso drink pina colada, feito com suco de abacaxi e rum.
• Referente ao synset 4:
Exemplo: nenhuma ocorrência
• Referente ao synset 5:
Exemplo:
A Sadia não foi a única empresa a concluir
que pode valer a pena deixar o abacaxi do gerenciamento dos computadores nas mãos de
quem entende do assunto.
• Referente ao synset 6:
39
Exemplo: nenhuma ocorrência
• Referente ao synset 7:
Exemplo:
e o troféu abacaxi vai para
A proposta do WebCorp é encantadora para qualquer pesquisador que deseje
utilizar a Web como córpus. Em teoria, não há como negar sua vantagens sobre o uso de
motores de busca comuns para fins de pesquisas lingüísticas. Os recursos que o
WebCorp disponibiliza podem ter várias aplicabilidades e ajuda a desfazer a idéia de
que a Web não serve como um córpus.
Seu desempenho, no entanto, ainda deixou a desejar em alguns pontos. O
primeiro que se percebe o a demora no retorno do resultado que é relativamente grande
quando se ficarmos somente esperando a sua resposta (9 min). A outra desvantagem do
uso do WebCorp é o fato de ele não conseguir analisar todas as páginas dos motores de
busca e retornar um conjunto bem menor do que o retornado pelos buscadores. Isso fez
com que não encontrássemos exemplos para 2 dos 7 synsets. Contudo, conforme consta
no site do projeto, a versão disponível da ferramenta ainda é um protótipo, fato
animador, pois se imagina que em pouco tempo esses pequenos problemas sejam
resolvidos.
11. Conclusões e próximos passos
A avaliação dos resultados apresentados pelo CórpusNilc, através da Linguateca,
e pela Web, através do WebCorp e do Google possibilitou descobrirmos algumas
aplicabilidades de tais ferramentas, bem como refletirmos sobre a questão da Web como
córpus versus córpus tradicionais. Não se tratam de conclusões inusitadas, atividade
permitiu apenas verificarmos vantagens e limitações de cada ferramenta para o fim de
construção de um base de dados lexicais.
De um modo geral, podemos dizer que o Córpus Nilc, consultado através a
Linguateca, se mostrou o recurso melhor aplicável dada sua rapidez, qualidade e
variedade de textos. Além disso, há garantia de que a ferramenta busca em todo o
córpus; outra vantagem é a maior confiabilidade nos dados fornecidos (em relação aos
40
da Web); a possibilidade de controle de tipo de texto; e, por fim, destacamos a
possibilidade de refazer a busca consultando ao mesmo conjunto de dados.
As limitações que mencionaremos sobre Córpus Nilc são questões que podem
afetar a tarefa dependendo do domínio a ser consultado, mas no exercício feito aqui ele
se mostrou plenamente satisfatório. São elas: o tamanho do córpus relativamente
pequeno; e a atualização dos dados é inferior aos fornecidos pela Web, por exemplo.
Com esse exercício podemos, sem medo, dizer que um córpus tradicional é uma fonte
adequada para a tarefa de construção de base de dados.
O segundo recurso que recomendamos utilizar como fonte de frases-exemplo é o
WebCor. Se for possível gerenciar o tempo de consulta a ele e espera de 9 minutos,
trata-se de uma ótima ferramenta para consulta a Web. Esperamos ainda melhoras na
abrangência dos seus resultados, mas é outro recurso útil aos pesquisadores que se
dedicam a construção de léxicos. A grande vantagem da ferramenta para a tarefa
proposta é a disponibilização de um concordanceador para a Web, o que facilita a busca
por uma boa frase-exemplo para o conceito em questão. Ao lado desse recuso,
destacamos a utilidade da ferramenta que permite a seleção das sentenças desejadas e
construção de um sub-córpus contendo apenas aquelas selecionadas. Entre as
limitações, destacamos a demora do retorno; as falhas ocorridas que travam o
processamento; a impossibilidade de delimitar a quantidade de documentos desejados e
a não recuperação de todos os documentos disponibilizados pelos motores de busca; o
que torna o leque de possibilidades limitados; como foi o caso do exercício apresentado.
Em relação ao Google, é importante mencionarmos inicialmente as vantagens do
uso das técnicas especiais de consulta que auxiliam na filtragem da quantidade de dados
resultantes da busca. Não há ainda muito o que dizer especificamente sobe o Google, a
questão que consideraremos básica é que sua principal qualidade é também a principal
razão de dificuldade de uso: a grande quantidade de documento. Ressaltamos que tal
crítica não se aplica ao Google, somente, mas aos motores de busca na Web como um
todo. Ficaremos aguardando avanços em Recuperação de Informação que auxiliem o
usuário na filtragem de informações.
No que se refere à Web como um córpus, destacamos as seguintes vantagens:
atualização dos dados; quantidade de dados; diversidade de informações. Entre as
limitações, dificuldade de encontrar as informações desejadas em meio a tantos
41
documentos; a volatilidade das informações; a falta de confiabilidade nas informações;
e a dificuldade para controlar o gênero.
Consideramos, portanto, que a seqüência Córpus Nilc, WebCorp, Google é a
ideal para a localização de frases-exemplo para os conceitos expressos por unidades
lexicais polissêmicas do português do Brasil que comporão a base de dados Wn.Br.
Como o objetivo não é a análise de um fenômeno específico em determinado córpus
específico, podemos nos permitir adotar uma metodologia complementar de localização
de frases-exemplo que explicitem e atestem os conceitos inseridos na Wn.Br.
Por fim, destacamos que a realização deste estudo, além de contribuir para os
seus propósitos específicos, possibilitou refletirmos sobre a questão da multiplicidade
semântica; e revelou a complexidade da tarefa de indexação Wn.Br com a WN de
Princeton.
Como já mencionamos, este foi um trabalho de avaliação dos recursos
computacionais existentes. Nenhum produto já pronto teve origem aqui. Contudo, tendo
em vista que as conclusões deste relatório contribuirão para a realização de um trabalho
maior que tem como motivação contribuir para a construção da Wn.Br, muitas são as
aplicações futuras.
12. Bibliografia consultada
ALVAREZ, Maria. Luiza de O. Expressões idiomáticas do português do Brasil e do espanhol
de Cuba: Estudo Contrastivo e Implicações para o ensino de português como língua
estrangeira. Tese (Doutorado em Lingüística) – Departamento de Linguistica Aplicada da
Universidade Estadual de Campinas (UNICAMP), Campinas. Disponível em:
Acesso em 25/06/2005.
ALVES, I. M. da R.. Os Tradutores Automáticos e a Ambigüidade: Uma Abordagem Crítica.
Trabalho de Conclusão de Curso de Graduação em Letras (Português-Inglês) – Universidade do
Vale do Rio dos Sinos (UNISINOS), São Leopoldo.
ARNOLD, D. et al. Machine translation: an introductory guide. NCC/Blackwell, Manchester:
Oxford, 1994.
ATKINS, S; CLEAR, J; OSTLER, N. Córpus design criteria. Journal of Literary Linguistic
Computing 7(1), 1992;
BERBER SARDINHA, T. Lingüística de Córpus. São Paulo: Manole, 2004.
CHISHMAN, R. L. de O. A teoria do léxico gerativo: uma abordagem crítica. 2000. Tese
(Doutorado em Lingüística e Letras) – Instituto de Letras e Artes, Pontifícia Universidade
Católica do Rio Grande do Sul (PUC-RS), Porto Alegre.
BORBA, F. S. Dicionários de Usos do Português do Brasil. São Paulo: Ed. Ática, 2002.
CRUSE, D. A. Lexical semantics. Cambridge: Cambridge University Press, 1986.
42
CRUSE,D. A. Lexical semantics. Cambridge: Cambridge University Press, 2000.
DIAS-DA-SILVA, B. C. A Face Tecnológica dos Estudos da Linguagem: o Processamento
Automático das Línguas Naturais. Araraquara, 272p. Tese (Doutorado em Letras) – Faculdade
de Ciências e Letras, Universidade Estadual Paulista, Araraquara, 1996.
DIAS-DA-SILVA, B. C. . Os Domínios Lingüístico e Tecnológico do Estudo do Processamento
Automático das Línguas Naturais. Estudos Lingüísticos, CAMPINAS, v. 27, p. 1205-1216,
1998.
DIAS-DA-SILVA, B. C. . Human Language Technology Research and the Development of the
Brazilian Portuguese Wordnet. In: 17th International Congress of Linguists, 2003, Praga.
ABSTRACTS of the 17th International Congress of Linguists. Prague, Czech Republic :
Carolina University Press, 2003. v. 1. p. 130-130.
DIAS-DA-SILVA, B.C. A construção da base da Wordnet.Br: conquistas e desafios. In.: III
Workshop em Tecnologia da Informação e da Linguagem Humana. (2005) (no prelo)
DIAS-DA-SILVA. Human language technology research and the development of the Brazilian
Portuguese wordnet. In: Haji•ová, E., Kot•šovcová, A., Mírovský, J. (Ed.). Proceedings of the
17th International Congress of Linguists. Prague: Matfyzpress, MFF UK,12p. 1 cd. (2003)
EUROWORDNET. EuroWordNet. Disponível em
http://www.illc.uva.nl/EuroWordNet/data/sampleData.html. Acesso em 25 jun. 2005
HOUAISS, A. Dicionário eletrônico Houaiss da língua portuguesa. (Versão 1.0). Rio de
Janeiro: FL Gama Design Ltda, 2001.
KEMPSON, R. M.. Semantic theory. New York: Cambridge University, 1977. MOURA, H. M.
de M. Polissemia: entre o léxico e o conhecimento enciclopédico. São Leopoldo, UNISINOS,
20 mar. 2002. Palestra.
KILGARIFF, A. e GREFENSTETTE, G. Introduction to the Special Issue on the Web as a
Córpus, Computational Linguistics. Volume 2, Número 3, 333-347.
LINGUATECA. Disponível em http://www.linguateca.pt
McENERY & WILSON. Córpus linguistics, Edinburgh: Edinburgh University Press. (1996)
McENERY & WILSON. Disponível em:
http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/córpus2/2fra1.htm. Acesso em 25 jun.
2005
POESIO, Massimo. Semantic ambiguity and perceived ambiguity. In: DEEMTER, K. V.;
PETERS, Stanley. Semantic Ambiguity and underspecification. Stanford: CSLI Publications,
1996.
PUSTEJOVSKY, J. The generative lexicon. Mass., Cambridge: The MIT Press, 1995.
QUIZ ON SEARCHING TECNIQUES. Disponível em http://www.quia.com/tq/106756.html
Acesso em 25 jun. 2005
SINCLAIR, J. Córpus, Concordance, Collocation. Oxford University Press, 1991.
STUBBS, M. Using very large text collections to stydy semantic schemas: a research
note, 2000. Disponível em http://www.unitrier.
de/uni/fb2/anglistik/Protekte/stubbs/largtext.htm. Acesso em 27 jun. 2005..
VOSSEN, P. (ed). EuroWordNet: A multilingual Database With Lexical Semantic Netwoks.
Dordrecht, Holland: Kluwer, 1999. http://www.hum.uva.nl/~ewn Acesso em 25 jun. 2005
43
WEBCORP. Disponível em http://www.webcorp.org.uk 25 jun. 2005
WEISZFLOG, W. (ed.) Michaelis português- moderno dicionário da língua portuguesa.
(Versão 1.0). São Paulo: DTS Software Brasil Ltda. 1998.
WEB SERCHING SEMINAR. Disponível em
http://www.lib.montana.edu/notes/li/basicsearch.html. Acesso em 25 jun. 2005
WEINREICH, U. Dictionaries of the Future: A Set of Parameters for Descriptive Semantics.
196x. First published in: Uriel Weinreich on Semantics (W. Labov and B. S. Weinreich editors),
1964.
WIKIPEDIA. Disponível em:: http://pt.wikipedia.org/wiki/Web
WORDNET. WordNet de Princeton. Disponível em http://www.cogsci.princeton.edu/cgibin/
webwn. 25 jun. 2005

COPYRIGHT DEVIDO À WIKIPÉDIA.

Nenhum comentário:

Postar um comentário

Contador de visitas