Upload
truongtuyen
View
216
Download
0
Embed Size (px)
Citation preview
A linguística e a linguagem dos média em Portugal: descrição do projecto REDIP∗
Maria Celeste Ramilo
Tiago Freitas
ILTEC
Portugal
1. Introdução
O projecto REDIP tem como objectivo analisar o português usado em três meios de
comunicação social: a rádio, a televisão e a imprensa. Está a ser desenvolvido no ILTEC (Instituto
de Linguística Teórica e Computacional), em cooperação com o CLUL (Centro de Linguística
da Universidade de Lisboa) e a Universidade Aberta, e é financiado pela Fundação para a
Ciência e Tecnologia, no âmbito do Programa Lusitânia.
Quando foi pensado pela primeira vez, em 1997, o REDIP tinha um formato que se
aproximava muito do do DIES-RTP, um projecto mexicano1 que pretende estudar o espanhol no
seu formato de difusão, em meios de comunicação regionais, nacionais e internacionais. Aquilo
que estava planeado era sobretudo um trabalho de descrição e comparação entre a variedade
portuguesa e a brasileira, trabalho esse que depois se poderia estender à variedade africana da
língua portuguesa. Daí para cá, o REDIP sofreu algumas alterações substanciais, o que viria a fazer
dele um projecto exclusivamente centrado na linguagem dos meios de comunicação social do
português europeu. Esta simplificação é devida a vários factores, dos quais se destaca a redução do
financiamento a um terço do que estava previsto. No entanto, os objectivos do projecto continuam
a ser os mesmos:
1. constituir um corpus de língua oral e escrita a partir de amostras diversificadas de três meios de
comunicação: rádio, televisão e imprensa.
∗ A apresentação desta comunicação só se tornou possível graças ao apoio do Instituto Camões e da Fundação para a Ciência e a Tecnologia, no âmbito do Programa Lusitânia – Apoio à Participação em Congressos e em Reuniões Científicas. 1 Mais precisamente do Colégio do México, tendo como coordenador geral Raúl Avila. Muitos outros países estão associados, incluindo a Argentina, a Bolívia, o Chile, a Colômbia, a Costa Rica, a Espanha, o Porto Rico e o Uruguai, e ainda países como o Japão e a Suécia. Para mais informações, sugerimos a consulta do artigo Difusion Internacional del Español por Radio, Television y Prensa: Unidad y Diversidad de la Lengua (Dies-RTP), o qual pode ser obtido no seguinte endereço: ftp://hueb.colmex.mx/cell/10proyed97.pdf.
O corpus coligido inclui:
1.1. gravações de áudio e de vídeo (relativas às amostras da rádio e da televisão) em suporte
analógico, gravações de áudio em suporte digital (correspondendo à digitalização de todas
as amostras em suporte analógico) e ficheiros electrónicos com o material da imprensa;
1.2. ficheiros electrónicos com a transcrição ortográfica dos programas da rádio e da televisão,
em diversos formatos, com etiquetagem e sem etiquetagem;
2. realizar descrições do português usando as ferramentas computacionais disponíveis, de modo
a:
2.1. elaborar descrições lexicais, sintácticas e semânticas do português europeu usado nos
meios de comunicação social;
2.2. aplicar os resultados das descrições e análises efectuadas de acordo com as seguintes
metas:
2.2.1. a curto prazo:
2.2.1.1. caracterização da linguagem dos meios de comunicação social em geral;
2.2.1.2. caracterização da linguagem de cada um dos três meios considerados.
2.2.2. a longo prazo:
2.2.2.1. produção de manuais para os profissionais dos meios de comunicação social;
2.2.2.2. produção de dicionários especializados e ferramentas de apoio à tradução.
Não foi posta de parte a hipótese de, posteriormente, submeter os dados a uma comparação
com um corpus semelhante do português do Brasil e até com corpora de outro tipo. Será muito
interessante, por exemplo, ver que diferenças existem entre a linguagem oral dos meios de
comunicação portugueses e a linguagem oral recolhida no Português Falado2.
2 Projecto para o estudo das variedades geográficas e sociais do português, coordenado pelo CLUL.
2. Equipa do projecto
As instituições envolvidas no REDIP têm vindo a obter reconhecimento nacional e
internacional nas seguintes áreas:
(i) recolha e processamento de corpora de grandes dimensões;
(ii) desenvolvimento de ferramentas computacionais próprias para o processamento de
corpora linguísticos;
(iii) produção de materiais didácticos para o ensino do português;
(iv) descrição da língua portuguesa a nível lexical, fonológico, morfológico e sintáctico.
Apresentamos agora um quadro com os nomes de todas as pessoas que fazem parte do
projecto, e que se dividem por três núcleos:
Coordenadora geral
Maria Helena Mira Mateus
Núcleos ILTEC Centro de Linguística Universidade Aberta
Coordenadoras
Maria Helena Mira
Mateus
Maria Fernanda Bacelar
do Nascimento
Maria Emília Marques
Elisabete Soalheiro
Nuno Martins
Fátima Silva
Maria Celeste Ramilo
Raquel Amaro
Helena Manuelito
Tiago Freitas Rita Veloso
Isabel Rego
Investigadores
Sandra Antunes
Justina Santana
Anabela Gonçalves
José Bettencourt
Consultores
Maria João Freitas
Maria Lúcia Garcia
Marques
3. O corpus na teoria
3.1. Planificação e desenho do corpus
O corpus engloba, como já referimos, três meios de comunicação. Todas as amostras
recolhidas estão identificadas de acordo com as normas do projecto. Relativamente às gravações da
rádio e da televisão, esta identificação é feita tendo em atenção os seguintes dados:
— data do programa
— duração do programa
— nome do programa
— nome da instituição emissora
As amostras da imprensa, por seu lado, são identificadas pelos seguintes itens:
— data do artigo
— nome do jornal
— secção do jornal
As recolhas efectuadas dentro de cada meio estão divididas por seis temas:
— actualidade (noticiários)
— ciência
— cultura
— desporto,
— economia
— opinião
A cada uma destas unidades temáticas corresponde um conjunto de dezoito mil
palavras, o que perfaz um total de trezentas e vinte e quatro mil, compreendendo cento e
oito mil por meio de comunicação e cinquenta e quatro mil por tema. Esta informação é
sistematizada no seguinte quadro:
RÁDIO TELEVISÃO IMPRENSA Totais
ACTUALIDADE 18.000 18.000 18.000 54.000
CIÊNCIA 18.000 18.000 18.000 54.000
CULTURA 18.000 18.000 18.000 54.000
DESPORTO 18.000 18.000 18.000 54.000
ECONOMIA 18.000 18.000 18.000 54.000
OPINIÃO 18.000 18.000 18.000 54.000
Totais 108.000 108.000 108.000 0
Na parte da rádio e da televisão, cada unidade deste tipo pode compreender m
programa, tal como, na parte da imprensa, cada unidade poderá compreender mais de
Cada uma destas amostras deverá possuir, além da identificação inicial com os par
referidos, uma ficha de identificação escrita com as suas características. No caso dos t
são incluídas informações suplementares como:
— género3
— tipo de texto4
3 Em relação ao género existem duas hipóteses: formal e informal. Pertencem ao género formal que, na opinião do transcritor, são lidos ou muito preparados. Ao género informal correspondemespontâneos. O transcritor poderá justificar as suas decisões no campo reservado às observações
324.00
ais de um
um artigo.
âmetros já
extos orais,
os discursos os discursos linguísticas.
— número total de gravações do mesmo programa
— identificação dos locutores5
— dados relativos à codificação da gravação
— responsável pela transcrição
— responsável pela revisão6
— número de palavras transcritas
— observações gerais e linguísticas
No caso dos textos escritos, os campos adicionais correspondem a:
— natureza do texto7
— tipo de texto8
— autor do artigo
— número de palavras
— observações gerais
Este é um corpus inovador pelo facto de compreender mais textos orais do que escritos, na
proporção de dois para um. Apesar de não descurar a expressão escrita, incide maioritariamente
sobre a língua oral, o que não é frequente nos projectos de investigação até agora desenvolvidos.
Os meios de comunicação que fazem uso da língua oral são aqueles que têm maior difusão,
maiores níveis de audiência, tendo também maior impacto junto da opinião pública. 4 Consideram-se três tipos de texto: monólogo, diálogo e conversa com várias pessoas. 5 Além do nome, é mencionado o sexo e a categoria. Em relação a este último parâmetro, as hipóteses são as seguintes: profissional, não profissional e comentador. 6 No REDIP, todas as transcrições são revistas pelo menos duas vezes, uma pelo transcritor original e outra por um segundo transcritor. 7 De acordo com sua natureza, o texto pode ser jornalístico ou não jornalístico. 8 Consideram-se três tipos de texto: notícia, editorial e anúncio.
É importante lembrar que, nos últimos anos, um outro meio de comunicação tem vindo a
atrair o público português de uma forma maciça: a Internet. Na altura em que o REDIP foi
planeado, a Internet estava longe de ter a expressão que tem hoje em dia, pelo que não
consideramos esse meio de comunicação escrita no nosso corpus. Se o projecto tivesse sido
concebido já no novo milénio, obviamente incluiria não só dados escritos da imprensa mas também
da Internet. Este é um aspecto a ter em conta na criação de futuros projectos, de que deverá resultar
uma estrutura como a que apresentamos em seguida:
Corpora dos meios de comunicação social
Discurso oral
Impren
A médio e longo prazo, podemos até antever recolha
digitais de comunicação: a televisão digital (cabo, terrestre e
interactivo e a terceira geração de comunicações móveis
3.2. Materiais de transcrição
As gravações de áudio e de vídeo foram feitas por
recorrendo a equipamento analógico convencional. Os prog
registados no formato de difusão, o que não é muito satisfató
as suas vantagens em termos financeiros. Nós sabemos po
obtido directamente das emissoras é muito mais dispendioso.
o custo é directamente proporcional ao incremento da qualida
As últimas gravações efectuadas para o nosso
directamente da matriz. Em virtude disso, a qualidade de
consistência quer em termos de ruído de fundo. É claro q
transcrição se torna mais produtivo, poupando tempo ao transc
Discurso escrito
sa
Rádio Televisãos de dados a par
satélite), o serviço
(UMTS).
uma empresa de
ramas de rádio e
rio em termos de
r experiência pró
A qualidade é cla
de.
corpus foram, c
som é melhor,
ue, nestas condi
ritor.
Internet
tir dos novos meios
de teletexto digital
gestão documental,
de televisão foram
qualidade, mas tem
pria que o material
ramente superior, e
om efeito, obtidas
quer em termos de
ções, o trabalho de
Comparemos, então, aquilo que custou ao REDIP uma hora de gravação da rádio, da
mesma emissora, no formato de difusão e no formato matricial:
Formato de difusão Formato matricial
Empresa fornecedora Memorandum RDP
Suporte original Frequência modulada DAT
Suporte final Cassete magnética CD
Custo por hora de gravação € 12,5 € 85
3.3. Equipamento informático
O REDIP está a ser desenvolvido, na sua totalidade, com recurso a equipamento
informático. No entanto, o tratamento computacional do corpus está reservado ao CLUL e
à Universidade Aberta, que dispõem das ferramentas próprias para esse efeito.
Os programas disponíveis no CLUL são o Corlex, o CONCOR e o CONCOR.CB.
O primeiro, da autoria de Eric Brill, tem como função etiquetar os textos, apresentando
uma margem de erro mínima, da ordem dos cinco por cento. O segundo é um programa
especializado na extracção de contextos e frequências, permitindo ao utilizador pesquisar:
— cada uma das palavras presentes no texto
— uma palavra específica
— uma lista de palavras (de um ficheiro)
— uma sequência de caracteres
O CONCOR.CB é um programa que serve para constituir e organizar associações
lexicais, compreendendo os seguintes módulos:
concor.cb — obtenção de pares de palavras (não necessariamente em
sequências) e de grupos de palavras que aparecem em sequências no corpus
e extracção dos contextos em que estes pares e grupos aparecem
arranja-lema — cálculo do índice de combinação (IC) de pares de palavras
provenientes de um lema e reorganização dos resultados por ordem
decrescente de IC por lema co-ocorrente
A Universidade Aberta, por seu lado, tem ao seu dispor as ferramentas necessárias
para efectuar uma análise lexicométrica do material. Este tipo de análise consiste num
conjunto de métodos baseados em estudos estatísticos, permitindo efectuar reorganizações
formais do vocabulário de um determinado corpus.
A análise lexicométrica pode ser esquematizada desta forma:
Corpora
Concordâncias Formas gráficas ordenadas
alfabeticamente
hierarquicamente
Estudos paradigmáticos Estudos sintagmáticos
Especificidades Cronologia
Textual Contextos Segmentos
Repetidos AFC9
A lexicometria permite um tipo de análise discursiva que parte de uma teoria da
linguagem em que os processos de construção do discurso e o seu sentido são considerados
em conjunto com as condições reais de produção e/ou recepção.
9 Análise factorial de correspondências.
3.4. Calendarização
O REDIP começou efectivamente em meados de Abril de 2001, e tem uma duração
prevista de dois anos. O primeiro ano, que ainda está em curso, tem sido essencialmente dedicado à
transcrição ortográfica das gravações recolhidas. A par disso, muitas outras actividades têm sido
desenvolvidas, incluindo:
— tratamento parcial dos dados para o corpus-piloto10
— análise lexicométrica do corpus-piloto10
— preparação de duas comunicações orais e escritas
— trabalho de pesquisa e recolha de dados adicional
A transcrição ortográfica é a mais morosa das tarefas que têm vindo a ser desempenhadas,
uma vez que implica muitas horas de audição e reaudição por parte do transcritor. Além disso,
todas as transcrições do REDIP são submetidas a pelo menos duas revisões: a primeira feita
pelo transcritor original e a segunda por outro transcritor do projecto. No entanto, como os
critérios de transcrição são alterados com frequência, normalmente são necessárias revisões
adicionais. Posteriormente, é ainda realizada uma revisão por amostragem.
Primeiro ano
MESES
TAREFAS 1 2 3 4 5 6 7 8 9 10 11 12
Transcrição dos dados recolhidos e
estabelecimento do corpus
Etiquetagem e extracção de
concordâncias do corpus-piloto
Análise lexicométrica do corpus-
piloto
Recolha de dados adicional
10 O corpus-piloto consistiu numa recolha de três mil palavras por meio de comunicação, compreendendo dois temas, economia e desporto, o que deu um total de nove mil palavras. Serviu essencialmente para explorar hipóteses de investigação e para testar as ferramentas informáticas existentes no CLUL e na Universidade Aberta, uma vez que, como concluímos, era demasiado pequeno para qualquer tipo de análise.
Preparação de comunicações
Revisão por amostragem dos dados
transcritos
Etiquetagem e extracção de
concordâncias do corpus final
Relatório anual
Está agendado para o segundo ano todo o trabalho de descrição e análise dos dados, que
incluirá:
— levantamento estatístico do vocabulário de acordo com o tipo de locutor (considerando
variáveis como o género e a categoria) e com o tema em discussão (havendo ainda a
possibilidade de comparar as ocorrências nos diferentes meios de comunicação)
— análise lexicométrica de todo o material, permitindo um estudo sistemático e exaustivo do
vocabulário que constitui as diferentes partes do corpus
— levantamento dos neologismos (compreendendo casos de derivação semântica) e dos
estrangeirismos atestados
— observação das regências verbais: quantificação das ocorrências de verbos com estrutura
argumental variante
— estudo das frases relativas presentes no corpus: distinção entre construções canónicas,
cortadoras e resumptivas, com verificação dos contextos e quantificação das variáveis
— análise da colocação dos clíticos: quantificação e identificação dos contextos em que não
aparecem na posição canónica
— observação da frequência dos tempos verbais: quantificação de pares alternativos como o
futuro simples por oposição à construção ir + infinitivo e estar a + infinitivo por oposição
a estar + gerúndio
— estudo dos marcadores discursivos presentes no corpus, com identificação dos marcadores
usados para reformulação ou para introduzir definições
— estudo da modalização na linguagem dos meios de comunicação: verbos modais e outros
modalizadores discursivos
— identificação dos desvios mais frequentes a nível lexical e sintáctico, confrontando-os com
os livros de estilo e com os prontuários existentes
Segundo ano
MESES
TAREFAS 1 2 3 4 5 6 7 8 9 10 11 12
Descrições e análises
Implementação da base de dados
Preparação de comunicações
Preparação de publicações
Relatório final
3.4. Distribuição de tarefas relativamente ao primeiro ano
Como entidade de acolhimento, o ILTEC tem a seu cargo uma parte significativa das
tarefas previstas, concretamente ao nível da transcrição ortográfica e subsequente análise do
material recolhido. Ao longo deste primeiro ano de actividade, setenta e cinco por cento das
transcrições foram efectuadas no nosso instituto. Além disso, a equipa do ILTEC foi responsável
pela recolha de dados adicional, pela preparação de duas comunicações orais e escritas e por
algumas análises feitas no âmbito do projecto-piloto.
O CLUL, por seu lado, contribuiu com a digitalização de todas as gravações radiofónicas e
de grande parte das gravações televisivas, com algumas transcrições e revisões (incluindo a revisão
por amostragem do corpus final), assim como com a etiquetagem e extracção de concordâncias do
corpus, isto além das sessões de formação e esclarecimento facultadas, sobre codificação dos dados
e harmonização dos cabeçalhos de identificação.
A Universidade Aberta desempenhou igualmente algumas tarefas, incluindo a análise
lexicométrica do corpus-piloto, a realização de parte das transcrições ortográficas e ainda a
preparação dos cabeçalhos de identificação dos textos escritos. É de ressalvar que este núcleo foi
também responsável pela classificação das gravações integrantes do corpus, no período que
antecedeu o trabalho de transcrição.
4. O corpus na prática
Na prática, o corpus revelou-se algo problemático. Os problemas mais significativos foram
de ordem técnica, uma vez que, como depois se percebeu, os formatos inicialmente adoptados não
eram os ideais. Além disso, não obstante a extensa recolha de dados, verificou-se que algumas
áreas temáticas não estavam cobertas, o que obrigou a subsequente pesquisa e recolha de material.
No entanto, todos esses problemas foram superados e, neste momento, o projecto tem um
funcionamento dinâmico.
4.1. Problemas técnicos
Os problemas técnicos verificados dizem respeito ao formato em que as gravações foram
realizadas. A recolha de dados realizou-se maioritariamente em cassetes de áudio e de vídeo
analógicas, uma vez que eram esses os formatos usados pela empresa de gestão documental que
realizou o trabalho de gravação. A componente de som das gravações de vídeo foi posteriormente
transposta para cassetes de áudio, para facilitar a transcrição. Entretanto, verificou-se que, com o
equipamento informático que tínhamos no ILTEC, havia todo o interesse em digitalizar este
material, eliminando assim a necessidade de gravadores analógicos. Deste modo, o trabalho de
transcrição passou a ser feito exclusivamente no computador.
É claro que, devido a todas estas etapas de gravação, a qualidade de som veio a sofrer uma
degradação progressiva, como é ilustrado no seguinte diagrama:
Memorandum Cópia para o ILTEC Digitalização no CLUL
Rádio
Gravação magnética Sinal instável a
Perda de qualidade acentuada (o sinal original não tinha gransubmetido a um processo de sucessiva deterioração em
Hoje em dia, com a massificação do CD-ROM, teria sido possível gr
média directamente para formato digital. Com o advento da rádio digital, já
Formato final (CD)
Gravação magnéticde qualidade e foi três etapas)
avar as emissões dos
disponível em grande
parte do território português e já com algumas emissoras (RDP, Renascença e Comercial) a operar,
teria até sido possível obter gravações de grande qualidade, a partir da rádio, com custos mínimos.
Infelizmente, não se pode dizer o mesmo da televisão digital, dado o seu preço elevado. No
entanto, com um bom aparelho receptor, seria possível extrair som de grande qualidade mesmo a
partir de uma rede analógica.
4.2. Problemas de distribuição temática
Pouco depois de termos começado a fazer as transcrições ortográficas, verificámos que a
recolha do material não tinha sido homogénea. Disto resultou que, em relação a certos temas, havia
tempo de gravação a mais, ao passo que, em relação a outros, havia tempo de gravação a menos.
Por isso, tivemos de fazer as diligências necessárias para conseguir o material que estava em falta.
Este dizia respeito às gravações radiofónicas, nos temas de actualidade, ciência e economia,
perfazendo uma lacuna de cerca de cinquenta mil palavras. Foi então necessário contactar os
arquivos sonoros da RDP, a emissora estatal, uma vez que a empresa a que antes havíamos
recorrido já não tinha gravações da data que pretendíamos.
4.3. Problemas de transcrição
O sistema de transcrição usado pelo REDIP emprega as seguintes convenções:
Ocorrência Símbolo
Pausa sintáctica breve ,
Pausa sintáctica longa .
Hesitações e pausas preenchidas eh (uma vez)
Outras pausas, interrupções e reformulações ...
Acordos hum (uma vez)
Interrogação ?
Exclamação !
Sequências intercaladas — α —
Citações “α”
Identificação dos locutores L1, L2, L3
Enunciados simultâneos α x
Sequências incompreensíveis (...)
Divergências de audição entre os transcritores |α| Cortes, interrupções na gravação e interrupções
na transcrição [...]
Traduções simultâneas /α/
Observemos, então, uma transcrição feita de acordo com estas indicações11:
L2: eh, eu só não apresentei pelo facto...
L1: não, eu só pergunto isso!
L2: não, senhor doutor!
L1: mas...
L2: estou a dizer que não...
L1: é que eu mandei, senhor doutor...
L2: não, senhor doutor!
L1: eu mandei, eu mandei...
L2: eu segui, olhe, ó senhor doutor...
L1: aos onze elementos da direcção da liga...
L2: ó senhor doutor!
L1: atempadamente o meu programa... para eles analisarem.
L2: ó senhor doutor!
L1: e debati com eles o programa...
L2: senhor doutor...
L1: e mais do que isso...
L2: senhor doutor...
L1: aceitei sugestões...
L2: se a santa casa...
L1: que estão aqui vertidas no programa hoje...
11 Programa Livre e Directo, Antena 1, corpus REDIP.
L2: o senhor doutor tivesse, ó senhor doutor, e não sei se não... se entrou também em
compromissos graves.
Este é um sistema de transcrição que, em termos de pontuação, se aproxima bastante da
grafia convencional. Somente as pausas sintacticamente motivadas podem ser representadas por
ponto final ou vírgula, havendo em todos os outros casos recurso às reticências. Ao nível da
legibilidade, os textos são claramente beneficiados12, pelo que poderão ser consultados mais
facilmente por um público não especializado. O problema surge, contudo, nas sequências em que
há fronteiras sintácticas que não são marcadas, no discurso, por nenhuma pausa. Nesse tipo de
contextos, o sistema fica aquém do seu carácter eminentemente ortográfico, o que motiva alguma
inconsistência.
Outro dos problemas com que nos temos deparado diz respeito à transcrição dos nomes
próprios. Na linguagem dos meios de comunicação social surgem normalmente muitos nomes de
individualidades e instituições estrangeiras, e nem sempre é fácil saber qual a grafia oficial
correspondente a cada nome. De acordo com as normas do projecto, deverá sempre ser feita uma
pesquisa para verificação dos casos em dúvida, adoptando-se uma grafia aproximada sempre que
essa pesquisa se revelar infrutífera. Nós recorremos muitas vezes aos motores de busca da Internet,
principalmente ao Google, que é aquele que costuma apresentar melhores resultados. Mediante um
certo treino, é possível resolver muitos casos com sucesso. Adiante apresentamos alguns deles13:
Grafia aproximada Grafia confirmada
bad lanzer badlands
boiji mendes boy gé mendes
electobactetilori helicobacter pylori
gajiokapa hjk
georges nely georges méliès
herekta rocks related rocks
hitus ictus
joan jaxison johan jachrisson
justin gardner jostein gaarder
manus limber magnus lindberg
12 No entanto, é preciso ter em conta que o factor legibilidade também depende muito do texto oral que estamos a transcrever. No trecho acima apresentado, por exemplo, a leitura é dificultada não só pelo facto de os locutores se interromperem constantemente mas também pelo facto de muitas vezes falarem ao mesmo tempo. 13 De acordo com as convenções de transcrição adoptadas, todas as palavras são grafadas em letra minúscula, incluindo os nomes próprios. Trata-se de uma medida que tem como principal vantagem a uniformização gráfica do texto, permitindo também resolver alguns casos de grafia dúbia.
not quite that not quite dead
parasinaicus panathinaikos
proofti pluft
salin iolo sally nyolo
stein sellis stjin celis
tiless balik terence malick
liser poi lizard point
Resta-nos falar um pouco da questão da identificação dos locutores ao longo do texto, que
nem sempre foi feita de acordo com as convenções acima indicadas. Houve uma fase do projecto
em que se optou por grafar as iniciais do nome do locutor. Essa orientação tinha sido tomada no
sentido de prover o texto de um sistema de identificação mais intuitivo, já que, na leitura da
transcrição, é mais fácil identificar o locutor pelas iniciais do nome do que pelo número de entrada.
No entanto, o que se observou foi que esse procedimento não trazia benefícios reais às transcrições
do projecto, à parte a legibilidade, pelo que foi abandonado.
5. Bibliografia
Bacelar do Nascimento, F. et aliae (1987) Português Fundamental − Métodos e
Documentos. INIC/CLUL, Lisboa.
Blanche-Benveniste, C. (1997) Transcriptions et Technologies, in Recherches
sur le Français Parlé, número 14. GARS, Aix-en-Provence.
Blanche-Benveniste, C. e C. Jeanjean (1987) Le Français Parlé, Paris: INALF/CNRS.
Cresti, E. (2000) Corpus di Italiano Parlato, volume I. Presso l’Accademia della
Crusca, Firenze.
Kennedy, G. (1998) An Introduction to Corpus Linguistics. Longman, London.
Ramilo, M. C. e T. Freitas (2001) Transcrição Ortográfica de Textos Orais:
Problemas e Perspectivas. Comunicação apresentada no Encontro Comemorativo do 25º
Aniversário do CLUP, Porto.