Corpus paralelo

A Pedra de Roseta, uma estela gravada com o mesmo decreto tanto nas escritas de manuscritos egípcios quanto nas do grego antigo. Sua descoberta foi a chave para decifrar a língua do Antigo Egito

Um corpus paralelo é um texto colocado ao lado de sua tradução ou traduções.[1][2] O alinhamento do corpus paralelo é a identificação das sentenças correspondentes em ambas as metades do corpus paralelo. A Loeb Classical Library e a Clay Sanskrit Library são dois exemplos de séries de textos em duas línguas. As Bíblias de referência podem conter os idiomas originais e uma tradução, ou várias traduções por si mesmas, para facilitar a comparação e o estudo; a Héxapla de Orígenes (grego para 'seis vezes') colocou seis versões do Antigo Testamento lado a lado. Um exemplo famoso é a Pedra de Roseta, cuja descoberta permitiu que a língua egípcia pudesse começar a ser decifrada. Grandes coleções de corpus paralelos são chamados de corpora paralelos (ver corpus de texto). Alinhamentos de corpora paralelos no nível da frase são pré-requisitos para muitas áreas da pesquisa linguística. Durante a tradução, as frases podem ser divididas, mescladas, excluídas, inseridas ou reordenadas pelo tradutor. Isso torna o alinhamento uma tarefa não trivial.

Bitexto

No campo dos estudos de tradução, um bitexto é um documento mesclado composto por versões de um determinado texto no idioma de origem e de destino. Bitextos são gerados por um software denominado ferramenta de alinhamento, ou ferramenta bitextual, que alinha automaticamente as versões original e traduzida do mesmo texto. A ferramenta geralmente combina esses dois textos frase por frase. Uma coleção de bitextos é chamada de banco de dados bitextual ou corpus bilíngue e pode ser consultada com uma ferramenta de pesquisa.

Bitextos e memórias de tradução

Bitextos têm algumas semelhanças com memórias de tradução. A diferença mais saliente é que uma memória de tradução perde o contexto original, enquanto um bitexto retém a ordem da frase original. Dito isto, algumas implementações de memória de tradução, como Translation Memory eXchange (TMX), um formato XML padrão para troca de memórias de tradução entre programas de tradução assistida por computador (CAT), permitem preservar a ordem original das frases. Bitextos são projetados para serem consultados por um tradutor humano, não por uma máquina. Dessa forma, pequenos erros de alinhamento ou pequenas discrepâncias que poderiam causar a falha de uma memória de tradução não têm importância. Em seu artigo original de 1988, Harris também postulou que o bitexto representa como os tradutores mantêm seus textos fonte e alvo juntos em suas memórias mentais de trabalho à medida que progridem. No entanto, essa hipótese não foi acompanhada.[3] Bitextos online e memórias de tradução também podem ser chamados concordâncias bilíngues online. Vários estão disponíveis online publicamente, incluindo Linguée, Reverso e Tradooit.[4][5][6][7]

Referências

  1. Sin-Wai Chan (13 de novembro de 2014). Routledge Encyclopedia of Translation Technology. [S.l.]: Routledge. ISBN 978-1-317-60815-8 
  2. Philip Williams; Rico Sennrich; Matt Post; Philipp Koehn (1 de agosto de 2016). Syntax-based Statistical Machine Translation. [S.l.]: Morgan & Claypool Publishers. ISBN 978-1-62705-502-4 
  3. Harris, B. Bi-text, a new concept in translation theory, Language Monthly (UK) 54, p. 8-10, March 1988.
  4. Marie Genette, "How reliable are online bilingual concordancers?: An investigation of Linguee, TradooIT, WeBiText and ReversoContext and their reliability through a contrastive analysis of complex prepositions from French to English", M.A. thesis, Université Catholique de Louvain and Universitetet i Oslo, Spring 2016 full text
  5. «TradooIT - Concordancier bilingue» 
  6. Alain Désilets, Benoît Farley, Marta Stojanović, Geneviève Patenaude, "WeBiText: Building Large Heterogeneous Translation Memories from Parallel Web Content", Proceedings of Translating and the Computer 30:27-28 (2008) full text
  7. Ralf Steinberger Ralf; Bruno Pouliquen; Anna Widiger; Camelia Ignat; Tomaž Erjavec; Dan Tufiş; Dániel Varga (2006). The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24–26 May 2006 

Ligações externas

Corpora paralelo

  • The JRC-Acquis Multilingual Parallel Corpus do corpo total da legislação da União Europeia (UE): Acquis Communautaire com 231 pares de línguas.
  • European Parliament Proceedings Parallel Corpus 1996-2011
  • The Opus project aims at collecting freely available parallel corpora
  • Japanese-English Bilingual Corpus of Wikipedia's Kyoto Articles
  • COMPARA - Portuguese/English parallel corpora
  • TERMSEARCH - English/Russian/French parallel corpora (Major international treaties, conventions, agreements, etc.
  • TradooIT - English/French/Spanish - Free Online tools
  • Nunavut Hansard - English/Inuktitut parallel corpus
  • ParaSol - A parallel corpus of Slavic and other languages
  • Glosbe: Multilanguage parallel corpora com interface de pesquisa online
  • InterCorp: A multilingual parallel corpus de 40 idiomas alinhado com a interface de pesquisa online tcheca
  • myCAT - Olanto, concordancer (open source AGPL) com pesquisa online no corpus JCR e UNO
  • TAUS, com interface de pesquisa online.
  • linguatools corpora paralela multilingue, interface de pesquisa online.
  • EUR-Lex Corpus - corpus constituído pela base de dados EUR-Lex é composto pela legislação da União Europeia e outros documentos públicos da União Europeia
  • Language Grid - Multilingual service platform that includes parallel text services

Documentação

  • Parallel text processing bibliography by J. Veronis and M.-D. Mahimon
  • Proceedings of the 2003 Workshop on Building and Using Parallel Texts
  • Proceedings of the 2005 Workshop on Building and Using Parallel Texts

Ferramentas de alinhamento

  • GIZA++ alignment tool (1999)
  • Uplug - tools for processing parallel corpora (2003)
  • An implementation of the Gale and Church sentence alignment algorithm (2005)
  • The Hunalign sentence aligner (2005)
  • Champollion (2006)
  • mALIGNa (2008 - 2020)
  • Gargantua sentence aligner (2010)
  • Bleualign - machine translation based sentence alignment (2010)
  • YASA (2013)
  • Hierarchical alignment tool (HAT) (2018)
  • Vecalign sentence alignment algorithm (2019)
  • Web Alignment Tool at University of Grenoble
  • Portal das tecnologias de informação
  • Portal da linguística