Recursos

Corpus

Se ha construido un corpus específico para la tarea compartida propuesta en TweetMT. Se recopiló una colección inicial a partir de una serie de cuentas que publican tweets en varios idiomas.

A partir del corpus inicial se han generado dos data-sets: un corpus de entrenamiento compuesto por 4.000 tweets por par de idioma y un corpus de test compuesto por 3.000 tweets por par de idioma.replica watches

Debido al sistema de recopilación de corpus, solo fue posible recopilar automáticamente corpus para los pares de idioma Euskera-Español (Eu-Es) y Catalán-Español (Ca-Es). Es por eso que solo se han publicado corpus de desarrollo para esos pares de idiomas.rolex replica

Para los pares Español-Gallego (Es-Gl) y Español-Portugues (Es-Pt) se han generado manualmente test-sets a partir de los corpus de test de los otros idiomas, utilizando para ello la plataforma crowdFlower (adquirida por Appen en 2019).

Alineamiento

  • Para los pares de idioma Euskera-Español y Catalán-Español:
      • El corpus de desarrollo fue alineado automáticamente.
      • El corpus de test fue corregido manualmente por hablantes nativos de los pares de idioma correspondientes.fake bell and ross watches

Downloads

  • Corpus TweetMT v2: Datasets de desarrollo y test utilizados durante la tarea. Esta versión contiene los gold standard de los test sets. (Nuevo: 2021/09/08)
  • Corpus de test: tweets para los pares de idiomas es-eu, es-ca, gl-es y pt-es. (2015/05/26)

Recursos libres para MT