Inicio


News

Call For Papers (Descargar)

Traducción de Tweets (idiomas es-eu-ca-gl-pt)

TweetMT es un taller y tarea compartida en torno a la traducción automática de tweets. El evento tendrá lugar en septiembre de 2015 en Alicante, junto al congreso SEPLN 2015. El objetivo de este taller es reunir a un grupo de investigadores interesados en el tema, así como unir fuerzas en una tarea compartida para estudiar y comparar diferentes aproximaciones para la traducción de tweets. Este taller es una continuación de dos anteriores: TweetNorm2013 y TweetLId2014.

La traducción automática de tweets es una tarea compleja que depende mucho de los datos con los que se quiera trabajar. Es muy diferente traducir un texto generado por un gestor de contenidos que uno tecleado desde un móvil con errores y diversos signos y diacríticos. Además estructuralmente incluye sus características específicas (hashtags, identificadores, retweets…). La traducción de tweets se puede enfocar como una traducción directa (tweet a tweet) o indirecta (normalizar los tweets a texto estándar (Kaufmann&Kalita, 2011), traducir texto y, si se quiere, generar tweets). Aunque la primera aproximación es atractiva, la falta de textos paralelos o comparables entre tweets de varios idiomas (Petrovic et al., 2010) nos puede llevar a una aproximación indirecta. También hay autores que buscan tweets similares en otro idioma (CLIR)

No existen muchos artículos sobre el tema en la literatura científica, pero si un interés creciente en el tema (Gotti et al., 2013). El esfuerzo hecho para traducir textos SMS durante el terremoto de Haití es una referencia importante (Munro, 2010).

La idea principal de la tarea que proponemos es estudiar los retos y problemas de la traducción de tweets entre idiomas de la Península Ibérica (español, portugués, catalán, euskera, y gallego). Se proporcionarán corpus de desarrollo y test en diversos pares de idiomas (es-ca, es-eu, es-en…) obtenidos de un limitado número de cuentas que emiten mensajes en varios idiomas. Sabemos que estos corpus no son representativos de la gran cantidad de variantes y formas informales de comunicación, pero es una primera aproximación a la parte más fácil de la tarea. En el futuro no descartamos una tarea sobre corpus más informales y variados.

El taller pretende ser un foro de referencia que permita a los investigadores comparar sus herramientas, sistemas y resultados.

Calendario

  • 1 de marzo: Inicio inscripción
  • 21 de abril: Publicación del development-set
  • 12 de mayo: Fecha límite para inscribirse como participante
  • 26 de mayo: Publicación del test-set
  • 29 de mayo: Fecha límite para el envío de resultados
  • Junio: Evaluación. Publicación de los resultados
  • 30 de julio: Fecha límite para el envío de artículos
  • 10 de agosto: Noticifación de aceptación de los artículos
  • 31 de agosto: Versión final de los artículos
  •  15 de septiembre: Taller

Programa

15.30-17.00: TAREA COMPARTIDA

15.30-16.00 Overview of TweetMT: A Shared Task on Machine Translation of Tweets at SEPLN 2015.
Iñaki Alegria, Nora Aranberri, Cristina España-Bonet, Pablo Gamallo, Hugo G. Oliveira , Eva Martínez, Iñaki San Vicente , Antonio Toral and Arkaitz Zubiaga

16.00-16.15 EHU at TweetMT: Adapting MT Engines for Formal Tweets
Inaki Alegria, Mikel Artetxe, Gorka Labaka and Kepa Sarasola

16.15-16.30 The UPC TweetMT participation: Translating Formal Tweets using Context Information
Eva Martínez Garcia, Cristina España-Bonet and Lluís Màrquez

16.30-16.45 Dublin City University at the TweetMT 2015 Shared Task
Antonio Toral, Xiaofeng Wu, Tommi Pirinen, Zhengwei Qiu, Ergun Bicici and Jinhua Du

16.45-17.00 Discusión

17.00-17.30: Café

17.30”-19.00: PRESENTACIONES

17.30-18.10: CHARLA INVITADA Meritxell Gonzalez

18.10-18.30: Language Segmentation of Twitter Tweets using Weakly Supervised Language Model Induction
David Alfter

18.30-18.50:Understandability of machine translated Hindi tweets before and after post-editing: perspectives for a recommender system information
Ritesh Shah and Christian Boitet

18:50: Fin

Bibliografía

Gotti, Fabrizio, Philippe Langlais, and Atefeh Farzindar. “Translating Government Agencies’ Tweet Feeds: Specificities, Problems and (a few) Solutions.” NAACL 2013 (2013): 80.

Jehl, Laura, Felix Hieber, and Stefan Riezler. “Twitter translation using translation-based cross-lingual retrieval.” Proceedings of the Seventh Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2012

J. Kaufmann and J. Kalita, “Syntactic normalization of twitter messages,” in International Conference on Natural Language Processing. (ICON 2011). New Delhi: McMillan, India, 2010, pp. 149–158

Robert Munro. 2010. Crowdsourced translation for emergency response in Haiti: the global collaboration of local knowledge. In AMTA Workshop on Collaborative Crowdsourcing for Translation, Denver.

S. Petrovic, M. Osborne, and V. Lavrenko. The Edinburgh Twitter corpus. In Proceedings of the NAACL HLT 2010 Workshop on Computational. Linguistics in a World of Social Media , pages 25–26, 2010.