Noticias
-
2016/02/17: Versión actualizada del corpus TweetLID. Corrección mínima de etiquetas incorrectas.
-
2015/03/17: Nueva versión del corpus TweetLID disponible en la sección de Recursos. ¡Este corpus incluye los propios mensajes de Twitter!
-
2014/10/01: Todos los data-sets de TweeLID están a disposición pública in la sección de Recursos
-
2014/09/08: Las actas del workshop están publicadas: http://ceur-ws.org/Vol-1228/
-
2014/07/11: Publicados los resultados!! http://komunitatea.elhuyar.eus/tweetlid/participacion/#Resultados
-
2014/06/30: Se ha descubierto un error el script de evaluación. Por favor, descargad la versión corregida aquí.
-
2014/06/24: Hemos publicado un script para evaluación. está disponible en la sección Recursos.
-
2014/06/04: Publicado el corpus de entrenamiento. Disponible en la sección Recursos.
-
2014/05/28: Nueva fecha de inscripción: 06/06/2014!
TweetLID 2014: Identificación de idioma en Twitter
TweetLID es un taller y tarea compartida en torno a la identificación automatíca del idioma en el que un tweet está escrito. El evento tendrá lugar el día 16 de septiembre de 2014 en Girona, junto al congreso SEPLN 2014. El objetivo de este taller es reunir a un grupo de investigadores interesados en el tema, así como unir fuerzas en una tarea compartida para estudiar y comparar diferentes aproximaciones para la identificación de idioma de tweets.
En la actualidad, la identificación del idioma o idiomas presentes en un tweet está suscitando un interés creciente en la comunidad investigadora (Carter et al., 2013). Conocer el idioma en el que está escrito un tweet resulta crucial si se pretende aplicar posteriormente técnicas PLN sobre su contenido, ya sea para traducción automática, análisis de sentimiento, extracción de información, etc. Una correcta identificación del idioma permitirá garantizar que los recursos lingüísticos utilizados a continuación son los apropiados para el idioma en cuestión.
Sin embargo, y a pesar del creciente número de trabajos existentes en la identificación de idiomas predominantes como el inglés, francés, o español, no se ha estudiado aún la aplicación de estas técnicas a otras lenguas con menor presencia en la red social Twitter, para las que sin embargo cada vez existe mayor número de recursos lingüísticos disponibles. La idea principal de esta tarea es la de centrarse en los 5 idiomas principales de la Península Ibérica (español, portugués, catalán, euskera, y gallego), además del inglés. Estos idiomas pueden aparecer de forma conjunta en numerosas noticias, sucesos y eventos que se dan en la península y su identificación resultará clave para el posterior procesamiento lingüístico en estos casos.
El taller pretende ser un foro de referencia que permita a los investigadores comparar sus algoritmos, sistemas y resultados. La organización pondrá a disposición de los participantes un corpus de desarrollo etiquetado sobre el que desarrollar sus sistemas. La evaluación se realizará sobre un segundo corpus que los participantes tendrán que etiquetar en un breve plazo de tiempo.
Call For Participation
Registro
Los que estén interesados en participar en la tarea y workshop tendrán que enviar un correo a tweetlid@elhuyar.com en el plazo que finaliza el 30 de mayo.
Envío de artículos
Los artículos tendrán una longitud máxima de 4 páginas, y deberán de seguir el formato de la revista SEPLN.
Las actas del workshop se publicarán en el repositorio ceur-ws.org, y serán indexadas por DBLP.
Fechas importantes
- 6 de junio: Fecha límite para incribirse como participante
- 2 de junio: Publicación del development-set
- 1 de julio: Publicación del test-set
- 3 de julio: Fecha límite para el envio de resultados
- 12 de julio: Publicación de los resultados
- 25 de julio: Envio de short papers
- 31 de agosto: Versión final de los artículos
- 16 de septiembre: Taller