===================================================================================== TWEET-NORM 2013 Taller de normalización de textos en SEPLN 2013 Madrid, España 15-20 Septiembre, 2013 http://komunitatea.elhuyar.eus/tweet-norm/ ===================================================================================== Call for papers ===================================================================================== TWEET-NORM 2013 que se celebra en el marco de la 29 edición de la Conferencia Anual de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN2013) en Madrid, invita a los investigadores a enviar artículos sobre estudios recientes o no publicados relativos a sistemas, métodos y algoritmos para normalización léxica de tweets en español y, especialmente, a participar en la tarea compartida que se propone. Introducción ------------ Uno de los retos más importantes con los que nos enfrentamos hoy en día es cómo procesar y analizar la gran cantidad de información disponible en Internet, y especialmente, en redes sociales como Twitter, donde millones de personas expresan diariamente ideas y opiniones relativos a cualquier tema de interés. Estos textos, denominados tweets, se caracterizan por poseer una longitud demasiado pequeña en comparación con el tamaño de los textos clásicos. En consecuencia, los usuarios de este tipo de redes han desarrollado toda una nueva forma de expresión que incluye abreviaturas, sustitución de palabras, repetición de letras, uso de emoticones, etc. El resultado es que las actuales herramientas de PLN poco o nada pueden hacer ante textos de tales características, si antes dichos textos no son normalizados. La tarea de normalización léxica que se propone consiste, por tanto, en estandarizar una cantidad determinada de tweets, identificando y normalizando, abreviaturas, palabras con letras repetidas, y en general cualquier palabra fuera de diccionario, sin tener en cuenta variantes sintácticas o de estilo. Si bien sobre esta tarea se han realizado algunos avances para inglés, para español son muy pocos y escasos los estudios realizados y los recursos disponibles hasta la fecha. Por ello el objetivo del taller es proporcionar un foro de discusión y comunicación donde los investigadores puedan testear métodos, algoritmos y recursos, así como obtener un banco de pruebas de referencia que permita impulsar la aplicación de técnicas y algoritmos dentro de este área de gran actualidad. Con ese objetivo, se plantea una tarea compartida en la que los participantes deberán normalizar un conjunto tweets. Para todo ello, la organización proporcionará un corpus completamente etiquetado que posibilita a los investigadores la comparación de los sistemas presentados. Corpus ------ El corpus está formado por tweets correspondientes a los días 1 y 2 de abril de 2013, en el área geográfica de la península ibérica, eliminando aquellas regiones que tienen lenguas cooficiales, y está en gran parte compuesto por tweets con serios problemas de normalización. A partir de este corpus inicial se han generado dos subconjuntos, uno de desarrollo compuesto por 500 tweets, y otro de test compuesto por 2000 tweets. Los corpus estarán disponibles en la web del taller en la dirección http://komunitatea.elhuyar.eus/tweet-norm/recursos/ Registro -------- Los participantes deberán enviar un mensaje antes del 31 de Mayo a tweet-norm@elhuyar.com con el fin de obtener el corpus. Envío de artículos ------------------- Los trabajos enviados, que tendrán una longitud máxima de 4 páginas, deberán seguir el formato establecido por la SEPLN (http://nil.fdi.ucm.es/sepln2013/callen.html) y serán enviados vía web. Fechas importantes --------------------------- 30 de Mayo: fecha límite para inscribirse como participante y publicación del development-set 5 de julio: publicación del test-set. 15 de julio: fecha límite para el envío de resultados 25 de julio: publicación de los resultados 31 de julio: envío de artículos 20 de septiembre: taller