=====================================================================================
TWEET-NORM 2013
Taller de normalización de textos en SEPLN 2013
Madrid, España

15-20 Septiembre, 2013

http://komunitatea.elhuyar.eus/tweet-norm/




=====================================================================================
Call for papers
=====================================================================================


TWEET-NORM 2013 que se celebra en el marco de la 29 edición de la Conferencia Anual
de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN2013)
en Madrid, invita a los investigadores a enviar artículos sobre estudios
recientes o no publicados relativos a sistemas, métodos y algoritmos para
normalización léxica de tweets en español y, especialmente, a participar en la tarea
compartida que se propone.


Introducción
------------

Uno de los retos más importantes con los que nos enfrentamos hoy en día es cómo
procesar y analizar la gran cantidad de información disponible en Internet, y
especialmente, en redes sociales como Twitter, donde millones de personas
expresan diariamente ideas y opiniones relativos a cualquier tema de interés.
Estos textos, denominados tweets, se caracterizan por poseer una longitud
demasiado pequeña en comparación con el tamaño de los textos clásicos. En
consecuencia, los usuarios de este tipo de redes han desarrollado toda una
nueva forma de expresión que incluye abreviaturas, sustitución de palabras,
repetición de letras, uso de emoticones, etc. El resultado es que las actuales
herramientas de PLN poco o nada pueden hacer ante textos de tales
características, si antes dichos textos no son normalizados.

La tarea de normalización léxica que se propone consiste, por tanto, en estandarizar una
cantidad determinada de tweets, identificando y normalizando, abreviaturas,
palabras con letras repetidas, y en general cualquier palabra fuera de
diccionario, sin tener en cuenta variantes sintácticas o de estilo.

Si bien sobre esta tarea se han realizado algunos avances para inglés, para
español son muy pocos y escasos los estudios realizados y los recursos
disponibles hasta la fecha. Por ello el objetivo del taller es
proporcionar un foro de discusión y comunicación donde los investigadores
puedan testear métodos, algoritmos y recursos, así como obtener un banco de
pruebas de referencia que permita impulsar la aplicación de técnicas y
algoritmos dentro de este área de gran actualidad. Con ese objetivo, se plantea una tarea compartida 
en la que los participantes deberán normalizar un conjunto tweets. Para todo ello, la
organización proporcionará un corpus completamente etiquetado que posibilita a
los investigadores la comparación de los sistemas presentados.


Corpus
------

El corpus está formado por tweets correspondientes a los días 1 y 2 de abril de
2013, en el área geográfica de la península ibérica, eliminando aquellas
regiones que tienen lenguas cooficiales, y está en gran parte compuesto por
tweets con serios problemas de normalización.

A partir de este corpus inicial se han generado dos subconjuntos, uno de
desarrollo compuesto por 500 tweets, y otro de test compuesto por 2000 tweets.
Los corpus estarán disponibles en la web del taller en la dirección 
http://komunitatea.elhuyar.eus/tweet-norm/recursos/ 



Registro
--------

Los participantes deberán enviar un mensaje antes del 31 de Mayo a tweet-norm@elhuyar.com con 
el fin de obtener el corpus.



Envío de artículos
-------------------

Los trabajos  enviados, que tendrán una longitud máxima de 4 páginas, deberán
seguir el formato establecido por la SEPLN
(http://nil.fdi.ucm.es/sepln2013/callen.html) y serán enviados vía web.



Fechas importantes
---------------------------

30 de Mayo: fecha límite para inscribirse como participante y publicación del
development-set
5 de julio: publicación del test-set.
15 de julio: fecha límite para el envío de resultados
25 de julio: publicación de los resultados
31 de julio: envío de artículos
20 de septiembre: taller