Tarea | Tweet-norm

Descripción de la tarea

El objetivo de la tarea de normalización consiste en estandarizar una cantidad determinada de tuits.Se preparará un corpus de tweets que incluirá en parte tuits con serios problemas de normalización.
En principio los hashtags y los ids no son palabras OOV.
Manualmente estas palabras fuera de diccionario se etiquetarán como variante/no-variante/caso-especial y en el primer caso se completará la correspondiente forma normalizada.
Los corpus etiquetados que se distribuyan tendrán un id. de tuit y las palabras OOV con las correspondientes equivalencias normalizadas.
Los participantes trabajarán con un corpus de referencia no etiquetado, y un pequeño corpus de desarrollo etiquetado.
Finalmente deberán etiquetar automáticamente en corto plazo el corpus de test.

La tarea consiste en etiquetar una palabra OOV como correcta o proponer la forma correcta de la palabra OOV. La evaluación considerará una propuesta correcta si la propuesta coincide con la anotación de referencia:
- Correcta: si la forma original era correcta (categoría 1) o NS/NC (categoría 2) y no se ha realizado ninguna normalización, o si la forma original era incorrecta (categoría 0) y la normalización propuesta es correcta
- Erronea: En cualquier otro caso.

El rendimiento de los sistemas será evaluado mediante la Precision, según la siguiente formula: