Descripción de la tarea
- El objetivo de la tarea de normalización consiste en estandarizar una cantidad determinada de tuits.Se preparará un corpus de tweets que incluirá en parte tuits con serios problemas de normalización.
- En principio los hashtags y los ids no son palabras OOV.
- Manualmente estas palabras fuera de diccionario se etiquetarán como variante/no-variante/caso-especial y en el primer caso se completará la correspondiente forma normalizada.
- Los corpus etiquetados que se distribuyan tendrán un id. de tuit y las palabras OOV con las correspondientes equivalencias normalizadas.
- Los participantes trabajarán con un corpus de referencia no etiquetado, y un pequeño corpus de desarrollo etiquetado.
- Finalmente deberán etiquetar automáticamente en corto plazo el corpus de test.
Evaluación
- La tarea consiste en etiquetar una palabra OOV como correcta o proponer la forma correcta de la palabra OOV. La evaluación considerará una propuesta correcta si la propuesta coincide con la anotación de referencia:
- Correcta: si la forma original era correcta (categoría 1) o NS/NC (categoría 2) y no se ha realizado ninguna normalización, o si la forma original era incorrecta (categoría 0) y la normalización propuesta es correcta
- Erronea: En cualquier otro caso.
- El rendimiento de los sistemas será evaluado mediante la Precision, según la siguiente formula:
- Precision = #propuestas correctas / #palabras OOV en toda la colección