Tarea

Descripción de la tarea

  • El objetivo de la tarea de normalización consiste en estandarizar una cantidad determinada de tuits.Se preparará un corpus de tweets que incluirá en parte tuits con serios problemas de normalización.
  • En principio los hashtags y los ids no son palabras OOV.
  • Manualmente estas palabras fuera de diccionario se etiquetarán como variante/no-variante/caso-especial y en el primer caso se completará la correspondiente forma normalizada.
  • Los corpus etiquetados que se distribuyan tendrán un id. de tuit y las palabras OOV con las correspondientes equivalencias normalizadas.
  • Los participantes trabajarán con un corpus de referencia no etiquetado, y un pequeño corpus de desarrollo etiquetado.
  • Finalmente deberán etiquetar automáticamente en corto plazo el corpus de test.

Evaluación

    • La tarea consiste en etiquetar una palabra OOV como correcta o proponer la forma correcta de la palabra OOV. La evaluación considerará una propuesta correcta si la propuesta coincide con la anotación de referencia:
      • Correcta: si la forma original era correcta (categoría 1) o NS/NC (categoría 2) y no se ha realizado ninguna normalización, o si la forma original era incorrecta (categoría 0) y la normalización propuesta es correcta
      • Erronea: En cualquier otro caso.
  • El rendimiento de los sistemas será evaluado mediante la Precision, según la siguiente formula: 
      • Precision = #propuestas correctas / #palabras OOV en toda la colección