Tarea

Descripción de la tarea

La tarea consiste en identificar el idioma o idiomas en los que están escritos los tweets. Centrándose en eventos, noticias, y sucesos ocurridos en la Península Ibérica, la tarea se centra en la identificación de tweets escritos en los 5 idiomas principales de la Península (euskera, catalán, gallego, español, y portugués) e inglés.

Facilitaremos a los participantes en la tarea un corpus de entrenamiento con aproximadamente 15 mil tweets anotados con su idioma correspondiente. Los participantes tendrán un mes para preparar sus sistemas de identificación de idioma a partir de este conjunto de entrenamiento. Después tendrán que aplicar su sistema sobre un conjunto de test no anotado, y enviar sus resultados, los cuales serán evaluados y comparados con el resto de sistemas participantes.

Algunos aspectos a tener en cuenta de la tarea es que algunos tweets incluyen ocasionalmente más de un idioma (p.ej. parte en portugués, y parte en gallego), y que hay algunos para los que no se puede determinar el idioma utilizado (p.ej. “jajaja”). El corpus de la tarea considera también estos casos, con anotaciones como “ca+es” (incluye catalán y español), “ca/es” (podría ser catalán o español, y no es posible diferenciar), “other” (cuando se trata de un idioma diferente a los considerados en la tarea), o “und” (cuando no se puede determinar).

Evaluación

La evaluación se realizará teniendo en cuenta que no todos los idiomas tienen la misma presencia. Así, se obtendrán valores de precisión, cobertura y medida F1 para cada idioma, obteniendo después la media de todos los idiomas. Esto pretende premiar a los sistemas que funcionan bien para un gran número de idiomas, en lugar de aquéllos que funcionen bien sólo para los idiomas más frecuentes como el español y portugués.

La precisión, por tanto, medirá el número de ocurrencias para los que un sistema dé la respuesta correcta. Para determinar si la respuesta dada para un tweet es correcta, se determinará si coincide con el idioma anotado cuando se trate de un solo idioma. Para otros casos con más idiomas u otras categorías, se seguirán los siguientes criterios:

  • Para tweets con más de un idioma, se analizará el número de idiomas detectado por el sistema. Es decir, para un tweet anotado como “ca+es”, se contará como un 0,5 de precisión para el sistema que sólo detecte “ca”, y un 1 para el que detecte ambos.
  • Para tweets ambiguos que pueden pertenecer a más de un idioma, se dará por válida cualquiera de las respuestas. Es decir, para un tweet anotado como “ca/es”, tanto “ca” como “es” serán dadas por respuestas válidas.
  • Las categorías “other” y “und” incluyen tweets que están fuera del alcance de esta tarea, aunque inevitablemente ocurren en la colección de tweets. Por tanto, se aportan ambas anotaciones “other” y “und” en el corpus de entrenamiento, para quien quiera hacer uso de ello, pero no se hará una diferenciación a la hora de evaluar las respuestas para el conjunto de test, por lo que “other” y “und” serán tratados de la misma manera. replica fake