Recursos

Corpus

Se ha construido un corpus específico para la tarea compartida propuesta en TweetLID. Se recopiló una colección inicial durante marzo de 2014, que incluye tweets de 4 regiones de la Península Ibérica, donde coexisten dos lenguas oficiales.  Esas 4 regiones son:

  • Guipuzcoa:  Se recopilaron Tweets en Euskera y Español.
  • Lugo: Se recopilaron Tweets en Gallego y Español.
  • Girona: Se recopilaron Tweets en Catalán y Español.
  • Portugal: Se recopilaron Tweets en Portugués y Español.

A partir del corpus inicial se han generado dos data-sets: un corpus de entrenamiento compuesto por 15.000 tweets y un corpus de test compuesto por 20.000 tweets.

Debido a las restricciones de uso del API de Twitter (Twitter API Terms of Service), está prohibido redistribuir corpus que contienen contenido textual o información sobre usuarios. Sin embargo, se pueden sustituir dichos campos por  identificadores (incluidos Tuit IDs y user IDs). Se puede obtener el contenido de un mensaje lanzando busquedas al API de Twitter mediante el Twitid. El script para descarga de tuits disponible en la zona de descargas.

Una vez finalizado el plazo de participación, comprobaremos los tuits que siguen públicamente disponibles en ese momento para generar el subconjunto de referencia utilizado para evaluación. El subconjunto de referencia variará ligeramente respecto al conjunto inicial debido a que algunos tuits dejan de estar disponibles por diversos motivos.forum replica rolex

Anotación

  • Los ficheros anotados incluyen, además de los IDs de los tuits y los nombres de usuarios, el lenguaje o los lenguajes que contiene cada tuit manualmente anotados. La anotación utiliza los siguientes codigos:
    • eu: Euskera.
    • ca: Catalán.
    • gl: Gallego.
    • es: Español.
    • en: Inglés.
    • pt: Portugués.
    • other: Cualquier lenguaje distinto a los idiomas mencionados anteriormente (e.g., Francés).fake rolex watch bands for sale
    • und: indeterminado. El tuit está compuesto de palabras que son abiertamente utilizadas en cualquiera de los idiomas considerados por la tarea, lo que hace imposible determinar el lenguaje utilizado.
  • En ocasiones, los tuits incluyen mas de un lenguaje, anotado de la siguiente manera:
    • es/gl/pt: cuando un tuit es anotado con dos o más lenguajes separados por el carácter “/” significa que el texto del tuit puede haber sido escrito en cualquiera de esos lenguajes. Para la evaluación, cualquiera de los lenguajes será aceptado como respuesta correcta.
    Final True Detective. Pssss       ca/en/es/gl/pt
    • es+eu: cuando un tuit es anotado con dos o más lenguajes separados por el carácter “+” significa que el tuit contiene partes del texto en cada uno de los idiomas anotados. Para la evaluación, habrá que dar todos los idiomas anotados para considerar la respuesta completamente correcta, sin embargo se tendrán en cuenta respuestas parciales (e.g. responder “es” para un tuit anotado como “es+eu” como fallo para “eu”, pero como acierto para “es”).
    Qeeeee matadaaa da Biyar laneaaaa....      es+eu
    Acho que vi a Ramona hoje but im not sure      pt+en
  • Mencionar que el corpus incluye unicamente tuits que contienen al menos una palabra, (i.e., una cadena formada en su totalidad por caracteres [a-z]), y que menciones tanto de #hashtags como de @usuarios no han sido consideradas a la hora de anotar un tuit.
  • Mencionar también que las Entidades Nombradas no son consideradas para la identificación del idioma. Se asume que un sistema de reconocimiento de entidades sería capaz de identificar dichas entidades en su idioma original.replica watches
Para los que hallan visto los ultimos cap de 'the walking dead'
... cagate lorito           es
  • Finalmente, mencionar que no se diferenciará entre las categorías “other” y “und” en la evaluación, ya que ambas categorías se considerará que incluyen tuits a los que no se les puede asignar ninguno de los idiomas a identificar en la tarea. replica rolex replica

 

Downloads

  • TweetLID_corpusV2: 35K tweets. Este archivo incluye todos los data-sets anotados y aquellos utilizados durante la tarea compartida, así como los scripts ofrecidos a continuación. Además no incluye unicamente tweet Ids, si no que incluye los propios tweets. (Nuevo: 2015/03/17)
  • TweetLID_corpusV1: 35K tweets. Este archivo incluye todos los data-sets anotados y aquellos utilizados durante la tarea compartida, así como los scripts ofrecidos a continuación. (2014/10/01)
  • Script en Python para descargar weets. (Actualizado: 2014/06/06)
  • Script de evaluación: escrito en Perl. (Actualizado: 2014/06/30)