Corpus
Se ha generado un conjunto de tuits correspondiente a los días 1 y 2 de abril de 2013, a partir de tuits enviados en el área geográfica de la península ibérica, eliminando aquellas regiones que tienen lenguas cooficiales. El corpus está en gran parte compuesto por tuits con serios problemas de normalización.
A partir de este corpus inicial se han generado dos subconjuntos, uno de desarrollo compuesto por 500 tuits, y otro de test compuesto por 600 tuits.
Debido a las restricciones de uso del API de Twitter (Twitter API Terms of Service), está prohibido redistribuir corpus que contienen contenido textual o información sobre usuarios. Sin embargo, se pueden sustituir dichos campos por identificadores (incluidos Tuit IDs y user IDs). Se puede obtener el contenido de un mensaje lanzando busquedas al API de Twitter mediante el Twitid. El script para descarga de tuits disponible en la zona de descargasproporciona esta funcionalidad.
- Una vez finalizado el plazo de participación, comprobaremos los tuits que siguen públicamente disponibles en ese momento para generar el subconjunto de referencia utilizado para evaluación. El subconjunto de referencia variará ligeramente respecto al conjunto inicial debido a que algunos tuits dejan de estar disponibles por diversos motivos.
Anotación
- La anotación de los tuits se ha llevado a cabo mediande la aplicación Brat (http://brat.nlplab.org/). Cada tuit ha sido anotado siguiendo las siguientes pautas:
- 0-variante: La forma estándar correspondiente a la variante se introduce como nota
- 1-correcto:
- 2-NS/NC:
Con lo felizzz que estaba yo... y Donosti me ha recibido lloviendo. Ahhhhhhhh. felizzz 0 feliz Donosti 1 Ahhhhhhhh 2
Casos
- palabra correcta correspondiente a una entidad (Zaragoza) o un nuevo préstamo (twitter): Correct
- palabra con variación enfática, dialectal, error ortográfico, falta de tilde o tilde errónea, marcar como variation y dar la estándar ( muuuuuuucho -> mucho, kasa -> casa, cafe ->café)
- Varias palabras unidas: marcar como variation y dar la secuencia estándar.
- Una palabra dividida en varias unidades: marcar todas como variation dar la forma estándar completa
- palabra ininteligible o en otro idioma (y otros p. ej) XD: marcar la palabra con NoES
Debería quedar claro que solo se miran candidatos OOV, no real-word errors (p.ej. palabra que debe llevar tilde pero también existe sin tilde).
Descargas
- tweet-norm_es V3: corrección de V2, incluye todos los sets de tuits anotados y utilizados durante Tweet-Norm 2013, y los tuits originales, incluyendo los tuits de test. (Nuevo: 2019/01/07).
- tweet-norm_es V2: incluye todos los sets de tuits anotados y utilizados durante Tweet-Norm 2013, y los tuits originales. (2015/03/17).
- tweet-norm_es V1: incluye todos los sets de tuits anotados y utilizados durante Tweet-Norm 2013. (2013/11/12).
- Manual de etiquetado: Reglas utilizadas por los anotadores para etiquetar los tuits. Incluye instrucciones para el pre-proceso de los tuits.
- Ejemplo de corpus anotado. Incluye instrucciones para descargar los tuits. (Última actualización: 2013/07/08)
- Development corpus: se compone de 500 tuits. (Última actualización: 2013/07/08).
- Colección de 227.255 TweetIds. Colección completa recopilada los días 1 y 2 de abril de 2013, a partir de tuits enviados en el área geográfica de la península ibérica (No incluye los tuits del corpus de test). (2013/06/10).
- Script para descarga de tuits. (Última actualización: 2013/06/18).
- Script de evaluación: calcula el número de aciertos respecto a una referencia (Última actualización: 2013/07/04).
- Corpus de test: se compone de 564 tuits. (2013/07/24).