Inicio

News

  • 2019/01/07: ¡El corpus Tweet-Norm_es V3 es la última version disponible en la sección de Descargas. Esta versión incluye los tweets originales del dataset de test, no incluídos en la versión V2.
  • 2015/03/17: ¡El corpus Tweet-Norm_es V2 está publicamente disponible en la sección de Descargas! ¡Esta versión incluye los tweets originales además de las anotaciones!
  • 2013/11/19: Los proceedings del taller están disponibles en la sección Proceedings
  • 2013/11/12: ¡El corpus Tweet-Norm_es está publicamente disponible en la sección de Descargas!
  • 2013/09/16: ¡Publicado el programa del taller!
  • 2013/08/20: Se han enviado las revisiones de los artículos a los autores. La versión final de los artículos a de ser enviada para el 31 de Agosto.
  • 2013/07/24: Los resultados the la evaluación estan listos!
  • 2013/07/08:Se han corregido algunos errores en el corpus de development, y se ha actualizado. Disponible en la sección Recursos. Además se ha definido el proceso de evaluación de los sistemas.
  • 2013/06/18: El script para descargar tuits ha sido actualizado, y se ha publicado un script para la evaluación. Los dos están disponibles en la sección Recursos.
  • 2013/06/10: Está a disposición de los participantes una colección compuesta por 227.255  Ids de tuits, si alguien quisiera utilizarlos para el desarrollo de su sistema. El corpus de desarrollo fue extraído de esta colección.
  • 2013/06/05: Publicado el corpus de desarrollo. Disponible en la sección Recursos.

 

Normalización de Tuits

La tarea de normalización de tuits (p. ej. https://www.aclweb.org/anthology/P/P11/P11-1038.pdf) es de gran actualidad y tiene gran utilidad en diversos campos: traducción automática, análisis de sentimiento… Aunque sobre normalización de SMS y tuits en inglés se viene trabajando recientemente, sobre normalización de este tipo de textos en español poco o nada se ha publicado.

Partiendo de esta base diversos grupos de investigación participantes en diversos proyectos hemos pensado organizar un taller/tarea compartida de NORMALIZACION LEXICA DE TUITS EN ESPAÑOL como evento dentro del programa de la conferencia SEPLN 2013 en Madrid, que puede ser vista como continuación/complemento de la tarea TASS, organizada en 2012 y 2013: http://www.daedalus.es/TASS .

Creemos que esta tarea es un reto científico importante y que la competición/cooperación entre grupos de investigación nos va a proporcionar un banco de pruebas de referencia y nos va a permitir impulsar la aplicación de técnicas y algoritmos propuestos recientemente y estudiar su mejora o adaptación.. También permitirá testear otros métodos, algoritmos y recursos lingüísticos de los que disponen los grupos de investigación participantes.

Cuando decimos normalización léxica queremos centrarnos en el resultado de normalizar las palabras (abreviaturas, formas no normalizadas, palabras con letras repetidas…) intentando, en la medida de lo posible, aislar este problema de otras variantes sintácticas, de estilo etc. Uno de los retos será distinguir dentro las palabras fuera del diccionario (OOV) las palabras no normalizadas de nuevas palabras o entidades nombradas.

El taller quiere ser un foro de referencia que permita a los investigadores comparar sus algoritmos, sistemas y resultados. En función de los medios de que dispongamos se decidirá el tamaño del corpus de desarrollo y de test.

Programa y Invitación a participar

==========================================================================
TWEET-NORM 2013
Taller de normalización de Tuits en SEPLN 2013
Madrid, España

20 de Septiembre de 2013.

http://komunitatea.elhuyar.eus/tweet-norm/

==========================================================================
Invitación a participar
==========================================================================

TWEET-NORM 2013, que se celebrará en conjunto con la 29ª edición de la conferencia de la Sociedad Española del Procesamiento del Lenguaje Natural (SEPLN2013) en Madrid (España), invita a todo aquel que esté interesado en sistemas métodos y algoritmos para la normalización léxica de tuits a participar en el taller el día 20 de septiembre.

La inscripción es gratuita, y puede realizarse por email a la dirección tweet-norm at elhuyar dot com o rellenado el formulario que se encuentra en la web del taller.
Aunque no es obligatorio, os animamos a participar en la conferencia SEPLN.

Programa

Aquí está el programa del taller, que se celebrara en conjunto con el Taller TASS, sobre detección de polaridad en tuits:

Viernes, 20 de Septiembre:
- 14:30-15.30: Tweet-norm: Introducción y 3 presentaciones orales
- 15:30-16.30: TASS-2013: Introducción y 3 presentaciones orales
- 16.30-17:00: Discusión y futuros talleres
- 17:00-18:00: Sesión de posters

¡Os esperamos en Madrid!

 

Call For Papers descargar CFP

=========================================================================
TWEET-NORM 2013
Taller de normalización de textos en SEPLN 2013
Madrid, España

15-20 Septiembre, 2013

http://komunitatea.elhuyar.eus/tweet-norm/

=========================================================================
Call for papers
=========================================================================

TWEET-NORM 2013 que se celebra en el marco de la 29 edición de la 
Conferencia Anual de la Sociedad Española para el Procesamiento del Lenguaje
Natural (SEPLN2013) en Madrid, invita a los investigadores a enviar artículos
sobre estudios recientes o no publicados relativos a sistemas, métodos y 
algoritmos para normalización léxica de tuits en español y, especialmente, 
a participar en la tarea compartida que se propone.

Introducción
------------

Uno de los retos más importantes con los que nos enfrentamos hoy en día es
cómo procesar y analizar la gran cantidad de información disponible en 
Internet, y especialmente, en redes sociales como Twitter, donde millones de
personas expresan diariamente ideas y opiniones relativos a cualquier tema de
interés.
Estos textos, denominados tuits, se caracterizan por poseer una longitud
demasiado pequeña en comparación con el tamaño de los textos clásicos. En
consecuencia, los usuarios de este tipo de redes han desarrollado toda una
nueva forma de expresión que incluye abreviaturas, sustitución de palabras,
repetición de letras, uso de emoticones, etc. El resultado es que las actuales
herramientas de PLN poco o nada pueden hacer ante textos de tales
características, si antes dichos textos no son normalizados.

La tarea de normalización léxica que se propone consiste, por tanto, en 
estandarizar una cantidad determinada de tuits, identificando y normalizando, 
abreviaturas, palabras con letras repetidas, y en general cualquier palabra
fuera de diccionario, sin tener en cuenta variantes sintácticas o de estilo.

Si bien sobre esta tarea se han realizado algunos avances para inglés, para
español son muy pocos y escasos los estudios realizados y los recursos
disponibles hasta la fecha. Por ello el objetivo del taller es
proporcionar un foro de discusión y comunicación donde los investigadores
puedan testear métodos, algoritmos y recursos, así como obtener un banco de
pruebas de referencia que permita impulsar la aplicación de técnicas y
algoritmos dentro de este área de gran actualidad. Con ese objetivo, se plantea
una tarea compartida en la que los participantes deberán normalizar un conjunto 
tuits. Para todo ello, la organización proporcionará un corpus completamente
etiquetado que posibilita a los investigadores la comparación de los sistemas
presentados.

Corpus
------

El corpus está formado por tuits correspondientes a los días 1 y 2 de abril de
2013, en el área geográfica de la península ibérica, eliminando aquellas
regiones que tienen lenguas cooficiales, y está en gran parte compuesto por
tuits con serios problemas de normalización.

A partir de este corpus inicial se han generado dos subconjuntos, uno de
desarrollo compuesto por 500 tuits, y otro de test compuesto por 2000 tuits.
Los corpus estarán disponibles en la web del taller en la dirección 

http://komunitatea.elhuyar.eus/tweet-norm/recursos/

Registro
--------

Los participantes deberán enviar un mensaje antes del 31 de Mayo a
tweet-norm@elhuyar.com con el fin de obtener el corpus.

Envío de artículos
-------------------

Los trabajos  enviados, que tendrán una longitud máx ima de 4 páginas,
deberán seguir el formato establecido por la SEPLN
(http://nil.fdi.ucm.es/sepln2013/callen.html) y serán enviados vía web.

Fechas importantes
---------------------------

30 de Mayo: fecha límite para inscribirse como participante y publicación
del development-set
5 de julio: publicación del test-set.
15 de julio: fecha límite para el envío de resultados
25 de julio: publicación de los resultados
31 de julio: envío de artículos
20 de septiembre: taller