El Instituto de Ingeniería del Conocimiento (IIC) participa junto con el Observatorio de la lengua española y las culturas hispánicas en los Estados Unidos del Instituto Cervantes en la Universidad de Harvard en la investigación “Búsqueda de anglicismos en el español estadounidense a través de Twitter”.
Los investigadores a cargo de este proyecto son Antonio Moreno Sandoval, Investigador senior del IIC y Director del Laboratorio de Lingüística Informática de la UAM, y Francisco Moreno Fernández, Director ejecutivo del Instituto Cervantes en la Universidad de Harvard y catedrático de la Universidad de Alcalá.
El IIC aporta al proyecto una nueva metodología para la búsqueda de anglicismos producidos en Twitter para seleccionar candidatos a anglicismo y validarlos con ejemplos.
Este proyecto partió de la redacción de un Diccionario de anglicismos del español estadounidense (DAEE) y tiene como objetivo detectar préstamos lingüísticos del inglés (anglicismos) en redes sociales de los usuarios de habla hispana en EE. UU., una comunidad lingüística que está en contacto con dos lenguas: el inglés y el español.
Dada la inmediatez, volumen y disponibilidad de los datos, la red social Twitter se presentaba como candidata perfecta para realizar el estudio; pues con ella es posible ver en tiempo real el cambio lingüístico que se está produciendo en el momento.
Para este estudio se han recopilado más de 850.000 tuits, con los que se ha creado un Corpus de Twitter con cerca de 175.000 palabras diferentes; un volumen imposible de estudiar manualmente por los investigadores, por lo que parte esencial de este proyecto ha consistido en establecer filtros para ir eliminando “ruido” de los mensajes.
El proceso se ha desarrollado en tres fases:
- Compilación del corpus de mensajes
En la primera fase se utilizaron herramientas informáticas para filtrar los datos de los mensajes que no eran contenido léxico, para así conseguir una lista de palabras que pudieran ser analizadas por los lexicógrafos; esto es, la creación del corpus de Twitter.
- Limpieza de los mensajes
En la segunda fase se procedió a una “limpieza” exhaustiva de los mensajes, eliminando elementos que no encajaban con la búsqueda: tuits que no estaban en español, tuits repetidos, elementos que aportan “ruido”, como urls, emoticonos, signos de puntuación…
- Extracción de candidatos a anglicismo
En esta fase se afina aún más con filtros automáticos para eliminar elementos que no son anglicismos: palabras en español, nombres propios, onomatopeyas…
De las casi 175.000 palabras, se pasa a una lista de unas 3.800, gracias a los filtros empleados en las tres fases. Los especialistas del Observatorio del Instituto Cervantes en Harvard reducen esta lista a cerca de 600 términos, seleccionados ya como candidatos para analizar cuáles de ellos son anglicismos.
Los mensajes de Twitter son un medio excepcional para descubrir nuevas formas léxicas en el momento presente. La metodología aplicada a este proyecto ha hecho posible el descubrimiento de más de 500 nuevas voces, posibles préstamos lingüísticos para engrosar el diccionario de anglicismos del español estadounidense (DAEE).
Si te interesa saber más, puedes descargarte el PDF compartiéndolo:
[sociallocker]Búsqueda de anglicismos en el español de EE. UU. a través de Twitter (PDF)[/sociallocker]
Interesante el tema de estudio. ¿Adónde se puede conseguir literatura al respecto? Saludos desde El Salvador