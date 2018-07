06 de julio 2018 , 12:00 a.m.

06 de julio 2018 , 12:00 a.m.

El reto de nuestro anterior artículo fue diseñado por dos investigadores del Instituto Caro y Cuervo, Sergio Jiménez y George Dueñas, que analizaron 250 millones de tuits recolectados de 333 ciudades en 21 países en donde se habla español.

Para su estudio combinaron dos criterios: el primero fue medir la “especificidad” de cada palabra utilizada en el corpus, pues na palabra de carácter regional tiene una especificidad alta.



"Para que esto sea así, la palabra tiene que ser de uso frecuente en un conjunto pequeño de ubicaciones geográficas y de poco o menor uso en el resto de ubicaciones geográficas. Por ejemplo, sabemos que “chévere” es un regionalismo colombiano porque se usa mucho en las 21 ciudades colombianas incluidas en el corpus y es de poco uso en las otras 312 ciudades.", explicaron



El segundo criterio consistió en medir la “coherencia geográfica” de cada palabra, para esto confirmaron que las localizaciones donde es frecuente usar el término estuvieran agrupadas en una región geográfica definida.



"Por ejemplo, la palabra 'hipódromo' tiene una alta especificidad porque solo es de uso frecuente en las pocas ciudades donde hay hipódromos. Sin embargo la palabra no tiene coherencia geográfica porque las ciudades con hipódromo están esparcidas en todo el mundo panhispánico y no en una región definida. Entonces, a pesar de su alta especificidad, no es un regionalismo por su baja coherencia geográfica. Un buen regionalismo debe tener alta especificidad y alta coherencia geográfica", concluyeron.

La solución:

Estos son los significados correctos de cada uno de los términos. Foto: EL TIEMPO

Sergio Jiménez y George Dueñas le explican el marco teórico detrás del estudio que dio origen a nuestro reto de este viernes.

¿Para qué sirve conocer los regionalismos del español?

Las personas crean y evolucionan regionalismos más rápido de lo que estos pueden aparecer en los diccionarios. Entonces se necesita una manera de identificar las palabras regionales y su significado de manera confiable y actualizada para proveer ese conocimiento y lograr una comunicación adecuada.



¿No sería suficiente con un diccionario reciente?

Para las personas que construyen los diccionarios es muy difícil estar al tanto de todas las palabras regionales que se crean y evolucionan, ya que los hablantes del español son demasiados y están ubicados en demasiados lugares. Una manera alternativa para abordar ese problema se llama 'Lingüística de Corpus'.

¿Qué es un corpus?

Es una gran cantidad de texto del cual se puede extraer conocimiento lingüístico utilizando estadísticas. Por ejemplo, todos los ejemplares de EL TIEMPO publicados en los últimos 100 años es un corpus. Con un corpus como ese se podría saber qué palabras nuevas aumentan o disminuyen su uso en el dominio de las noticias en Colombia. Con 10 ejemplares no podemos responder adecuadamente esa pregunta, pero con miles de ejemplares sí se puede porque se recolecta suficiente evidencia para analizar cada fenómeno lingüístico.



¿Qué corpus se usó para este ejercicio?

Las redes sociales son ideales para esto. En particular, Twitter porque los tuits se aproximan mucho al lenguaje oral. Hay disponibilidad de grandes cantidades de trinos y lo más importante es que están geolocalizados. O sea, cada tuit tiene la información de las coordenadas geográficas (latitud y longitud) de donde fue escrito. En nuestra investigación recolectamos un corpus con 250 millones de tuits recolectados de 333 ciudades en 21 países donde el español se habla.

