Actualmente se está hablando mucho del Procesamiento de Lenguaje natural (PLN). Las tecnologías lingüísticas están ganando terreno en este mundo cada vez más digital, y poco a poco se extiende su uso en los sectores profesionales con el objetivo de descubrir, clasificar, organizar o buscar contenido de forma automática, lo cual puede redundar en un uso más eficiente del tiempo, una reducción de gastos y una toma de decisiones más ágil en las organizaciones.
Una de las aplicaciones de PLN son las herramientas Detector de Named-entity recognition (NER) o detector de reconocimiento de nombres de entidades. Como su nombre indica, el NER detecta entidades como, por ejemplo, personas, localizaciones, organizaciones o marcas. El NER utiliza la tecnología de Machine Learning, reglas y corpus lingüísticos.
¿Qué son los NER?
Los Named Entity Recognition, (NER) son herramientas automáticas de Procesamiento de Lenguaje Natural que ayudan a entender el qué, quién y dónde de una serie de documentos.
Nacieron como sustituto de la extracción de información relevante de los textos, se pensó: “si al menos tengo qué se ha hecho, quién lo ha hecho y dónde, tendré información relevante de un documento”, y así es.
Objetivo de los NER
El objetivo fundamental del NER es identificar personas, organizaciones y localizaciones. Hoy en día hay NER de 3 etiquetas básicas:
- Personas
- Organizaciones
- Localizaciones)
También podemos encontrar NER de 7 etiquetas:
- Personas
- Organizaciones
- Localizaciones
- Tiempo
- Moneda
- Calles
- Colectivos
Existen NER focalizados en una sola lengua (inglés, español…) y también dependientes de una sola temática (noticias de prensa, legal, sanitario, etc.), aunque la mayoría de los NER son generalistas, es decir, cubren (o intentan cubrir) todas las temáticas en una o más lenguas.
Ejemplo de NER
Personas: Cai Guo-Quiang, El Greco, Tiziano, Velázquez, Rubens
Localizaciones: Quanzhou, China
Organizaciones: Museo del Prado, Acciona
Un paso más del NER es el Named Entity Linked, el cual permite relacionar las entidades o bien con sus puntos geográficos o bien con enlaces a la Wikipedia o ambos. Por ejemplo, ante la anterior noticia, tendríamos las siguientes páginas de la Wikipedia o de Geonames:
La mayoría de las herramientas NER del mercado tienen limitaciones en cuanto al número de idiomas o las temáticas que analizan, ya que tener una buena precisión (acertar con los términos evitando falsos positivos) y cobertura (extraer la mayor parte de los términos, evitando falsos negativos) en muchos idiomas y temáticas es costoso.
A la hora de utilizar una herramienta NER, conocer sobre qué temática y lengua se han entrenado los motores nos puede dar una idea sobre el acierto y la cobertura de dicha herramienta.
Si quieres que te contemos algo más sobre los NER, no dudes en ponerte en contacto con nosotros.
estoy trabajado con este tema desde hace unos dias. ¿ademas hay mas informaciones?