Si en los últimos años has cogido un taxi de los amarillos en la ciudad de Nueva York, habrás notado ciertos avances tecnológicos que hacen más fácil la vida al cliente, como, por ejemplo, una pantalla plana que muestra tanto noticias como información sobre el viaje, o la posibilidad de pagar con tarjeta de crédito en cualquier taxi.
Lo que es posible que no seas tan consciente, es que dentro del programa de mejora del servicio al que se han visto sometidos estos taxis incluye también la recolección automática de información sobre cada viaje.
Para cada trayecto se registran, entre otros datos, las coordenadas GPS del origen y del destino, la distancia y duración del mismo, el número de pasajeros y la hora a la que se inició y finalizó el trayecto. Esta información se recopila periódicamente en cada taxi, y se pone a disposición pública a través del portal de la Comisión de Taxis y Limusinas de la ciudad de Nueva York (NYC Taxi and Limousine Commission – TLC). En esta página cualquier persona se puede descargar todos los trayectos realizados en dicha ciudad desde el año 2009, lo que constituyen más un billón (mil millones) de viajes, por lo que podemos decir que el Big Data ha llegado también a los taxis de Nueva York.
¿Qué hacer con los datos de los taxis?
Desde su publicación, múltiples investigadores han utilizado este conjunto de datos para realizar análisis de datos de los taxis de los más variopinto, poniendo de manifiesto la utilidad que aportan los datos abiertos, pero también los peligros que conllevan.
Mi aplicación favorita es una estupenda página que permite visualizar todos los trayectos realizados por un taxi escogido al azar durante un día. Más allá de imaginarte las mil y una historias que han podido pasar en cada uno de esos trayectos, con unas cuantas visualizaciones puedes hacerte una idea de cuáles son las zonas más transitadas por los taxistas, cuántos pasajeros pasan por un taxi, o cuánta caja hace el taxista diariamente y qué porcentaje de esta son propinas.
Posibilidades de los datos abiertos de los taxis
Lo realmente fascinante son las posibilidades que se abren al disponer de un conjunto tan rico de datos en abierto de los taxis, que puede ser explotado por cualquier analista de datos con ganas y tiempo.
Las posibilidades que puede tener un análisis de los datos de los taxis más exhaustivo y profundo son innumerables, y muchas de ellas con aplicaciones directas en el sector y en la mejora de este servicio de transporte público.
Esto es lo que debió pensar Todd W. Schneider, uno de los primeros que realizó un análisis del billón de trayectos. Gracias a él podemos saber datos fundamentales para cualquier turista que se precie, como cuánto se tarda en llegar a cualquiera de los tres aeropuertos desde que cada barrio de Nueva York, cuáles son las zonas más marchosas y más tranquilas por la noche, o si realmente Bruce Willis y Samuel L. Jackson pudieron ir desde el Upper West Side hasta Wall Street en 30 minutos en la Jungla de Cristal 3.
Otros investigadores han estudiado la estrategia que debería seguir un taxista cuando deja a un cliente en el aeropuerto: “¿Me vuelvo a la ciudad o espero la cola?”, “¿Cómo varía esta cola según la hora del día?”.
La administración pública también se puede ver beneficiada a partir de entender los patrones de movilidad de sus ciudadanos, y poder realizar una gestión de recursos más eficiente en función de estos desplazamientos.
Cruzando los datos abiertos con los datos de los taxis
También se pueden cruzar los viajes con otros datos abiertos, adquiriendo los resultados otra dimensión. Por ejemplo, combinando datos recolectados de la empresa Uber se ha podido estimar el impacto que está teniendo esta plataforma, y en qué zonas los conductores adscritos a Uber están reemplazando a los taxis de Nueva York.
Todd W. Schneider incluye en su artículo un análisis de cómo influyen las condiciones meteorológicas a la demanda de servicio de taxis, concluyendo que mientras que la lluvia no afecta apenas, el incremento del volumen de nieve sí que hace que se cojan menos taxis. Este tipo de cruces pueden ser directamente beneficiosos para las empresas, por ejemplo, para decidir dónde situar la próxima sucursal de tu negocio.
Si se cruzan los datos de las localizaciones de las franquicias con los puntos de recogida y bajada de viajeros, se podrían localizar áreas con elevado tráfico, pero sin una tienda cercana, descubriendo así posibles puntos donde colocar tu nueva franquicia.
Los datos abiertos del taxi y la privacidad
La disponibilidad de datos en abierto es un paso de gigante hacia una gestión transparente de las administraciones públicas, así como una fuente de oportunidades para generar nuevos servicios que mejoren la vida de los ciudadanos.
Pero también, puede suponer una amenaza a la privacidad si no se toman las medidas adecuadas: en el caso que nos ocupa, con el análisis de estos datos se han podido identificar a famosos viajando en taxi. Aunque la licencia del coche había sido anonimizada, no es complicado revertir el algoritmo y obtener el número de licencia original.
Gracias a que múltiples páginas publican fotos de famosos subiéndose y bajándose de un taxi incluyendo la fecha, es posible mediante inspección visual localizar el número de licencia del coche, y cruzarlo con el conjunto de datos. A partir de ahí se puede obtener el trayecto que realizó, e incluso la propina que dejó.
Aun eliminando los números de licencia, todavía se puede extraer mucha información mediante las coordenadas GPS sobre dónde vive, trabaja o sale una persona, o incluso se puede determinar cuándo empiezan o terminan los trayectos si el área es poco densa.
Por ejemplo, se puede localizar un edificio conocido, como la sede de un banco, y encontrar dónde viven los empleados del mismo, al menos de los que lleguen en taxi, estudiando los viajes realizados en horas de entrada y salida de la oficina.
El gran salto de los datos abiertos
Más allá de las mejoras que se pueden realizar en los procesos de anonimización, las iniciativas de datos en abierto son la nueva esperanza para crear un sociedad más justa, igualitaria y eficiente.
Conocer cómo se distribuyen los recursos públicos y el uso que se hace de los mismos es un paso fundamental para una mejor redistribución, y un uso más racional. La creciente complejidad de la sociedad en la que vivimos requiere de la tecnología para entender las implicaciones que tienen las decisiones que toman los gobernantes electos en nuestra vida diaria, así como extraer información útil de las innumerables interacciones que se producen en un ecosistema tan enrevesado como es una ciudad, que nos permita encontrar nuevas formas de organizarnos más beneficiosas para todos.
Aun a pesar de la potencialidad y del entusiasmo inicial, el movimiento de datos abiertos no ha explotado como se esperaba en cuanto al número e impacto de aplicaciones desarrolladas.
Los repositorios de datos abiertos tienen infinitud de accesos y descargas, pero se han creado pocas aplicaciones que hayan sido adoptadas masivamente, por ejemplo, es difícil encontrarlas en los rankings de las aplicaciones más descargadas de Apple o de Android.
Es ahora cuando se prevé una nueva generación de aplicaciones sociales que aprendan de los errores del pasado (Lee et al., 2016), exploten el valor social o económico de los datos abiertos y encuentren los mecanismos de coordinación y difusión adecuados para llegar al gran público.
Lo que sí está claro es que los datos en abiertos se utilizan cada vez más, aunque los resultados quedan circunscritos a uso interno de las organizaciones y empresas, o para disfrute de particulares hambrientos de curiosidad.
Referencias
Melissa Lee, Esteve Almirall, Jonathan Wareham (2016) Open Data and Civic Apps: First-Generation Failures, Second-Generation Improvements. Communications of the ACM, Vol. 59 No. 1, Pages 82-89. don: 10.1145/2756542
http://cacm.acm.org/magazines/2016/1/195725-open-data-and-civic-apps/fulltext