La revolución de los datos

La ciencia de datos se nutre del flujo de información que generan los usuarios de dispositivos móviles, y promete propulsar la investigación en la salud y la energía. Equipos del CSIC estudian su aplicación en ciberseguridad y epidemiología

Fecha de noticia: 
Wednesday, 13 July, 2022

En solo un minuto, Google recibe más de cuatro millones de peticiones de búsqueda. Cada día Facebook recoge 300 millones de fotos y Twitter acumula 400 millones de tuits. Amazon cuenta ya con 278 millones de clientes de los que registra datos y comportamientos de compra. Son cifras extraídas del libro Big data. Conceptos, tecnologías y aplicaciones (CSIC-Catarata), en el que los investigadores David Ríos y David Gómez-Ullate analizan el potencial de este mar de datos y los retos que plantea su utilización. Cada mail, whatsapp, descarga, compra online o interacción en redes sociales deja rastro: un torrente de información sobre cómo actuamos, nos sentimos, nos movemos o reaccionamos ante problemas personales, nuevos productos de consumo o ciertas decisiones políticas. Son miles de millones de datos     –big data– que despiertan un interés creciente en Gobiernos y empresas, y que se caracterizan por su gran volumen, la velocidad a la que se producen y la variedad de formatos que presentan.

“Al hablar de big data con frecuencia se pone el énfasis en el volumen de datos y en la capacidad de almacenarlos y procesarlos; sin embargo, para mí lo relevante es extraer valor de esos datos, emplear adecuadamente algoritmos para su procesamiento que permitan aprender de ellos y tomar decisiones mejores. Se trata de que la aplicación que se desarrolle en cada caso pueda predecir comportamientos futuros y realizar tareas que entendemos como inteligentes”, explica David Ríos, del Instituto de Ciencias Matemáticas del CSIC.

Este es el enfoque que vertebra el proyecto de la Agencia Estatal de Seguridad Aérea, junto a la Real Academia de la Ciencia, que Ríos ha coordinado: “Ayudamos a elaborar el Programa Estatal de Seguridad Operacional, centrado en mejorar la asignación de los recursos para reducir la probabilidad de que se produzcan incidentes de seguridad y, si se producen, disminuir su impacto”, afirma. Para ello han construido modelos matemáticos de toma de decisiones y modelos de predicción complejos que contemplan consecuencias múltiples, “desde lograr que haya menos muertes a que el efecto sobre la imagen de país sea el menor posible”, detalla. Este trabajo ha redefinido la gestión de riesgos de seguridad aérea y ha permitido al Estado ahorrar 800 millones de euros en costes de seguridad equivalentes.

En los últimos años, los avances tecnológicos y la mayor disponibilidad de datos han propiciado un despegue del big data sin precedentes, una tendencia que tiene su reflejo en la investigación. Los libros blancos del CSIC Digital & complex information, coordinado por Roberta Zambrini y Gemma Rius, e Inteligencia artificial, robótica y datos, coordinado por Carles Sierra y Sara Degli-Esposti, analizan los desafíos de la actual sociedad digital y describen proyectos relacionados con el big data en los que están implicados decenas de institutos del organismo.

La temática es muy variada, pero hay dos ámbitos en los que Ríos cree que la ciencia de datos será especialmente relevante: salud y energía. En el primero, el big data se utilizará, por ejemplo, para descubrir nuevos fármacos. Él mismo participa en un proyecto del ICMAT en el que “se reemplazan actividades experimentales muy costosas, como diseñar una molécula y probarla, por la construcción de modelos matemáticos que permiten predecir las propiedades que interesan de esas moléculas. Así el proceso de fabricación de un medicamento es más rápido”, señala.

En el campo de la energía, muchos esfuerzos se orientan a la predicción de hábitos de consumo. “Va a ser habitual la figura de los prosumidores [consumidores que también producen], es decir, habrá muchos pequeños productores de energía y la gestión de esos datos será fundamental para tener mercados más eficientes”, afirma. En este sector, además, el big data se relaciona con el ahorro energético y la sostenibilidad: “Tengo amigos que tienen ultrasensorizadas sus casas para saber con detalle cuál es la temperatura de cada habitación y las horas de mayor consumo. Toda esa información sirve para construir modelos de predicción y lograr un consumo más eficiente”.

Exfiles: big data contra la delincuencia

Otras áreas en las que el big data ya se aplica intensamente son la agricultura y la ciberseguridad. En este último ámbito se inscribe el proyecto europeo Exfiles, en el que participan los investigadores Salvador Hidalgo y Jofre Pallarès, del Instituto de Microelectrónica de Barcelona (IMB-CNM). Ambos resumen el propósito de esta iniciativa con un ejemplo hipotético: la policía consigue el móvil de un sospechoso de pornografía infantil. Una orden judicial permite que el teléfono se abra para tener evidencias del delito, pero está encriptado. Ahí entran en juego las herramientas que se están desarrollando en el proyecto: distintos métodos hardware y software para extraer datos de smartphones usados por delincuentes que puedan servir como evidencias forenses en un proceso judicial.

David Ríos, investigador del Instituto de Ciencias Matemáticas del CSIC. / Álvaro Muñoz Guzmán 

“En un móvil moderno de alta gama el contenido de la memoria está encriptado. Es necesario encontrar la clave de encriptación para poder acceder a esa información. Generalmente, esta clave se almacena dentro de su procesador principal; para su recuperación, debemos desmontar el circuito integrado capa a capa, analizando su funcionalidad hasta localizar el lugar donde se guarda la información que nos permitirá desencriptar la memoria”, explica Hidalgo.

En Exfiles hay varios grupos de investigación que están trabajando en diversos métodos para acceder a los chips de los dispositivos. En este proceso, el análisis de cantidades masivas de datos es ineludible: “A veces se introduce en el teléfono una clave de encriptación inventada, y al comprobar que no es correcta, nos devuelve un mensaje de error. Esta acción se repite miles de veces para observar cuál el consumo de energía del chip en esas operaciones. Después, analizando esos datos, se puede llegar a descubrir cuál es la clave secreta. Pero necesitamos un ordenador que repita este ciclo una y otra vez durante horas”, cuenta Pallarès.

El proyecto aglutina a un consorcio integrado por centros de investigación –el CSIC y su homólogo francés, el Centre National de la Recherche Scientifique (CNRS)–, universidades, empresas de ciberseguridad y grupos forenses de cinco agencias policiales de Noruega, Países Bajos, Alemania, Francia y España. Una especificidad de Exfiles es que se enmarca en un ámbito estrictamente legal; su objetivo es lograr pruebas que puedan utilizarse en un juicio.

“Los usuarios de estas técnicas, que podrán aplicarse en investigaciones sobre pederastia, terrorismo o crimen organizado, son forenses de fuerzas de seguridad públicas. Las herramientas desarrolladas en el proyecto se usarán solo para obtener evidencias probatorias, siempre con una orden judicial que permita su uso”, recalcan.

La principal aportación del CSIC es que el grupo de trabajo del IMB-CNM es de los pocos en Europa que puede aunar el diseño y la producción de este tipo de tecnología, gracias a infraestructuras como la Sala Blanca de Micro y Nanofabricación de su instituto. Los objetivos de Exfiles son complejos: “Cada chip tiene su propio dibujo, una serie de formas geométricas que definen los diferentes transistores y funcionalidades lógicas. Con big data e inteligencia artificial aplicamos procedimientos matemáticos que facilitan la identificación de los componentes e interconexiones del circuito, reduciendo el tiempo necesario para su estudio y reconstrucción”.

Por otro lado, los fabricantes, que hacen dispositivos cada vez más seguros, son reacios a colaborar con la policía. Pallàres recuerda cuando, en 2016, el FBI se incautó del teléfono móvil del sospechoso de un ataque terrorista. “Era un iPhone con información encriptada. Apple se negaba a revelar sus medidas de seguridad y al final el FBI pagó a una empresa israelí que tenía software para burlar esa seguridad. Pero fue una solución temporal. En la siguiente generación de móviles, Apple neutralizó el software israelí. Es como el juego del gato y el ratón”, describe. Esta situación explica las cláusulas de confidencialidad del proyecto. “Lógicamente, nunca se publicará qué chips estamos analizando ni qué soluciones estamos encontrando”, comentan.

Agricultura de precisión a bajo coste

El proyecto Morera (Sistema para la monitorización del riego eficiente y el rendimiento agrícola) ejemplifica el uso del big data para lograr una agricultura más sostenible. Su objetivo es optimizar la productividad agraria en un contexto de escasez de agua. Impulsado por el Centro para el Desarrollo Tecnológico Industrial (CDTI), en él participan varias empresas y organismos públicos de investigación, entre ellos el Instituto de Agricultura Sostenible (IAS) del CSIC. Ahí trabaja el equipo que coordina Victoria González con una misión clara: “Desarrollamos algoritmos de inteligencia artificial y big data necesarios para identificar la dosis óptima de riego en función de las necesidades de los cultivos y de la cantidad de agua disponible”, explica la investigadora.

Con la ayuda de instrumentos ópticos a bordo de satélites miniaturizados, Morera pretende monitorizar la evapotranspiración de los cultivos [cantidad de agua que usa la planta] a partir de las imágenes obtenidas con una cámara térmica de gran resolución. De este modo se lleva a cabo un seguimiento personalizado de cada parcela y es posible evitar a tiempo niveles de estrés hídrico excesivos que pongan en peligro las cosechas. Los agricultores podrán aplicar “la agricultura de precisión a bajo coste con un sistema que les proporcionará una medida periódica del estado de los cultivos. También les dará recomendaciones personalizadas de riego y previsiones de rendimiento basadas en nuestros algoritmos”, detalla González.

El proyecto Face usa herramientas de modelado de datos sobre propagación epidémica. / IStock

En el escenario actual, con los Objetivos de Desarrollo Sostenible de la ONU como meta y un sinfín de recomendaciones europeas en torno a la sostenibilidad y la seguridad alimentaria, estos propósitos cobran especial relevancia. “El campo se enfrenta a muchos retos: caída de precios, subida de costes de producción y, por encima de todo ello, el cambio climático”. En consecuencia, González considera que los agricultores se enfrentan a “la necesidad de producir más con menos recursos”. “Y si hay un recurso limitado en la agricultura mediterránea, ese es el agua”, añade. Este proyecto podría reducir hasta un 25% la necesidad hídrica en los cultivos al integrar datos de múltiples fuentes. Morera, que comenzó a desarrollarse el pasado año, se prolongará hasta finales de 2023 y cuenta con un presupuesto de 5,3 millones de euros. 

Big data y propagación pandémica

En el ámbito de la salud, la tecnología big data tiene múltiples aplicaciones: desde la provisión de técnicas de imagen y ayuda al diagnóstico de enfermedades, hasta herramientas capaces de extraer, filtrar y analizar la información relevante para estudios en epidemiología y salud pública. En su libro, Ríos y Gómez-Ullate ponen como ejemplo la detección temprana de melanomas, algo crucial para que el tratamiento posterior sea eficaz. Tal y como relatan, en poco tiempo dispondremos de una app en el móvil “en la que podremos hacer una foto del lunar y nos dirá inmediatamente de qué se trata” descifrando los píxeles de la imagen a partir del análisis de miles de datos.

Dentro de los estudios epidemiológicos, y enmarcado en las actividades de la plataforma Salud Global del CSIC, el proyecto Face usa herramientas para el modelado y análisis de datos en relación con la propagación epidémica. Su coordinador, José J. Ramasco, es investigador del Instituto de Física Interdisciplinar y Sistemas Complejos (IFISC), ubicado en Palma de Mallorca. Ramasco lleva 15 años trabajando en big data, en particular analizando los efectos de la movilidad sobre la propagación de epidemias.

“Cuando comenzó la pandemia, tiramos de datos y trabajos previos, no tanto para hacer predicciones como para entender los patrones de propagación del SARS-CoV-2. Partíamos del supuesto de que a una población comenzaban a llegar personas infectadas y simulábamos distintos escenarios para entender cómo se comportaría la epidemia en esa zona”, explica. Para ello se basaban en información empírica sobre la cantidad de gente que viajaba de un sitio a otro. “Vimos que si en ese contexto no cortas la movilidad, a nivel local habrá olas mayores, la enfermedad avanzará más y se producirán picos más fuertes que pondrán el sistema sanitario en riesgo de colapso”, añade.

Con Face buscan ir más allá de la construcción de un modelo y abrir el proyecto a la ciudadanía. “Queremos desarrollar un ecosistema de datos que pueda utilizar todo el mundo siguiendo la filosofía de la ciencia participativa. Cualquier persona podrá ver, a partir de datos de todo el país, qué pasaría si en un lugar comienza una epidemia que provoca X enfermedad (covid, gripe, tuberculosis u otra). El modelo dará unos resultados, los analizará con gráficos y se podrán descargar”, apunta Ramasco.

La idea es que la gente acceda a los datos y pueda cambiar variables dentro de esos modelos, simulando sus propios escenarios. La siguiente fase de Face consistiría en que cualquiera pueda subir sus propios datos para después analizarlos con distintas herramientas y, en algunos casos, bajarlos. “Así se facilitará la reusabilidad de la información. Cuando finalice el proyecto, nos gustaría que los usuarios den vida a la herramienta”, comenta.

Face aúna tecnología big data y machine learning. En este caso, los datos masivos proceden de los usos de teléfonos móviles y redes sociales. “Nos sirven para entender cuánta gente se mueve y cómo lo hace. En las epidemias conocer esto es muy importante. Además, hay que disponer de otra información como el lugar de residencia de la población o dónde trabaja, para después cruzar todos esos datos”, señala Ramasco. 

Junto al IFISC, que coordina el proyecto y se dedica al modelado de datos, hay otros tres institutos del CSIC implicados en Face: el Instituto de Física de Cantabria IFCA (CSIC-UC), también coordinador del proyecto y que asume la parte de computación, el Instituto de Economía, Geografía y Demografía, que aporta datos sociales, y el Centro de Estudios Avanzados de Blanes, que investiga sobre la posibilidad de que determinados vectores, como los mosquitos, influyan en la transmisión de las enfermedades.

Ventajas y riesgos

Para Ramasco, la principal ventaja del big data es que “antes los datos sociales eran bastante escasos, prácticamente solo se basaban en encuestas y entrevistas. Hoy, la utilización de los datos que proceden del uso de teléfonos móviles y redes sociales abre muchas oportunidades”.

Aunque en su opinión pesan más los aspectos positivos, como todas las tecnologías, esta no está exento de riesgos. En los datos personales puede ser peligroso todo lo que afecta la privacidad. “Existen leyes al respecto y en nuestras investigaciones la información ya está anonimizada o tratada de forma agregada. Pero hay millones de datos que están en las redes sociales en manos de empresas con intereses muy diferentes”, subraya. Ese lado oscuro se materializa también en las fake news, que se construyen con modelos de aprendizaje automático que han sido entrenados con millones de datos.

La pandemia, sobre todo al principio, evidenció otro asunto importante. “Ante una situación así, los Gobiernos necesitan cierta información de forma crítica para salvaguardar la salud pública. Es esencial saber qué hace la gente, dónde va, qué necesita, etc. Estos datos tienen un valor para el interés común, pero hay que establecer protocolos para saber exactamente en qué momento deben utilizarse y a qué datos puede accederse en estas situaciones”, apunta.

La velocidad a la que se producen los desarrollos tecnológicos hace difícil predecir escenarios futuros. No obstante, el momento actual indicar que el big data es un campo de estudio con un potencial enrome. Con todo, incluso quienes se dedican a descubrir sus potencialidades, advierten contra las exageraciones: “Esta tecnología no es ninguna panacea. Hay proyectos de big data que no se sabe realmente para qué se hacen. En realidad, estamos hablando de modelos estadísticos, pero de dimensiones mucho mayores que han requerido nuevos desarrollos matemáticos e informáticos para poderlos implementar”, sostiene Ríos.

El devenir del big data lo marcarán esos desarrollos: no solo se trata de diseñar más aplicaciones, sino de avanzar en las metodologías científicas de la estadística y del aprendizaje automático, la base del big data.

 

Mónica Lara del Vigo / CSIC Comunicación

reportaje1.jpg
Download material