martes, 23 de agosto de 2011

El reto de los grandes volúmenes de datos


Los grandes volúmenes de datos actuales están forzando a los investigadores a encontrar nuevas técnicas para el descubrimiento de conocimientos y la extracción de datos.

Por Erica Naone

Científicos de alto nivel de empresas como Google y Yahoo se reúnen junto a destacados académicos en la 17 conferencia sobre el Descubrimiento de Conocimientos y la Extracción de Datos (KDD, por sus siglas en inglés) de la Asociación para la Maquinaria de Computación (ACM, también por sus siglas en inglés) en San Diego, EE.UU., esta semana. Presentarán las últimas técnicas para capturar información entre la avalancha de datos producidos hoy día y para dar sentido a una información que nos llega en una variedad de formas más amplia que nunca.

Hace veinte años, los únicos que se preocupaban por los llamados 'grandes volúmenes de datos' (big data, en inglés), los únicos que poseían enormes conjuntos de datos y la motivación para tratar de procesarlos, eran los miembros de la comunidad científica, señala Usama Fayyad, presidente ejecutivo del Grupo de Interés Especial en el Descubrimiento de Conocimientos y Extracción de Datos de la ACM y exdirector de datos de Yahoo. Incluso entonces, los resultados de la extracción de datos eran impresionantes. "Éramos capaces de resolver importantes problemas científicos a los que se había enfrentado el campo durante más de 30 años", señala Fayyad.

El crecimiento explosivo de Internet, sin embargo, cambió todo. Tanto si les gustaba como si no, las empresas se encontraron trabajando en línea y acumulando enormes volúmenes de datos sobre los clientes y su comportamiento. A medida que el poder de la extracción de esa inormación se hizo evidente, también lo hicieron las motivaciones económicas para invertir en el campo, según asegura Fayyad.

Netflix, por ejemplo, ofreció un premio de un millón de dólares (695 mil euros) a cualquier equipo que pudiera extraer su información sobre los usuarios y crear un sistema de recomendación más preciso que el que tenía. Ejemplos de alto perfil como este sólo representan la superficie de las aplicaciones para la extracción de datos.

"Las compañías y la industria están cada vez más interesadas ​​en utilizar los datos que capturan a través de los procesos empresariales", afirma Chid Apte, director de investigación de análisis de IBM y presidente de la conferencia. En particular, señala la atención médica, los medios sociales y todo lo que se lleve a cabo en la red.

En estos días, los gigantes de Internet hacen negocio con la información que recogen sobre los usuarios y los conocimientos que obtienen de la extracción. Los vendedores pueden acceder a complejos patrones de comportamiento de los compradores para ayudarles a proveer suministros a sus tiendas con más rentabilidad. Los investigadores de la industria pueden predecir los patrones de tráfico de vehículos en función de la congestión, el clima y la época del año, y ofrecer las mejores rutas.

Los datos actuales, sin embargo, no tienen la apariencia familiar de una base de datos. "La información no nos llega de forma limpia y tabular", afirma Apte. "Nos llega en forma de red". A menudo la obtenemos en forma de gráfico -explica- como los utilizados por los medios sociales. Estos gráficos suelen registrar no sólo las complejas conexiones entre los nodos, sino también otros tipos de información en diversos formatos, tales como los videos, imágenes y comentarios que la gente publica en las redes sociales.

Puede que los medios sociales hayan iniciado la tendencia hacia el análisis de estos gráficos, según explica Apte, aunque los datos de la red también provienen de otras fuentes (por ejemplo, de complejos sistemas de ingeniería tales como la red de energía eléctrica, los sistemas de distribución de agua y los sistemas de gestión del tráfico). Las redes de sensores distribuidos en estos sistemas producen conjuntos de datos en los que las conexiones entre las localizaciones son tan importantes como la amistad entre los individuos dentro de una red social.

En opinión de Apte, entender este tipo de conexiones es la clave para la optimización de los sistemas y para hacerlos sostenibles. Po eso -prosigue- la gente lleva trabajando con gráficos de datos desde hace cientos de años, aunque los gráficos actuales se trazan a partir de redes sociales o redes de sensores de una escala sin precedentes. "Son gráficos gigantescos", asegura. "Estamos hablando de millones de nodos y decenas de millones de enlaces".

Tratar con gráficos de ese tamaño y alcance, y aplicar modernas herramientas de análisis, hace necesaria la creación de mejores algoritmos y otras innovaciones. Apte afirma que uno de los objetivos de la conferencia es llevar técnicas avanzadas del mundo académico y los laboratorios de investigación a la atención de las empresas, para que puedan aplicarlas de manera más rápida. Al mismo tiempo, según esperan los organizadores de la conferencia, los académicos tendrán una idea de los retos empresariales que necesitan ser abordados con más urgencia.

Fayyad opina que el intenso interés comercial en los datos ha cambiado el campo de la extracción de datos. Los científicos -afirma- se ocupaban principalmente de datos almacenados de forma ordenada y estructurada. No obstante, la mayoría de los datos que las empresas están produciendo actualmente forman un caos no estructurado. "Si bien habían mejorado bastante a la hora de evitar esas cosas, las empresas tenían que hacerles frente", explica Fayyad. "Hizo que las empresas comenzaran a desarrollar técnicas que nadie había intentado jamás".

Sin duda, aún hay retos por superar. De todas formas, según Fayyad, "las personas son capaces de crear muchos más modelos predictivos y, mejor aún, clasificarlos para ver qué tal funcionan... Se requiere un análisis a un nivel realmente más allá de la comprensión del cerebro humano".

Copyright Technology Review 2011.

No hay comentarios:

Publicar un comentario