martes, 5 de junio de 2012

Una 'start-up' espera ayudar a los ordenadores a entender las páginas web

Análisis: La tecnología de aprendizaje visual de Diffbot puede identificar los diferentes elementos que componen las páginas web, como la que se muestra aquí. 
Fuente: Diffbot


Diffbot pretende facilitar a las aplicaciones que lean las páginas web de la misma forma que lo hacen los humanos.

Al margen del idioma que hables, cuando ves una página web te puedes hacer una idea bastante buena del propósito de los distintos elementos que hay en ella, ya sean imágenes, vídeos, texto, música o anuncios. Sin embargo, las máquinas no lo tienen tan fácil.
Ahí es donde Diffbot espera marcar una diferencia. La start-up, con sede en Palo Alto, California (Estados Unidos), ofrece interfaces de programación de aplicaciones (API, por sus siglas en inglés) que posibilitan a las máquinas 'leer' los distintos objetos que componen las páginas web. Esto podría permitir a un editor reutilizar el contenido de las páginas para una aplicación móvil o ayudar a una start-up a construir un sitio de comparación de precios.
Los esfuerzos de la compañía llegan en un momento en que algunos titanes de la tecnología también están trabajando para añadir más estructura a la gran cantidad de datos que hay en la red. Google, por ejemplo, dio a conocer recientemente Knowledge Graph, un intento de identificar el significado de las consultas de búsqueda y devolver resultados relevantes, en lugar de simplemente hacer coincidir el texto de una consulta con las páginas web que incluyan las mismas palabras. Sin embargo, estos esfuerzos suelen depender de los usuarios, que tienen que colaborar etiquetando el contenido de la red y así darle significado.
John Davi, vicepresidente de producto en Diffbot, afirma que, en esencia, la compañía está tratando de tomar la tecnología de aprendizaje visual que se utiliza en los coches autoconducidos y aplicarla a las páginas web.
La idea, que se gestó en la mente del director general y fundador, Mike Tung, hace varios años cuando era estudiante graduado en la Universidad de Stanford (EE.UU.), está siendo desarrollada desde el año pasado. Fue entonces cuando Diffbot lanzó una API capaz de analizar dos tipos de páginas web basándose en la URL. En las páginas de artículos, Diffbot puede seleccionar los titulares, el texto de los artículos, fotos y etiquetas. En las páginas de inicio, puede determinar elementos básicos de diseño como imágenes de titulares, enlaces a artículos y anuncios. Según Tung, en la actualidad, varios miles de programadores están utilizándola para analizar más de 100 millones de direcciones URL cada mes.
Sin embargo, existen muchos más tipos de páginas web. La compañía cree que hay unos 18 principales, que van desde páginas de productos o de empleo hasta galerías de fotos. Con una ronda de financiación de 2 millones de dólares (1,6 millones de euros) anunciada el pasado jueves -la primera tras una anterior de financiación 'semilla'-, la compañía tiene previsto empezar a trabajar en los 16 tipos restantes. Esto implicará determinar aquello que hace que las páginas sean de un tipo u otro (fotos, precios, etc.) y el uso de esa información para construir algoritmos que puedan procesar las páginas que no conocen.
Aunque Diffbot ofrece su API a los clientes de forma gratuita, cobra por niveles de uso altos. Brad Garlinghouse, director general del sitio de intercambio de archivos YouSendIt e inversor y asesor de Diffbot, asegura que, aunque la empresa no es rentable actualmente, podría llegar a serlo sin demasiadas dificultades."Están resolviendo algunos problemas por los que los clientes están dispuestos a pagar", asegura Garlinghouse.
En la actualidad, varios usuarios de Diffbot son compañías de medios, entre las que se encuentra la empresa anterior de Garlinghouse, AOL (Diffbot se encarga de la agregación de contenido de Editions, la revista para tableta de AOL). Tal y como señala Davi desde Diffbot, las compañías de medios de comunicación suelen comprar publicaciones en línea cuyo contenido ha sido creado con un sistema de gestión de contenidos diferente. La API de Diffbot puede facilitar el proceso de consolidación de los mismos, afirma.
A medida que la empresa haga posible el análisis de otros tipos de páginas, sus fundadores esperan que se utilice Diffbot para comparar precios de productos, agregar fotos y recetas, y mucho más. Según indica Tung: "Va a ser realmente emocionante ver qué construye la gente".
Copyright Technology Review 2012.

No hay comentarios:

Publicar un comentario