martes, 14 de junio de 2011

Google, Microsoft y Yahoo se unen para hacer avanzar la web semántica


Un impulso por añadir significado a las páginas web y así mejorar las búsquedas también podría permitir la creación de otros tipos de aplicaciones web inteligentes.


Por Tom Simonite

Google, Microsoft y Yahoo se han unido para animar a los operadores de páginas web a que el significado de sus páginas sea comprensible para los motores de búsqueda.

La medida podría finalmente fomentar el uso generalizado de una tecnología que permita que la información en línea sea tan comprensible para los ordenadores como lo es para los seres humanos. Si el proyecto tiene éxito, el resultado será no sólo mejores resultados de búsqueda, sino también una ola de otras aplicaciones y servicios inteligentes capaces de entender la información en línea casi tan bien como nosotros.

Las tres grandes compañías de Internet pusieron en marcha la iniciativa, conocida como Schema.org, la semana pasada. Define un vocabulario de términos interconectados que se pueden agregar al código HTML de una página web para comunicar el significado de los conceptos en la página. Un lugar indicado en un texto se podría definir como un tribunal de justicia, que Schema.org entiende como un tipo específico de edificio del gobierno. Las personas y los eventos también se pueden definir, así como atributos como la distancia, la masa, o la duración. Estos datos permitirán a los motores de búsqueda comprender mejor la utilidad que podría tener una página para una determinada consulta de búsqueda, por ejemplo, dejando claro que una página es sobre la sede del Departamento de Defensa de EE.UU., no sobre formas geométricas de cinco lados.

La medida representa un avance importante en una campaña iniciada en 2001 por Tim Berners-Lee, el inventor de la web, para permitir que el software acceda al significado de los contenidos en línea—una visión conocida como la "web semántica". Aunque la tecnología para hacerlo existe, el progreso ha sido lento ya que se han dado pocas razones para que los operadores de páginas web añadan el marcado adicional.

Schema.org podría cambiar todo esto, señala Dennis McCleod, dedicado a la tecnología de web semántica en la Universidad del Sur de California. Mediante el etiquetado de información, los propietarios de las páginas web podrían mejorar la posición de su sitio en los resultados de búsqueda—una importante fuente de tráfico. "Esto motivará a la gente a agregar datos semánticos a sus páginas", afirma McCleod. "Siempre es difícil predecir qué será adoptado y qué no, pero por lo general, a menos que la gente saque algo de ello, las cosas no se adoptan. Google, Microsoft y Yahoo han dado a la gente una razón de peso".

El enfoque de Schema.org se inspira en uno de los métodos más sencillos de describir el significado de los contenidos de una página web. "El problema con muchas de estas técnicas es que son muy difíciles de usar", afirma McCleod. "Una de las cosas alentadoras sobre Schema.org es que está a un nivel bastante utilizable, por lo que es mucho más fácil marcar los sitios web".

Si muchos propietarios de páginas web siguieran las sugerencias de Schema.org, los beneficios se ampliarían más allá de las búsquedas. "Estos datos pueden ser utilizados por cualquier software para la correlación cruzada de cosas que estén relacionadas, o para entender la relación entre la información de diferentes fuentes", afirma McCleod. Por ejemplo, la amplia disponibilidad de la información semántica podría mejorar la inteligencia artificial de los asistentes, tales como Siri (comprado el año pasado por Apple). O las herramientas podrían ser capaces de hacer buenas recomendaciones de, por ejemplo, artículos de noticias, ya que podrían saber con seguridad a qué historias se refieren.

Sin embargo, las compañías responsables de Schema.org han llevado a cabo este movimiento de manera unilateral, sin consultar con el consorcio World Wide Web (W3C), el cuerpo de estándares para la tecnología web. "No teníamos idea de que esto iba a suceder", asegura Manu Sporny, miembro del Grupo de Coordinación Semántica Web del W3C.

Schema.org pide que el marcado semántico sea editado en un formato conocido como microdatos, que todavía no es un estándar del W3C, en vez de en RDFa, una alternativa más ampliamente utilizada y aprobada por el W3C.

Google ha advertido que su "rastreadores", que deambulan por la web para crear sus índices, podrían acabar siendo confundidos por una página que utilizase microdatos y RDFa. Sin embargo, Microsoft ha dicho previamente que sus propios rastreadores no tienen esos problemas, afirma Sporny.

En caso de que la confusión no se aclare, afirma, los microdatos podrían convertirse en el estándar utilizado a cualquier escala, lo que limitaría la potencia de la web semántica, dado que la alternativa puede hacer mucho más. "La RDFa soporta casos de uso no soportados por los microdatos—por ejemplo, la publicación de las tasas de mortalidad de la OMS en los distintos países, o añadir información semántica a archivos de libros electrónicos o imágenes", asegura.

Sporny espera que Google y las otras empresas tras Schema.org modifiquen su postura en cuanto a los formatos. Sin embargo, reconoce que el hecho de que grandes empresas como éstas adopten el enfoque semántico es algo bueno. "Lo que vienen a decirnos es que los resultados mejorarán con los conceptos de web semántica", afirma Sporny, "y si logran animar a más sitios para que adopten la web semántica, eso también ayudará a todo tipo de aplicaciones".

Copyright Technology Review 2011.

No hay comentarios:

Publicar un comentario