Los motores de búsqueda buscan pistas sobre la importancia de un documento o conjunto de información en base a un grupo determinado de palabras clave. A menudo, esto significa depender de los enlaces a los que apuntan las páginas—así es como funciona el famoso algoritmo PageRank de Google.
Varios investigadores han desarrollado formas más sutiles para medir la influencia e importancia de los documentos y páginas en Internet y en los archivos, utilizando el texto almacenado en dichos documentos. Este enfoque no depende de que los usuarios añadan punteros tales como enlaces y citaciones, y podría conducir a la creación de mejores motores de búsqueda en tiempo real, así como sistemas de recomendación que automáticamente recopilen información sobre un tema determinado.
Un software desarrollado en la Universidad de Princeton toma una serie de documentos y mide los cambios en el uso del lenguaje entre los documentos a través del tiempo. La muestra analizada podría ser una colección de artículos científicos o un conjunto de publicaciones de ciertos blogs. El software analiza el texto en los documentos y, a continuación, identifica las palabras y frases más importantes en determinadas categorías—aquellas que aparecen con frecuencia en muchos documentos diferentes. A continuación, filtra las primeras apariciones de esos bits de lenguaje para identificar aquellos documentos que, con más probabilidad, contienen las ideas que han influido en las ideas de otros documentos. Los algoritmos pueden continuar funcionando a medida que se agregan elementos a una colección de documentos a lo largo del tiempo.
Los investigadores pusieron a prueba sus algoritmos en tres grandes archivos con miles de artículos de revistas. Descubrieron que los documentos que el software identificó como influyentes fueron también los que habían sido citados con más frecuencia. Sin embargo, su método también proporcionó nuevos conocimientos. En algunos casos, algunos artículos que no habían sido citados con frecuencia también fueron identificados como influyentes. Los investigadores descubrieron que, a menudo, se trataba de las primeras discusiones sobre un tema importante. A veces los artículos que habían sido ampliamente citados no fueron identificados como influyentes; en estos casos, los investigadores consideraron que los artículos eran recursos importantes, pero no presentaban nuevas ideas.
"Este método captura un tipo distinto de influencia", afirma David Blei, profesor asistente de ciencias informáticas en Princeton y director de la investigación. "Capta el momento en que un documento introduce lenguaje e ideas que son recogidas por otros".
Esta investigación es parte de un esfuerzo mayor por construir nuevas herramientas para la exploración de grandes colecciones de documentos—tanto archivos de una publicación científica o un grupo de publicaciones en blogs y artículos periodísticos. "Hoy día, es fácil almacenar toda esta información y acceder a ella, pero necesitamos nuevas guías para encontrar el contenido más útil", afirma Blei. Lo importante, añade, es crear herramientas que puedan hacer recomendaciones inteligentes sobre el modo en que un usuario debe explorar un conjunto de información. Aquellos métodos que utilicen el contenido de los documentos, en lugar de enlaces o citas, son los más prometedores, señala.
Este enfoque requiere una perspectiva histórica. Para los artículos en revistas, los investigadores se fijaron en los cambios en el lenguaje a lo largo de un período de años. Para las publicaciones en blogs, que cambian con mayor rapidez, lo que podría funcionar es observar los cambios en el lenguaje durante días o incluso horas. Blei afirma que este enfoque se podría agregar a los algoritmos de clasificación de los motores de búsqueda para identificar documentos importantes, y podría ayudar a los usuarios a navegar entre vastas colecciones de información con mayor facilidad.
La medición del flujo de información para determinar la influencia tiene un gran potencial, afirma Jure Leskovec, profesor asistente de ciencias informáticas en el departamento de aprendizaje de máquinas en la Universidad de Stanford. La aplicación más obvia, afirma, es la personalización; el software podría observar qué tipo de artículos está leyendo una persona y sugerir artículos o sitios web que contengan material relevante.
Leskovec también está trabajando en la medición de la influencia. Su investigación hace un seguimiento del movimiento de las frases a través de Internet y utiliza esta información para identificar los sitios influyentes dentro de áreas en particular. Esto le ha permitido a él y a sus colaboradores escribir algoritmos que permiten predecir la probable influencia de una nueva entrada de blog, en función de su tema y el lugar en que aparece. Agregar una perspectiva de futuro podría ser útil para las búsquedas en tiempo real, asegura Leskovec, otorgando a los motores de búsqueda una nueva manera de clasificar y filtrar los contenidos a mayor velocidad.
No hay comentarios:
Publicar un comentario