viernes, 15 de abril de 2011

La última versión del Chrome de Google muestra el potencial de HTML5


Por David Zax


Los primeros en adoptar nuevas tecnologías ya pueden echar un vistazo al futuro de la web descargando la última versión preliminar, o "beta", de Chrome, el navegador web de Google. Una de las novedades más interesantes es la capacidad de traducir el habla a texto—todo a través de la web.

La función es el resultado del trabajo que Google ha estado realizando junto al HTML Speech Incubator Group, perteneciente al World Wide Web Consortium, cuya misión es "determinar la viabilidad de la integración de la tecnología de voz en HTML5", el nuevo y emergente lenguaje estándar de la web.

Una página web que emplee la nueva función de HTML5 podría poseer un icono que, al hacer clic sobre él, inicie una grabación a través del micrófono del ordenador, a través del navegador. El habla es capturada y enviada a los servidores de Google para su transcripción, y el texto resultante es enviado de vuelta a la página web.

Para experimentar con la función de voz a texto, se puede descargar la última versión beta de Chrome aquí. A continuación, vaya a esta página web, haga clic en el micrófono, y empiece a hablar. Es probable que encuentre los resultados irregulares, y a veces divertidos. Con la mejor elocución de la que fui capaz, leí el pasaje inicial de Revolutionary Road, de Richard Yates: "The final dying sounds of their dress rehearsal left the Laurel Players with nothing to do but stand there, silent and helpless". Obtuve mensajes de error varias veces en una fila ("habla no reconocida" o "fallo de conexión a los servidores de habla"). Una vez, recibí esta transcripción: "9 sounds good restaurants on the world there's nothing to do with fam vans island".

La nueva característica se deriva en gran parte de los experimentos que Google llevó a cabo a través de su sistema operativo Android para dispositivos móviles. Durante más de un año, afirma Vincent Vanhoucke, miembro del equipo de reconocimiento de voz de Google, los desarrolladores de aplicaciones de Android han sido capaces de integrar el reconocimiento de voz en sus aplicaciones utilizando la tecnología proporcionada por Google. Esto ha proporcionado a Google datos de voz útiles con los que entrenar a sus algoritmos de reconocimiento de voz. Hoy en día, un 20 por ciento de las búsquedas en los teléfonos Android se llevan a cabo mediante reconocimiento de voz, afirma Vanhoucke: la gente usa el reconocimiento de la voz para escribir textos, enviar correos electrónicos, o realizar búsquedas. "Realmente ha abierto nuevas vías interesantes", asegura Vanhoucke.

Sin embargo, a diferencia del software de escritorio de voz a texto, que en primer lugar se acostumbra a la voz de un usuario, Chrome está tratando de conseguir el texto desde la voz sin entrenamiento previo.

"Supongo que si hacen un seguimiento de la dirección IP, podrían adaptarse" a la voz de un usuario determinado, afirma Jim Glass, experto en reconocimiento de voz del MIT. Glass toma nota de que el teléfono móvil proporciona un entorno acústico muy diferente al de un ordenador portátil o de escritorio; por un lado, el micrófono de un teléfono se coloca de forma fiable justo en la boca del usuario, a diferencia de las configuraciones de micrófono de los ordenadores en los hogares u oficinas. "Esta es la versión beta de Chrome", asegura Glass. "Van a recoger datos, y podemos estar seguros de que refinarán sus modelos—esa es la naturaleza del juego del reconocimiento de voz".

A pesar de poseer irregularidades, a veces la tecnología resulta impresionante. Lo intenté una vez más y obtuve: "the final warning sounds of the dress rehearsal at laurel players with nothing to do with stand there". No está mal. Y la aplicación Chrome dió en el clavo cuando dije "the quick brown fox jumps over the lazy dog".

Los programadores de otros fabricantes también han comenzado a crear páginas web capaces de utilizar la nueva característica de Chrome. Ya está disponible, a nivel de pruebas, un plugin para navegadores llamado Speechify, que permite las búsquedas en Google, Hulu, YouTube, Amazon y otros sitios usando la voz con Chrome.

Pronto podrían aparecer otros usos imaginativos. "Los juegos podrían tomar el teclado, el ratón, la entrada táctil, el acelerómetro, y la entrada de voz a la vez", afirma Karl Westin, experto en HTML 5 que trabaja para Nerd Communications, con sede en Berlín, Alemania. "Tener un juego de aviones en el que realmente podamos gritar '¡Arriba, Arriba, ARRIIIIBAAA!' sería fantástico".

Sin embargo la tecnología es algo más que un juguete—también señala el camino a seguir hacia una web mucho más capaz. HTML 4, la última versión importante del lenguaje HTML, surgió en 1997. Desde entonces, plugins como Silverlight y Flash han añadido capacidades de procesamiento de medios de comunicación en la web. No obstante, HTML5 permite la reproducción y almacenamiento fuera de línea de medios de comunicación a través del navegador.

"La idea con la que trabajábamos era que cada vez más personas pasaban todo su tiempo en el navegador", afirma Brian Rakowski desde Google, y gerente de producto de Chrome. El correo electrónico y la mensajería instantánea cada vez tienen más lugar en los navegadores, en vez de en aplicaciones de AIM o correo separadas. "Nos gustaría que nunca tuviéramos que instalar una aplicación nativa de nuevo", afirma Rakowski. "La web debería ser capaz de hacerlo todo".

No hay comentarios:

Publicar un comentario