martes, 4 de octubre de 2011

Hablemos con el iPhone


Solo mediante invitación: Apple ha enviado este mensaje a los periodistas, en relación al evento del martes.
Fuente: Apple

¿Podría estar Apple a punto de dar a los usuarios del iPhone un asistente personal con inteligencia artificial? Y si es así, ¿le gustará a la gente?

Apple ha popularizado algunas revoluciones relacionadas con la forma en que usamos los ordenadores personales: la interfaz gráfica, el ratón y la pantalla táctil, por ejemplo. Hoy martes, la compañía podría añadir uno más a esa lista de hitos en la interacción hombre-máquina, permitiendo a los usuarios controlar un ordenador teniendo una conversación con él.
El nuevo jefe de Apple, Tim Cook, subirá hoy al escenario en la sede de la compañía en California para anunciar las últimas actualizaciones de productos de la compañía. La invitación de Apple para el evento solo dice "Hablemos del iPhone" ("Let's Talk iPhone"), pero los rumores de Internet han decidido que Cook dará a conocer dos cosas: un quinto modelo del iPhone, y un "asistente" activado por voz para los dispositivos iPhone e iPad, basado en una impresionante aplicación llamada Siri que fue adquirida por Apple el año pasado (aquí puede verse una de las predicciones más plausibles). 

Puede que ninguna de estas dos cosas ocurran, pero de las dos, la segunda es la más interesante. Quizá lamente decir esto, pero existen pocas actualizaciones de hardware importantes que Apple pueda añadir al iPhone 5. Algunas cosas se harán progresivamente mejor; más resolución (en la cámara), más rapidez (del procesador), o un mayor tamaño (de la pantalla), pero no hay mucho más que añadir en ese sentido.

Por otro lado, facilitar la configuración de invitaciones del calendario, la búsqueda de una película cercana o simplemente conversar con el iPhone o el iPad podría abrir nuevos caminos. También es el tipo de revolución por la que Apple es conocida.

La fórmula es simple: se toma una tecnología que nunca ha cumplido con lo que prometía, se vuelve a pensar en su utilidad, se lleva a cabo un gran esfuerzo en secreto y finalmente se lanza una experiencia natural y retrospectivamente obvia que redefine lo que pueden hacer los ordenadores. 

Las interfaces del iPad y el iPhone son buenos ejemplos de esto. Las pantallas táctiles, los navegadores móviles y las tabletas ya existían, pero Apple las unió y alteró la trayectoria de la computación personal.

La lamentable historia del reconocimiento de voz, el control mediante la voz y los asistentes virtuales (¿alguien se acuerda de Clippy?) compone la materia prima ideal para este enfoque. Toda esta tecnología lleva entre nosotros desde hace décadas y tiene el potencial para ser mucho mejor que pulsar botones o tocar una pantalla. Sin embargo, nunca nadie ha llegado a hacer realidad ese potencial.

Cuando Siri debutó en 2009, parecía ser la mejor esperanza de cambio. Era una derivación de un proyecto de IA (Inteligencia Artificial) financiado por DARPA (la Agencia Estadounidense de Proyectos de Investigación de Defensa Avanzados), e incluía algunas ideas inteligentes sobre la integración de diversas herramientas tales como mapas, críticas de restaurantes y reservas de entradas de películas. El proyecto fue nombrado como una de las 10 tecnologías a las que seguirles la pista en 2009. Los usuarios podían mantener conversaciones bidireccionales comenzando con instrucciones complejas como: "Me gustaría un lugar romántico de comida italiana cerca de mi oficina". 

Siri contenía varias ideas técnicas inteligentes, pero más importante aún, las condensó en una interfaz fácil de entender, que funcionaba a la hora de mantener una conversación y era, además, realmente útil. Apple podría dar un significativo paso adelante al hacer que la tecnología sea más robusta y se integre con el sistema operativo del iPhone y el iPad. Si lo consiguen, la humilde aplicación Siri sería ascendida de puesto y pasaría a ser 'Assistant', un asistente personal al que podemos hablar usando un lenguaje normal y que nos ayuda con la mayoría de las cosas para las que usamos el teléfono o la tableta. En esencia, sería la personalidad de nuestro teléfono.

Tal y como se afirmará en más de un hilo de discusión si esto llega a suceder, Google (de alguna manera) fue la primera en hacerlo. El sistema operativo Android de la compañía tiene una característica de "acciones de voz" que permite a los usuarios pulsar y mantener pulsado un botón para preguntar cómo llegar a un negocio local, o dictar un mensaje de texto. Sin embargo, carece de la potencia para realizar acciones más allá del teléfono, tales como reservar un restaurante. Más importante aún, no posee una interfaz de conversación inteligente.
Las acciones de voz en Android dan la sensación de ser una característica adicional solo para los usuarios más técnicos, y no una nueva forma de interactuar con los ordenadores. 'Assistant' podría y debería ser un paquete mucho más cohesionado. Si se lanza hoy martes, es probable que condense una gran cantidad de tecnología en algo simple: una interfaz de ordenador con la que conversar. Si se hace bien, podría lograr que Apple vuelva a definir una vez más lo que significa usar un ordenador. 

No obstante, Apple no realiza estos trucos de forma gratuita, y es notorio su afán de control. Si 'Assistant' aparece, solo estará disponible en los dispositivos de Apple, para impulsar las ventas. Cualquier servicio externo con el que se conecte tendrá que ser cuidadosamente aprobado. No me sorprendería escuchar que Apple se quede con parte del precio de cualquier cosa que se acabe vendiendo a través de 'Assistant', tanto si son entradas de cine como reservas de restaurantes. Sin embargo, al igual que con el iPhone y las otras innovadoras ideas de Apple, no pasará mucho tiempo antes de que los competidores lancen una imitación. 

Aún me pregunto, sin embargo, qué límites habrá colocado Apple en 'Assistant' para hacer que cumpla con los altos estándares de la compañía. Crear una interfaz basada en la voz es fácil, pero crear una que, en palabras de Steve Jobs, "simplemente funcione", no lo es.

El hecho es que el reconocimiento tiene que hacer trampas para lograr ser altamente preciso sin pasar por un amplio preentrenamiento junto a nuestra voz. Necesita algún tipo de precognición de lo que vamos a decir. La aplicación de búsquedas móviles por voz de Google, por ejemplo, es increíblemente precisa puesto que se basa en grandes cantidades de datos acerca de las frases que la gente busca. El 'Assistant' de Apple debería funcionar al recibir órdenes relacionadas con cosas que ya sabe que podemos pedir, como por ejemplo nuestro calendario, los contactos o las listas de reproducción de música. Sin embargo la transcripción del habla cuando literalmente podríamos decir cualquier cosa, como un mensaje de correo electrónico, resulta una cuestión distinta y será interesante ver si Apple hace que tal característica sea parte de su sistema. Para mí, las acciones de voz de Google son exasperantes cuando se utilizan para la redacción de mensajes, y no me puedo imaginar que Apple vaya a lanzar un producto potencialmente molesto para los usuarios.

Lograr el equilibrio entre potencia y fiabilidad podría ser la decisión de diseño más difícil involucrada en la construcción de algo como 'Assistant'. Es el tipo de decisión por la que Steve Jobs era conocido, por ejemplo, cuando puso al iPad en espera y en primer lugar lanzó una versión más pequeña en forma de teléfono. Hoy martes, podremos observar cómo negocia el sucesor de Jobs el equilibrio entre lo que podría ser lanzado y lo que cumple con la inequívoca marca de Apple en cuanto al perfeccionismo centrado en la experiencia del usuario.
Copyright Technology Review 2011.

No hay comentarios:

Publicar un comentario