La idea de que la gente pueda hablarle a su computadora, y que las máquinas puedan entender lo que les decimos, ha estado de moda desde la década de 1970. Aunque esta tecnología nunca se ha tomado tan en cuenta y hasta nuestros días se piensa como broma.
No obstante, en los últimos meses, pese a la creciente popularidad de los mensajes de texto, los expertos afirman que las tecnologías que se activan a través de la voz se encuentran en una etapa de renacimiento.
El resurgimiento tecnológico se debe en parte a los teléfonos inteligentes, dispositivos portátiles con teclados pequeños o de estorbosas pantallas sensibles donde un adulto de dedos gruesos prefería gritarle que escribir.
¿Por qué no tomar esas frustraciones y dirigirlas a comandos de navegación y mensajes de texto?
No es una revolución, pero eso ya está sucediendo.
Los teléfonos móviles con tecnología de reconocimiento de voz permiten a los usuarios mandar mensajes de texto a sus amigos con comandos de voz en vez de texto; revisar las transcripciones de los mensajes de voz en lugar de tomarse el tiempo para escucharlos uno por uno; decirle a los celulares lo que estamos buscando en internet; y muy pronto, publicar en Twitter desde el auto mediante la voz, permitiendo a los conductores fijar su atención en el camino mientras manejan.
Según Vlad Sejnoha, de Nuance Communications, el mayor productor de programas para transferir voz a texto, dice que hay aplicaciones que permiten pedir instrucciones para llegar a algún restaurante sin tener que pasar por la operadora o servicios que cobran.
Afirmó que los teléfonos deberían detectar la página de internet a buscar sin que el usuario lo tenga que escribir.
Muchas aplicaciones para teléfono, desde ShoutOut hasta Dragon y Vlingo, pueden traducir discursos a mensajes de texto y correos electrónicos.
En sí, los programas de reconocimiento de voz cada vez están mejor.
Las computadoras nos escuchan hablar, pueden predecir lo que diremos y entender como decimos las cosas, aseguran los investigadores. Algunos creen que las computadoras son casi tan buenas para escuchar como nosotros.
“Si nos comparas con el rendimiento humano, cada vez estamos cerrando la brecha” explicó David Nahamoo, encargado de la investigaciones sobre la tecnología de la voz en IBM.
La tecnología funciona al escuchar la voz, convirtiéndola en un dato digital, y anticipar la clase de sonidos o palabras que puedan venir más adelante. Esa es la diferencia de los recientes modelos de tecnología de reconocimiento de voz, que intentan entender cada sonido y para el resultado utiliza toda su capacidad de cálculo.
Ahora, es más que un juego de suposición. Cada programa de reconocimiento de voz tiene una cantidad de ecuaciones que analizan los discursos y se valen de estadísticas para decidir qué sonido encaja con cuál letra.
Cada año, la precisión de estos programas mejora, aseguró Bill Meisel, un consultor independiente que ha trabajado desde principios de la década de 1980 en la industria del reconocimiento de voz.
En una prueba de comparación entre cuatro programas, Meisel encontró que las tecnologías que traducen voz a texto lo hacen de manera correcta entre un 80 y 90 por ciento. Afirmó que es suficientemente para algunas funciones comunes como la transcripción de buzón de voz.
“Todos los sistemas son casi perfectos en cuanto números telefónicos se refiere” agregó.
No obstante, una serie de obstáculos tecnológicos se mantiene.
Uno en específico es el ruido de fondo. Por ejemplo, un teléfono que escucha a una persona dentro de un camión, puede percibir el ruido de la calle y otras conversaciones alrededor, lo que le hace difícil diferenciar entre esos ruidos.
Las nuevas herramientas podrían ayudar a mejorar ese aspecto. El teléfono Nexus One de Google viene con dos micrófonos integrados: uno funciona para registrar una voz, y el segundo es para capturar las interferencias y así extraerlas del archivo de voz, haciendo más fácil el trabajo del teléfono para discernir entre el sonido del humano y el que no lo es.
Otro problema es el hecho de que dos personas no hablan de la misma forma.
Incluso si decimos las mismas palabras, tendemos a pronunciarlas de distintas maneras. En algunas ocasiones, si se nos pide decir la frase dos veces, es posible que lo hagamos con otras inflexiones o sonidos que hagan que nuestra computadora se salga de quicio.
Se trata del “Yo digo tÓmate y tu dices tomAte” explico Nahmoo, quien es de origen iraní. “Vengo de un país extranjero y muchas de las pronunciaciones que las personas nativas aprenden, no puedo captarlas y no puedo reproducirlas”
“Todos ellos lo hacen sonar distinto para mi”
Con el tiempo, cada vez son mejores las computadoras para reconocer estas diferencias, agregó, especialmente cuando el acento es muy familiar. Dijo es uno de los mayores logros en la tecnología de la voz desde los años setenta.
Nahmoo advirtió que para ser comprendidos por las computadoras, es más importante hablar claro y de manera consistente que a tener un acento neutro.
Otro aspecto, es el hecho de que no todos los teléfonos tienen la capacidad de manejar el reconocimiento de voz, dijo Toung Nguyen, un analista de Gartner Inc., una firma de investigación del mercado de tecnología.
“La gran limitación que vemos en este momento… es el poder de procesamiento”, dijo el experto. Aseguró que es bastante intenso, por lo que es preciso una mejor y mayor gama de teléfonos que lo puedan hacer, y después mucha gente podrá hablar con acentos o regionalismos o cosas por el estilo, que merezcan ser un reto para esta tecnología.
Nguyen, quien remarcó su optimismo, dijo que es especialmente útil cuando uno está manejando, momento en el cual escribir no resulta ser una alternativa segura.
El consultor Meisel dijo que la voz podría ser la nueva forma para interactuar con las computadoras.
Meisel asegura que estamos preparados en cierto grado para “entablar una conversación” con la tecnología.