Cuando hablamos de reconocimiento de voz nos podemos referir a dos tipos de tecnología asociada a los ordenadores, que son la identificación de la voz por medios informatizados y la capacidad de pasar el habla a texto. En este artículo nos centraremos más en el segundo.
El reconocimiento de voz, o reconocimiento del habla en este caso, es una tecnología informática que utiliza entradas de audio para insertar datos en lugar de usar un teclado. Hablar a un micrófono por ejemplo, produce los mismos resultados que teclear las palabras manualmente en un teclado.
Dicho de una forma sencilla, el software de reconocimiento de voz está diseñado con una base de datos interna de palabras y frases reconocibles. El programa hace comparaciones con las señales de audio que se emiten al hablar con las entradas correspondientes en la base de datos.
Aunque convertir el lenguaje hablado en texto puede sonar sencillo, es una tarea bastante difícil. El problema reside en el innumerable conjunto de idiomas, acentos y expresiones que existen. La tendencia natural de las personas para unir las palabras lo complica mucho.
La interpretación de los programas de software a frases que hacemos, todavía tiene que mejorar bastante. Muchas veces entiende cosas que no son las que queremos expresar. De todos modos, varios modelos de software de reconocimiento de voz son usados para muchas cosas.
Se usan en dictados para hacer documentos de negocios u otros temas, para programas para personas ciegas y subtítulos en noticiarios. Cada modelo varía uno del otro y tiene sus propias características y limitaciones.
Los programas de reconocimiento de voz que necesitan un “entrenador” para reconocer los patrones de un habla en particular, son llamados sistemas de habla dependientes. Se suele usar este tipo normalmente en casa o una oficina. Cartas, correos electrónicos, datos y texto pueden ser insertados por medio de un micrófono.
Algunos sistemas de este tipo son llamados sistema de habla discretos, los cuales requieren que el usuario hable despacio y de una forma clara. Los sistemas de habla continua están diseñados para entender un modo más natural de hablar.
Los de tipo discreto se suelen usar para servicio al cliente. Entiende solo un pequeño conjunto de palabras y frases. La persona que llama solo suele tener las opciones de contestar “si” y “no”. Después de tener una respuesta, el sistema escala la llamada a otro nivel. Si no entiende lo que dice el llamante, suele pedir disculpas y que se repita la respuesta.
Como se ha dicho, el sistema continuo es algo más sofisticado, y la persona que llama puede hablar más naturalmente para explicar un problema o pedir algo. Este programa está diseñado para recolectar palabras y frases y hacer un análisis de lo que quiere el usuario. Por supuesto, tiene una base de datos mucho más extendida para poder hacer su trabajo.
Por otro lado, tenemos el sistema de reconocimiento de habla automático, que se suele usar para hacer dictados. Este software difiere de los otros modelos es que no se centra en entender lo que se le dice, y solo identifica las palabras dichas. Al haber muchas palabras que se parecen, suele equivocarse mucho.
Sin embargo, varias compañías están invirtiendo en este sistema para mejorarlo y ser usado por todo tipo de público. Con el paso de los años, estos sistemas se están perfeccionando, y se espera que algún día sean totalmente perfectos.