Blog de ISecAuditors

Su seguridad es nuestro éxito

Privacidad y Seguridad en Asistentes de Voz (Parte I)

A lo largo de la última década, los asistentes de voz se han incorporado paulatinamente en nuestro día a día volviéndose, en algunas ocasiones, incluso indispensables en el hogar y/o en el trabajo. Se ha transformado para siempre la interacción entre el ser humano y los sistemas digitales mediante el reconocimiento de voz.

Toda esta tecnología tiene sus inicios en 1952 donde se empezaron a realizar los primeros experimentos de reconocimiento de voz. En Bell Labs nacía "Audrey"[6] la primera máquina que era capaz de reconocer con un 90% de precisión los números del 0 al 9, pero únicamente aquellos que eran pronunciados por su inventor. En la década siguiente, en 1961, aparecía gracias a IBM la máquina Shoebox [9], capaz de interpretar no solo los números del 0 al 9 sino también una serie de comandos básicos y reconociéndolos incluso con sonido de fondo y diferencias de tono y velocidad. Durante los años 70, diversos estudios de la Universidad de Carnegie Mellon presentaron una serie de sistemas que tenían distintas estrategias de búsqueda: Hearsay-I (1974), Dragon (1976) y Harpy (1976)[13]. Este último revolucionó el campo al reconocer con elevado grado de acierto (83,5%-97,5%) una serie de conjuntos grandes de palabras pronunciados por 4 sujetos distintos, una hazaña impresionante para la época. En paralelo se publicaban los cimientos teóricos de los Modelos de Markov Ocultos (HMM)[5], que serían explotados en los años 80 gracias a las mejoras en las capacidades de computación y que permitieron que el reconocimiento de voz se adaptara a variaciones en los patrones de habla.

En los años 90, la tecnología se acercó al usuario común con software como DragonDictate [7], abriendo el camino hacia la integración masiva en dispositivos móviles en las décadas siguientes. Hoy en día, asistentes como Amazon Alexa y Google Assistant utilizan inteligencia artificial y procesamiento en la nube para ofrecer respuestas personalizadas y experiencias conversacionales naturales.

Siguiendo en esta línea y en vista de los avances tecnológicos actuales y previstos, en las próximas décadas podríamos esperar mejoras como el reconocimiento de voz ultrapersonalizado o el reconocimiento de patrones vocales en múltiples idiomas y dialectos en tiempo real, sin un entrenamiento previo.

Toda esta tecnología y el uso masivo que se le está dando trae consigo importantes riesgos. Este artículo examina cómo funcionan estas tecnologías, sus aplicaciones y los desafíos en términos de protección de la seguridad de la información y de la privacidad de los datos personales.

linea-de-tiempo-del-reconocimiento-de-voz

Descripción de las Tecnologías Utilizadas

Asistentes Virtuales

Hoy en día, dispositivos y sistemas como por ejemplo Amazon Alexa [1][2], Google Assistant [8], Apple Siri [3][4] y Microsoft Copilot [14], están diseñados para responder a comandos de voz, ejecutar acciones y ofrecer información personalizada a los usuarios. Estos sistemas utilizan una combinación de tecnologías avanzadas que incluyen procesamiento de lenguaje natural (NLP), reconocimiento de voz, inteligencia artificial y machine learning, respaldadas en muchos casos por capacidades de computación en la nube.

El proceso de funcionamiento de un asistente virtual se puede dividir en las siguientes etapas:

proceso-funcionamiento-asistente-virtual

Los asistentes virtuales también están avanzando con el apoyo de la inteligencia artificial generativa y el machine learning, que están mejorando la capacidad de estos sistemas para responder de manera más precisa, con más contexto y naturalidad. En un futuro cercano, es posible que estos sistemas logren una comprensión más profunda de los matices culturales y sociales en el habla humana, gracias al uso de modelos de lenguaje de gran escala como los que utilizan los sistemas de IA generativa. Además, los avances en computación cuántica podrían en las próximas décadas acelerar el procesamiento de los datos de voz y permitir una comprensión más instantánea y universal del habla en distintos contextos y lenguajes.

Reconocimiento de voz

Algunas publicaciones [12][15][16][17] definen el reconocimiento de voz como el proceso por el cual un sistema convierte el habla humana en texto o en comandos comprensibles para un dispositivo. Este componente es esencial en los asistentes virtuales, ya que permite a los usuarios interactuar con tecnología de forma natural, utilizando su voz en lugar de interfaces tradicionales como teclados o pantallas táctiles. La tecnología de reconocimiento de voz se basa en la combinación de una serie de modelos matemáticos avanzados, redes neuronales profundas y bases de datos masivas de habla humana para entrenar a los sistemas y lograr una alta precisión.

Las fases del reconocimiento de voz son las siguientes:

fases-reconocimiento-de-voz

Los avances recientes en computación en la nube y en modelos de IA han permitido que el reconocimiento de voz sea más preciso y accesible en dispositivos móviles. La computación cuántica se perfila como una tecnología disruptiva que, en el futuro, podría optimizar aún más este proceso. Con la computación cuántica, los sistemas podrían analizar patrones de habla y variables contextuales en fracciones de segundo, abriendo la puerta a un reconocimiento de voz universal y en tiempo real, incluso en idiomas y dialectos minoritarios.

Además, el uso de redes neuronales generativas podría llevar a una personalización aún mayor, logrando un reconocimiento de voz que no solo se adapte al usuario, sino que también entienda y adapte respuestas según el estado emocional o el tono detectado (análisis del sentimiento [10][11]). Esta evolución en el reconocimiento de voz no solo impulsará la precisión en asistentes virtuales, sino que también tendrá aplicaciones en sectores como la medicina, el transporte, y la educación, donde se requerirá una interacción natural y precisa entre humano y máquina.

Patrones de Voz

Los asistentes de voz modernos no solo transcriben el audio del usuario, sino que analizan detalladamente las características únicas de la voz, como el tono, la entonación, el timbre y el ritmo. Esta tecnología permite a los asistentes de voz generar un perfil de voz único para cada usuario, utilizando biometría de voz para distinguir entre diferentes individuos. Esta capacidad es especialmente útil para personalizar la experiencia y ajustar las respuestas a la voz de la persona que habla. Por ejemplo, Amazon Alexa y Google Assistant utilizan estos patrones para diferenciar entre usuarios en un mismo hogar, lo que permite ofrecer recomendaciones personalizadas y reconocer las preferencias individuales.

Este análisis de patrones de voz requiere una combinación de redes neuronales y modelos acústicos que aprenden a identificar las huellas de voz a través de técnicas de machine learning. La identificación de patrones de voz tiene aplicaciones prácticas, como la autenticación de usuarios en sistemas bancarios o de asistencia médica, donde la verificación de identidad mediante biometría de voz ofrece una capa adicional de seguridad. Sin embargo, el análisis de patrones de voz también presenta riesgos de privacidad, ya que estos datos pueden exponer información sensible sobre el usuario, como su estado emocional, edad, o incluso aspectos de su salud. Veremos estos aspectos más adelante. 

Almacenamiento y Procesamiento de Datos

Los datos de voz recopilados por los asistentes de voz no se procesan únicamente en el dispositivo local. En la mayoría de los casos, los fragmentos de audio se envían a servidores en la nube, donde son almacenados y procesados. Este procesamiento en la nube permite a las empresas que desarrollan estos asistentes mejorar constantemente la precisión de sus sistemas mediante el análisis de grandes cantidades de datos de voz y de las interacciones entre los usuarios y los dispositivos. Los datos procesados suelen incluir comandos de voz, consultas específicas, y en algunos casos, grabaciones de conversaciones completas. Estos datos se utilizan para entrenar algoritmos de machine learning, optimizar los modelos de reconocimiento de voz y personalizar la experiencia de cada usuario en función de sus patrones de uso y preferencias.

Las compañías deben garantizar que los datos se almacenen de manera segura, implementando mecanismos de cifrado y políticas de acceso restringido para proteger la información del usuario. Por otro lado, los datos almacenados pueden ser utilizados para generar perfiles comerciales detallados o para mejorar la capacidad del sistema para comprender variaciones en el lenguaje y el contexto cultural de los usuarios, pero estas aplicaciones plantean dilemas éticos sobre el control del usuario sobre su propia información. La regulación en cuanto a la retención y uso de los datos de voz en los servidores en la nube se vuelve, por lo tanto, fundamental para establecer un equilibrio entre el avance de la tecnología y la protección de la privacidad de los usuarios.

Conclusiones

Hoy en día, la tecnología de los asistentes de voz ya se ha convertido en una parte esencial de nuestra vida cotidiana. Se ha facilitado realización de las tareas diarias más comunes y además también se ha mejorado la interacción con los propios dispositivos. Cosas como gestionar los elementos inteligentes de nuestro hogar, la traducción de idiomas o la firma de documentos, son avances muy grandes que se han conseguido gracias a la evolución de la inteligencia artificial y el machine learning.

En la segunda parte de este artículo se explorarán los usos, riesgos de seguridad y privacidad, las medidas de protección y las regulaciones que afectan a los asistentes de voz.

Referencias
[1] Amazon. (01 de Julio de 2024). What is the Alexa Skills Kit? | Alexa Skills Kit. Obtenido de https://developer.amazon.com/es-ES/docs/alexa/ask-overviews/what-is-the-alexa-skills-kit.html
[2] Amazon. (s.f.). Amazon Alexa Official Site: What is Alexa? Obtenido de https://developer.amazon.com/es-ES/alexa
[3] Apple. (2024). Siri - Apple (ES). Obtenido de https://www.apple.com/es/siri/
[4] Apple. (2024). Siri for Developers - Apple Developer. Obtenido de Siri for Developers - Apple Developer
[5] Baum, L. E., Petrie, T., Soules, G., & Weiss, N. (1970). A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains. Obtenido de https://www.biostat.wisc.edu/~kbroman/teaching/statgen/2004/refs/baum.pdf
[6] Computer History Museum. (09 de junio de 2021). Audrey, Alexa, Hal, and More. Obtenido de https://computerhistory.org/blog/audrey-alexa-hal-and-more/
[7] Focus Medical Software. (s.f.). History of Speech & Voice Recognition and Transcription Software. Obtenido de http://www.dragon-medical-transcription.com/history_speech_recognition.html
[8] Google. (s.f.). Google Assistant - Learn What Your Google Assistant is Capable Of. Obtenido de https://assistant.google.com/intl/es_es/learn/
[9] IBM. (s.f.). Speech recognition. Obtenido de https://www.ibm.com/history/voice-recognition
[10] J. Kim, K. P. (2017). Learning spectro-temporal features with 3D CNNs for speech emotion recognition. 2017 Seventh International Conference on Affective Computing and Intelligent Interaction (ACII), 383-388.
[11] J. Zhao, X. M. (2019). Speech emotion recognition using deep 1D & 2D CNN LSTM networks. Biomed. Signal Process., 312-323.
[12] Jurafsky, D. &. (2008). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall.
[13] Lowerre, B. T. (abril de 1976). The HARPY speech recognition system. Obtenido de https://stacks.stanford.edu/file/druid:rq916rn6924/rq916rn6924.pdf
[14] Microsoft. (2024). Asistente de inteligencia artificial personal | Microsoft Copilot. Obtenido de https://www.microsoft.com/es-es/microsoft-copilot/personal-ai-assistant
[15] Rabiner, L. R. (1993). Fundamentals of Speech Recognition. Prentice Hall.
[16] Sak, H. S. (2014). Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition.
[17] Xiong, W. W. (2018). The Microsoft 2017 Conversational Speech Recognition System.



author-image

CISA, ISO 27001 L.A., ISO 22301 L.A., SFPC, CDPSE
Consultor de Seguridad
Depto. de Consultoría