Con el avance de la ciencia y la tecnología, la calidad de la comunicación de voz siempre ha sido foco de investigación. Con el desarrollo de la tecnología de análisis de señales digitales y evaluación de la calidad del habla, POLQA (Perceptual Objective Listening Quality Assessment) se estableció oficialmente en 2011 como un estándar revolucionario. No solo hereda las ventajas de PESQ, sino que también supera sus deficiencias y propone una solución de evaluación de la calidad de voz más eficiente y precisa.
La aparición de POLQA marca una nueva era en las pruebas de calidad de voz, llevando la experiencia auditiva del usuario final a un nivel completamente nuevo.
La función principal de POLQA es predecir la calidad del habla a través del análisis de señales de voz digitales. Este modelo pretende aproximar los resultados de la evaluación objetiva a las puntuaciones de calidad obtenidas a través de pruebas de escucha subjetivas, que normalmente se dan en forma de Puntuación de Opinión Media (MOS). La evaluación de POLQA se basa en señales de voz reales para garantizar la confiabilidad y precisión de la prueba.
POLQA no solo supera la debilidad de PESQ en el procesamiento de señales de alta frecuencia, sino que también amplía el procesamiento de señales para diferentes variaciones de retardo. El estándar admite mediciones en la banda de frecuencia telefónica tradicional (300–3400 Hz), así como señales de voz HD en el rango de audio más alto (50–14000 Hz). Además, POLQA también evalúa señales de sonido grabadas utilizando una cabeza artificial, aumentando aún más su versatilidad.
El desarrollo de POLQA comenzó en 2006. Después de varias pruebas competitivas y la cooperación con múltiples empresas, finalmente formó el estándar ITU-T P.863 que fue adoptado oficialmente en 2011. Este proceso no sólo demuestra el espíritu competitivo en la investigación científica, sino que también resalta la capacidad de integrar la experiencia de todas las partes.
El avance de toda tecnología es el resultado de la colisión de inteligencias de múltiples partes. El nacimiento de POLQA es el mejor ejemplo.
POLQA es similar a PESQ. Como algoritmo de referencia completo, evalúa la calidad del habla comparando la señal de voz procesada con la señal original. Este proceso no solo analiza cada muestra de la señal, sino que también modela eficientemente el impacto de los cambios ambientales.
En el algoritmo POLQA, se ingresan dos señales de audio en forma de vectores de datos: el primer vector es la señal de referencia sin distorsión y el segundo es la señal distorsionada. Después de una serie de alineaciones temporales y estimaciones de frecuencia de muestreo, el algoritmo finalmente calcula MOS para evaluar exhaustivamente la calidad del habla.
El modelo central de POLQA utiliza modelos perceptuales avanzados para mapear con precisión múltiples tipos de distorsión a la escala MOS a través de un análisis integral.
El valor de POLQA no se limita al desarrollo tecnológico. Investigaciones relacionadas han demostrado su papel en las pruebas de calidad del habla, como el análisis del impacto del lenguaje tonal en el habla y su impacto en la experiencia auditiva de hablantes no nativos. Esto proporciona una base importante para el desarrollo futuro de la tecnología de comunicación de voz.
Desde PESQ hasta POLQA, hemos sido testigos del nacimiento de un nuevo estándar de evaluación de la calidad de voz, que no solo representa un avance tecnológico, sino también una profunda comprensión y énfasis en la experiencia del usuario. ¿Qué innovaciones y avances podemos esperar en las futuras tecnologías de la comunicación?