Trong sự tiến bộ của khoa học công nghệ, chất lượng truyền thông bằng giọng nói luôn được chú trọng nghiên cứu. Với sự phát triển của công nghệ phân tích tín hiệu số và đánh giá chất lượng giọng nói, POLQA (Đánh giá chất lượng nghe khách quan theo cảm nhận) chính thức được thành lập vào năm 2011 như một tiêu chuẩn mang tính cách mạng. Nó không chỉ kế thừa những ưu điểm của PESQ mà còn khắc phục những khuyết điểm và đề xuất giải pháp đánh giá chất lượng giọng nói hiệu quả và chính xác hơn.
Sự xuất hiện của POLQA đánh dấu một kỷ nguyên mới của việc kiểm tra chất lượng giọng nói, nâng trải nghiệm nghe của người dùng cuối lên một tầm cao mới.
Chức năng chính của POLQA là dự đoán chất lượng giọng nói thông qua phân tích tín hiệu giọng nói kỹ thuật số. Mô hình này được thiết kế để đưa kết quả đánh giá khách quan gần với điểm chất lượng đạt được thông qua các bài kiểm tra nghe chủ quan, thường được đưa ra dưới dạng Điểm ý kiến trung bình (MOS). Đánh giá của POLQA dựa trên tín hiệu giọng nói thực để đảm bảo độ tin cậy và chính xác của bài kiểm tra.
POLQA không chỉ khắc phục điểm yếu của PESQ trong xử lý tín hiệu tầm cao mà còn mở rộng tín hiệu với những thay đổi độ trễ khác nhau. Tiêu chuẩn này hỗ trợ các phép đo ở dải tần số điện thoại truyền thống (300–3400 Hz), cũng như tín hiệu HD-Voice ở dải âm thanh cao hơn (50–14000 Hz). Ngoài ra, POLQA còn đánh giá các tín hiệu âm thanh được ghi bằng đầu nhân tạo, làm tăng thêm phạm vi ứng dụng của nó.
Sự phát triển của POLQA bắt đầu vào năm 2006. Sau nhiều thử nghiệm cạnh tranh và hợp tác với nhiều công ty, tiêu chuẩn ITU-T P.863 cuối cùng đã được hình thành vào năm 2011. Quá trình này không chỉ thể hiện tinh thần cạnh tranh trong nghiên cứu khoa học mà còn thể hiện khả năng tổng hợp kiến thức chuyên môn của các bên.
Mọi tiến bộ công nghệ đều là kết quả của sự va chạm trí tuệ từ nhiều bên. Sự ra đời của POLQA là ví dụ điển hình nhất.
POLQA tương tự như PESQ ở dạng thuật toán Tham chiếu đầy đủ để đánh giá chất lượng giọng nói bằng cách so sánh tín hiệu giọng nói đã xử lý với tín hiệu gốc. Quá trình này không chỉ phân tích từng mẫu tín hiệu mà còn mô hình hóa hiệu quả tác động của những thay đổi môi trường.
Trong thuật toán POLQA, hai tín hiệu âm thanh được nhập vào dưới dạng vectơ dữ liệu, vectơ đầu tiên là tín hiệu tham chiếu không bị biến dạng và vectơ thứ hai là tín hiệu bị méo. Sau một loạt căn chỉnh thời gian và ước tính tốc độ lấy mẫu, thuật toán cuối cùng sẽ tính toán MOS để đánh giá toàn diện chất lượng giọng nói.
Mô hình cốt lõi của POLQA sử dụng mô hình nhận thức tiên tiến để ánh xạ chính xác theo thang đo MOS thông qua phân tích toàn diện về nhiều loại biến dạng.
Giá trị của POLQA không chỉ giới hạn ở việc phát triển công nghệ. Nghiên cứu liên quan đã chứng minh vai trò của nó trong việc kiểm tra chất lượng giọng nói, chẳng hạn như phân tích tác động của ngữ điệu trong lời nói và tác động của nó đến trải nghiệm nghe của những người không phải là người bản xứ. Điều này cung cấp một cơ sở quan trọng cho sự phát triển hơn nữa của công nghệ truyền thông bằng giọng nói.
Từ PESQ đến POLQA, chúng ta đã chứng kiến sự ra đời của một tiêu chuẩn đánh giá chất lượng giọng nói mới, tiêu chuẩn này không chỉ thể hiện tiến bộ công nghệ mà còn thể hiện sự hiểu biết sâu sắc và chú trọng đến trải nghiệm người dùng. Chúng ta có thể mong đợi những đổi mới và đột phá nào ở công nghệ truyền thông trong tương lai?