Dịch máy thống kê (SMT) là phương pháp dịch máy dựa vào các mô hình thống kê để tạo ra bản dịch, trong đó các tham số của các mô hình này được lấy từ việc phân tích ngữ liệu văn bản song ngữ. Các khái niệm cơ bản về dịch máy thống kê đã tiếp tục phát triển kể từ khi Warren Weaver lần đầu đề xuất những ý tưởng này vào năm 1949. Vào cuối những năm 1980, các nhà nghiên cứu tại Trung tâm nghiên cứu Thomas J. Watson của IBM đã đưa công nghệ này trở lại tầm chú ý và phát triển nó hơn nữa. Sự hồi sinh của giai đoạn này là do họ kết hợp các khái niệm về lý thuyết thông tin và sự tiến bộ của công nghệ máy tính để áp dụng SMT vào nhiều ngôn ngữ hơn.
Dịch máy thống kê có thể sử dụng lượng lớn dữ liệu song ngữ và đơn ngữ để cải thiện độ trôi chảy và độ chính xác của bản dịch.
Ưu điểm của SMT là mô hình được sử dụng để dịch không dựa trên các quy tắc ngôn ngữ rõ ràng mà tự động học cách chuyển đổi giữa các ngôn ngữ thông qua phân tích thống kê khối lượng lớn ngữ liệu. Do đó, phương pháp này sử dụng hiệu quả hơn nguồn nhân lực và dữ liệu so với các hệ thống dịch thuật dựa trên quy tắc truyền thống. Ngoài ra, vì hệ thống SMT thường không được tối ưu hóa cho một cặp ngôn ngữ cụ thể nên chúng linh hoạt hơn và có khả năng mở rộng ứng dụng hơn.
Tính trôi chảy của dịch máy thống kê thường xuất phát từ mô hình ngôn ngữ chạy đằng sau nó.
Tuy nhiên, dịch máy thống kê không hoàn hảo. Việc tạo ra các tập hợp dữ liệu rất tốn kém, các lỗi cụ thể khó dự đoán và sửa, và đôi khi kết quả dịch có vẻ trôi chảy nhưng lại ẩn chứa các vấn đề dịch thuật cơ bản. Đặc biệt, giữa các cặp ngôn ngữ có sự khác biệt lớn về cấu trúc ngôn ngữ, hiệu ứng của SMT có thể không như mong đợi, điều này đặc biệt rõ ràng ở các cặp ngôn ngữ không phải là ngôn ngữ Tây Âu.
Mô hình dịch thuật dựa trên từ đầu tiên đã tạo ra đơn vị dịch thuật cơ bản là một từ duy nhất trong ngôn ngữ tự nhiên. Khi cấu trúc từ trở nên phức tạp hơn, độ dài của câu dịch thường không nhất quán, khiến cho "tỷ lệ sinh" tương ứng với từ trở thành một điểm khó xử lý một cách linh hoạt. Phương pháp dịch dựa trên từ này không xử lý hiệu quả tỷ lệ sinh cao giữa các ngôn ngữ vì nó không thể ánh xạ hai từ tiếng Anh thành một từ tiếng Pháp, mặc dù trong một số trường hợp, nó có thể có nghĩa đen.
Dịch theo cụm từ cố gắng khắc phục những hạn chế của dịch theo từ và cung cấp khả năng chuyển đổi linh hoạt hơn bằng cách dịch toàn bộ chuỗi từ.
Phương pháp dịch dựa trên cụm từ giới thiệu một khuôn khổ sáng tạo khác, dịch "cụm từ" được trích xuất từ ngữ liệu bằng phương pháp thống kê. Phương pháp này linh hoạt hơn và có thể giảm hiệu quả các hạn chế về từ và thứ tự từ. Theo cách này, các cụm từ có thể được ánh xạ trực tiếp thông qua bảng dịch và có thể được sắp xếp lại trong quá trình dịch, do đó cải thiện chất lượng kết quả dịch.
Trong những năm 1980 và 1990, nghiên cứu của IBM tiếp tục phát triển, tính đến cấu trúc cú pháp và tích hợp ngữ cảnh vào bản dịch. Các mô hình dịch máy thống kê trong giai đoạn này dần thiết lập khả năng hiểu ngôn ngữ đa cấp, đánh dấu sự thay đổi về chất trong công nghệ dịch thuật.
Mô hình ngôn ngữ là thành phần không thể thiếu của hệ thống dịch máy thống kê, giúp nâng cao độ trôi chảy của bản dịch.
Theo thời gian, nhiều hệ thống dịch thuật nổi tiếng, chẳng hạn như Google Translate và Microsoft Translator, bắt đầu cải thiện các công nghệ cơ bản và chuyển sang dịch máy thần kinh dựa trên học sâu, đánh dấu sự lỗi thời dần dần của dịch máy thống kê. Tuy nhiên, ý nghĩa lịch sử của SMT vẫn còn, vì nó đặt nền tảng cho những tiến bộ công nghệ sau này và đạt được sự phát triển vượt bậc trong lĩnh vực biên dịch.
Giờ đây, khi nhìn lại lịch sử của công nghệ này, chúng ta không khỏi tự hỏi, với sự phát triển nhanh chóng của trí tuệ nhân tạo, công nghệ dịch máy sẽ phát triển như thế nào trong tương lai?