Trong thời đại của Internet, mọi người ngày càng được kéo đến gần nhau hơn. Bạn có thể Snapchat với một người bạn đến từ Thổ Nhĩ Kỳ, gọi điện video cho bố mẹ bạn trong kỳ nghỉ ưa thích của họ, gửi tin nhắn nhanh cho người bạn cũ của bạn chỉ qua các phím bấm.
Nhưng khi thế giới xích lại gần nhau hơn, sự chú ý của chúng ta ngày càng trở nên phổ biến hơn. Chúng ta dường như dành hàng giờ để lướt qua Instagram, trong khi dành ít thời gian hơn để tương tác trực tiếp với nhau. Trớ trêu thay, trí tuệ nhân tạo hiện đang thay đổi điều đó.
Vào tháng 3 năm 2021, Google đã công bố tính năng Phụ đề trực tiếp của họ trên trình duyệt Chrome. Phụ đề trực tiếp sử dụng công nghệ máy học để tạo phụ đề chi tiết ngay lập tức trên bất kỳ video hoặc clip âm thanh nào, cung cấp cho những người khiếm thính khả năng tiếp cận nội dung internet nhiều hơn.
Trước đây— và ngày nay vẫn vậy, phụ đề chi tiết đã được lập trình sẵn cho các định dạng video và một phụ đề gần như xuất hiện tức thì khi video khởi phát. Tuy nhiên, ở những nơi mà phụ đề không phải là “chuẩn mực”, chẳng hạn như trên các ứng dụng như Instagram hoặc TikTok, hầu như không thể tìm thấy tính năng phụ đề tương tự. Và tính năng phụ đề trực tiếp tương lai sẽ thay đổi điều này: với một vài thao tác trên màn hình, bất kỳ người dùng nào cũng có thể có ngay phụ đề chính xác, tức thì, giúp mở rộng phạm vi tiếp cận của âm thanh và video trên các nền tảng hơn trong tương lai.
Phụ đề trực tiếp của Google là một loại công cụ Xử lý ngôn ngữ tự nhiên (natural language processing – NLP). Nó là một dạng trí tuệ nhân tạo sử dụng các thuật toán để tạo điều kiện “tương tác” giữa con người và máy móc. NLP giúp chúng ta giải mã ngôn ngữ của con người thành ngôn ngữ máy và thường là ngược lại.
Để hiểu được lịch sử của NLP, chúng ta phải quay trở lại với một trong những nhà khoa học tài tình nhất của kỷ nguyên hiện đại: Alan Turing. Năm 1950, Turing xuất bản cuốn “Máy tính và trí thông minh”, trong đó thảo luận về khái niệm máy tính có tri giác, có tư duy. Ông tuyên bố rằng, không có lập luận thuyết phục nào chống lại ý tưởng rằng máy móc có thể suy nghĩ như con người, và đề xuất một cái đặc biệt gọi là thử nghiệm Turing.
Turing đề xuất một cách để đo lường liệu trí thông minh nhân tạo có thể tự suy nghĩ hay không: nếu nó có thể chứng minh được và lấy được lòng tin của con người với một xác suất nhất định, thì nó có thể được coi là thông minh.
Từ năm 1964 đến năm 1966, nhà khoa học người Đức Joseph Weizenbaum đã viết một thuật toán NLP được gọi là ELIZA. ELIZA đã sử dụng các kỹ thuật đối sánh mẫu để tạo ra một cuộc trò chuyện. Ví dụ, trong tập lệnh DOCTOR, nếu máy tính được bệnh nhân nói rằng “đầu tôi đau”, nó sẽ trả lời bằng một cụm từ tương tự như “tại sao đầu của bạn đau?” ELIZA hiện được coi là một trong những chatbot sớm nhất và là một trong những thiết bị đầu tiên lấy được niềm tin của con người trong một loại thử nghiệm Turing giới hạn tương tự.
Vào cuối những năm 1980, thuật toán NLP thay vào đó tập trung vào các mô hình thống kê giúp họ hình thành các cuộc trò chuyện dựa trên xác suất.
Công nghệ nhận dạng giọng nói hiện đại NLP bao gồm một số nguyên tắc chung, chẳng hạn như nhận dạng giọng nói, nhận dạng âm thanh, nhận dạng ngôn ngữ và phân cực, có thể phân biệt giữa những người nói. Hệ thống Phụ đề trực tiếp của Google sử dụng ba mô hình học sâu để tạo phụ đề: mạng nơ-ron lặp lại (RNN) để nhận dạng giọng nói, RNN dựa trên văn bản để nhận dạng dấu câu và mạng nơ-ron phức hợp (CNN) để phân loại các sự kiện âm thanh. Ba mô hình này gửi các tín hiệu kết hợp để tạo thành phụ đề gốc, hoàn chỉnh với phụ đề tiếng vỗ tay và phụ đề âm nhạc.
Khi giọng nói được nhận dạng ở định dạng âm thanh hoặc video, Công nghệ nhận dạng giọng nói Tự động (ASR) được bật, cho phép thiết bị bắt đầu phiên âm các từ thành văn bản. Khi lời nói này dừng lại, chẳng hạn như khi nhạc đang phát thay vào đó, ASR sẽ ngừng chạy để tiết kiệm pin điện thoại và kích hoạt nhạc trong phụ đề.
Khi văn bản phát biểu được xây dựng thành chú thích, dấu câu được hình thành trên câu hoàn chỉnh trước đó. Dấu câu liên tục được điều chỉnh cho đến khi kết quả ASR không ảnh hưởng đến ý nghĩa của câu hoàn chỉnh.
Công nghệ NLP tập trung vào khả năng tiếp cận không chỉ giới hạn trong việc tạo phụ đề. Một dự án khác của Google, Project Euphonia đang sử dụng NLP để giúp các cá nhân có trở ngại về giọng nói hoặc giọng nói không điển hình được phần mềm nhận dạng giọng nói hiểu rõ hơn. Dự án Euphonia thu thập 300-1500 cụm từ âm thanh từ các tình nguyện viên có khuyết tật lời nói.
Sau đó, những mẫu âm thanh này có thể được “đưa” vào các mô hình nhận dạng giọng nói để luyện cho nhiều dạng khiếm khuyết khác nhau. Ngoài ra, chương trình tạo ra hệ thống giọng nói đơn giản có thể sử dụng theo dõi khuôn mặt hoặc âm thanh đơn giản để báo hiệu các hành động khác nhau, như bật đèn hoặc chơi một bài hát nhất định.
Trong tương lai, việc tạo ra các khóa đào tạo đa dạng hơn cho AI bao gồm giọng vùng, phương ngữ và tiếng lóng có thể giúp giảm chênh lệch về độ chính xác của Công nghệ nhận dạng giọng nói Tự động giữa các chủng tộc và dân tộc.
Suy cho cùng, công nghệ có tiềm năng đáng kinh ngạc để gắn kết mọi người lại với nhau, nhưng khi mọi người bị phân biệt, cho dù là do khuyết tật giọng nói, chủng tộc, sắc tộc hay cách khác, nó có thể là một sức mạnh gây chia rẽ và cô lập. Nhờ sức mạnh của công nghệ xử lý ngôn ngữ tự nhiên, giới khoa học đã và đang bắt đầu lấp đầy những khoảng cách này giữa mọi người để xây dựng một nền tảng tương lai dễ tiếp cận hơn.
Theo Dân Việt
- Tags:
- trí tuệ nhân tạo