Sociology

Tổ chức phi lợi nhuận Đức này đang xây dựng một trợ lý thoại mở mà bất kỳ ai cũng có thể sử dụng

Đã có nhiều nỗ lực về trợ lý thoại dựa trên trí tuệ nhân tạo mã nguồn mở (xem Rhasspy, Mycroft và Jasper, để kể một vài) – tất cả đều được thiết lập với mục tiêu tạo ra trải nghiệm offline bảo vệ quyền riêng tư, không hi sinh chức năng. Nhưng việc phát triển đã chứng minh là vô cùng chậm chạp. Điều đó bởi vì, ngoài những thách thức thông thường gắn liền với các dự án mã nguồn mở, lập trình một trợ lý thoại rất khó. Công nghệ như Google Assistant, Siri và Alexa đã có nhiều năm, thậm chí hàng thập kỷ của R&D đứng sau chúng – và cơ sở hạ tầng khổng lồ nữa.

Nhân viên của Hệ thống Mạng lưới Trí tuệ Nhân tạo Quy mô lớn (LAION), tổ chức phi lợi nhuận Đức chịu trách nhiệm duy trì một số bộ dữ liệu đào tạo AI phổ biến nhất trên thế giới không bị làm chậm bởi điều đó. Tháng này, LAION đã công bố một sáng kiến mới, BUD-E, mà mục tiêu xây dựng một trợ lý thoại "hoàn toàn mở" có khả năng chạy trên phần cứng tiêu dùng.

Tại sao lại khởi chạy một dự án trợ lý thoại mới hoàn toàn khi có vô số dự án khác ở đó đa dạng tình trạng bị bỏ rơi? Wieland Brendel, một cộng tác viên tại Viện Ellis và đóng góp cho BUD-E, tin rằng không có một trợ lý thoại mở với một kiến trúc mở rộng đủ để tận dụng đầy đủ các công nghệ GenAI mới nổi, đặc biệt là các mô hình ngôn ngữ lớn (LLM) theo hướng của ChatGPT của OpenAI.

“Hầu hết các tương tác với [trợ lý thoại] dựa vào giao diện trò chuyện khá khó chịu để tương tác, [và] các đoạn hội thoại với hệ thống đóm cảm thấy cồng kềnh và không tự nhiên,” Brendel nói với TechCrunch trong một cuộc phỏng vấn qua email. “Những hệ thống đó OK để truyền lệnh điều khiển âm nhạc của bạn hoặc bật đèn, nhưng chúng không phải là cơ sở để tạo ra cuộc trò chuyện dài và hấp dẫn. Mục tiêu của BUD-E là cung cấp cơ sở cho một trợ lý thoại mà cảm nhận rõ ràng hơn đối với con người và mô phỏng các mẫu hình thoại tự nhiên của các cuộc hội thoại con người và ghi nhớ các cuộc trò chuyện trước đó.”

Brendel bổ sung rằng LAION cũng muốn đảm bảo rằng mỗi thành phần của BUD-E có thể được tích hợp cuối cùng vào các ứng dụng và dịch vụ miễn phí cấp phép, thậm chí thương mại – điều mà không nhất thiết phải là trường hợp cho các nỗ lực trợ lý thoại mở nguồn khác.

Một hợp tác với Viện Ellis ở Tübingen, công ty tư vấn công nghệ Collabora và Trung tâm Trí tuệ Nhân tạo Tübingen, BUD-E – viết tắt đệ quy của “Buddy for Understanding and Digital Empathy” – có một lộ trình tham vọng. Trong một bài đăng trên blog, nhóm LAION chỉ ra những gì họ hy vọng đạt được trong vài tháng tới, chủ yếu xây dựng “trí tuệ cảm xúc” vào BUD-E và đảm bảo rằng nó có thể xử lý các cuộc trò chuyện liên quan đến nhiều người nói cùng một lúc.

“Cần có một trợ lý thoại giọng nói tự nhiên hoạt động tốt,” Brendel nói. “LAION đã chỉ ra trong quá khứ rằng nó rất tốt trong việc xây dựng cộng đồng, và Viện ELLIS Tübingen và Trung tâm Trí tuệ Nhân tạo Tübingen cam kết cung cấp các tài nguyên để phát triển trợ lý thoại.”

BUD-E đang chạy – bạn có thể tải xuống và cài đặt ngay hôm nay từ GitHub trên Ubuntu hoặc máy tính Windows (macOS sẽ đến sau) – nhưng rõ ràng nó đang ở giai đoạn sơ khai.

LAION đã tổng hợp một số mô hình mở để tổng hợp một MVP, bao gồm Phi-2 LLM của Microsoft, StyleTTS2 chuyển văn bản thành lời nói của Columbia và FastConformer của Nvidia cho chuyển giọng nói thành văn bản. Do đó, trải nghiệm hơi chưa tối ưu. Để có BUD-E phản hồi lệnh trong khoảng 500 mili giây – trong phạm vi của các trợ lý thoại giọng nói thương mại như Google Assistant và Alexa – yêu cầu một GPU mạnh như Nvidia’s RTX 4090.

Collabora đang làm việc miễn phí để điều chỉnh các mô hình nhận dạng giọng nói và chuyển văn bản mở nguồn của họ, WhisperLive và WhisperSpeech, cho BUD-E.

“Việc xây dựng các giải pháp chuyển văn bản thành lời nói và nhận dạng giọng nói chính chúng ta có thể tùy chỉnh chúng đến mức độ mà không thể với các mô hình đóng,” Jakub Piotr Cłapa, một nhà nghiên cứu AI tại Collabora và thành viên nhóm BUD-E, nói qua email. “Collabora ban đầu bắt đầu làm việc trên [các trợ lý thoại] mở nguồn một phần vì chúng tôi gặp khó khăn trong việc tìm giải pháp chuyển văn bản thành lời nói tốt cho một tác nhân giọng dựa trên LLM cho một trong các khách hàng của chúng tôi. Chúng tôi quyết định hợp tác với cộng đồng mã nguồn mở rộng rãi để làm cho các mô hình của chúng ta trở nên phổ cập và hữu ích hơn.”

Trong tương lai gần, LAION nói rằng họ sẽ làm cho yêu cầu phần cứng của BUD-E ít khó khăn hơn và giảm độ trễ của trợ lý thoại. Một công việc kéo dài hơn là xây dựng một tập dữ liệu của các cuộc hội thoại để điều chỉnh BUD-E – cũng như một cơ chế lưu thông tin giúp BUD-E lưu thông tin từ các cuộc trò chuyện trước đó và một ống xử lý giọng nói có thể theo dõi nhiều người nói cùng một lúc.

Tôi đã hỏi nhóm liệu có phải việc truy cập là một ưu tiên, xét trong lịch sử hệ thống nhận dạng giọng nói thường không hoạt động tốt với các ngôn ngữ không phải tiếng Anh và giọng khác không phải là Transatlantic. Một nghiên cứu của Đại học Stanford đã phát hiện rằng các hệ thống nhận dạng giọng nói từ Amazon, IBM, Google, Microsoft và Apple gần gấp đôi lỗi khi nhận dạng người nói Da màu so với người nói Da trắng cùng tuổi và giới tính.

Brendel nói rằng LAION không bỏ qua việc truy cập – nhưng đó không phải là “ưu tiên ngay lập tức” cho BUD-E.

“Ưu tiên đầu tiên là thực sự tái định nghĩa trải nghiệm của chúng ta với trợ lý thoại trước khi tổng quát hóa trải nghiệm đó sang các giọng và ngôn ngữ đa dạng hơn,” Brendel nói.

Để đạt được điều đó, LAION có một số ý tưởng khá lạ lùng cho BUD-E, từ một hình ảnh hoạt hình đến nhân cách hóa trợ lý thoại để hỗ trợ phân tích khuôn mặt người dùng qua webcam để tính đến tâm trạng của họ.

Đạo đức của phần cuối – phân tích khuôn mặt – hơi rắc rối, không cần thiết phải nói. Nhưng Robert Kaczmarczyk, một trong số các người sáng lập LAION, nhấn mạnh rằng LAION sẽ tiếp tục cam kết với an toàn.

“[Chúng tôi] tuân thủ nguyên tắc an toàn và đạo đức được đề xuất bởi Luật AI của EU,” ông nói với TechCrunch qua email – đề cập đến khung pháp lý điều chỉnh việc mua bán và sử dụng AI trong EU. Luật AI của EU cho phép các quốc gia thành viên Liên minh châu Âu áp dụng các quy tắc và biện pháp bảo vệ hơn cho AI “có nguy cơ cao”, bao gồm bộ phân loại cảm xúc.

Cam kết này đến lãnh vực minh bạch không chỉ ở việc xác định sớm và sửa chữa các định kiến tiềm ẩn, mà còn hỗ trợ cho mục tiêu của tính toàn vẹn khoa học,” Kaczmarczyk bổ sung. “Bằng cách làm cho các tập dữ liệu của chúng tôi trở nên dễ tiếp cận, chúng tôi khuyến khích cộng đồng khoa học rộng lớn tham gia vào nghiên cứu tuân thủ các tiêu chuẩn cao nhất về khả năng tái tạo.”

Công việc trước đây của LAION không hoàn toàn trong mặt đạo đức, và hiện đang theo đuổi một dự án khác hơi gây tranh cãi về nhận dạng tình cảm. Nhưng có thể BUD-E sẽ khác biệt; chúng ta sẽ phải chờ xem.

Related Articles

Back to top button Back to top button