Internet

Vana dự định để người dùng cho thuê dữ liệu Reddit của họ để huấn luyện AI

Trong làn sóng trào lưu AI sáng tạo, dữ liệu là dầu mới. Vì vậy, tại sao bạn không thể bán nó?

Từ các công ty công nghệ lớn đến các startup, những ai tạo ra AI đều cần cấp phép cho các cuốn sách điện tử, hình ảnh, video, âm thanh và nhiều hơn nữa từ các nhà môi giới dữ liệu, tất cả nhằm mục tiêu huấn luyện sản phẩm dựa trên AI mạnh mẽ hơn (và pháp lý hơn). Shutterstock đã có thỏa thuận với Meta, Google, Amazon và Apple để cung cấp hàng triệu hình ảnh cho việc huấn luyện mô hình, trong khi OpenAI đã ký kết các thỏa thuận với một số tổ chức tin tức để huấn luyện mô hình trên các lưu trữ tin tức.

Trong nhiều trường hợp, các sáng tạo và chủ sở hữu cá nhân của dữ liệu đó chưa thấy một xu nào từ số tiền đổi chủ. Một startup có tên là Vana muốn thay đổi điều đó.

Anna Kazlauskas và Art Abal, cùng gặp nhau trong một lớp học tại MIT Media Lab tập trung vào việc xây dựng công nghệ cho các thị trường mới nổi, đã thành lập Vana vào năm 2021. Trước khi thành lập Vana, Kazlauskas đã học computer science và kinh tế tại MIT, sau đó rời khỏi để khởi chạy một startup tự động hóa fintech, Iambiq, từ Y Combinator. Abal, một luật sư doanh nghiệp theo đào tạo và giáo dục, từng là một luật sư tại The Cadmus Group, một công ty tư vấn có trụ sở tại Boston, trước khi dẫn dắt việc ảnh hưởng tới công việc tại công ty chú thích dữ liệu Appen.

Với Vana, Kazlauskas và Abal đã kế hoạch xây dựng một nền tảng cho phép người dùng “kết hợp” dữ liệu của họ - bao gồm cuộc trò chuyện, ghi âm và ảnh - vào các tập dữ liệu sau đó có thể được sử dụng cho việc huấn luyện mô hình AI sáng tạo. Họ cũng muốn tạo ra những trải nghiệm cá nhân hơn - ví dụ, giọng nói động viên hàng ngày dựa trên mục tiêu sức khỏe của bạn, hoặc một ứng dụng tạo nghệ thuật hiểu về sở thích của bạn - bằng cách điều chỉnh mô hình công cộng trên dữ liệu đó.

“Cơ sở hạ tầng của Vana thực tế tạo ra một kho dữ liệu thuộc sở hữu của người dùng,” Kazlauskas nói với TechCrunch. “Điều này được thực hiện thông qua việc cho phép người dùng tổng hợp dữ liệu cá nhân của họ theo cách không có trung gian… Vana cho phép người dùng sở hữu các mô hình AI và sử dụng dữ liệu của mình trên các ứng dụng AI.”

Dưới đây là cách Vana giới thiệu nền tảng và API của mình cho các nhà phát triển:

API của Vana kết nối dữ liệu cá nhân của người dùng trên nhiều nền tảng… để cho phép bạn cá nhân hóa ứng dụng của bạn. Ứng dụng của bạn có thể truy cập ngay lập tức vào mô hình AI cá nhân hoặc dữ liệu cơ bản của một người dùng, đơn giản hóa việc tiếp nhận và loại bỏ lo lắng về chi phí tính toán. ... Chúng tôi cho rằng người dùng nên có khả năng mang dữ liệu cá nhân của mình từ những vườn tường, như Instagram, Facebook và Google, đến ứng dụng của bạn, để bạn có thể tạo ra trải nghiệm cá nhân tuyệt vời từ lần tương tác đầu tiên của người dùng với ứng dụng AI tiêu dùng của bạn.

Tạo tài khoản với Vana khá đơn giản. Sau khi xác nhận email của bạn, bạn có thể đính kèm dữ liệu vào một hình ảnh đại diện kỹ thuật số (ví dụ, các bức ảnh tự sướng, một mô tả về bản thân và ghi âm giọng nói) và khám phá các ứng dụng được xây dựng bằng cách sử dụng nền tảng và tập dữ liệu của Vana. Lựa chọn ứng dụng đa dạng từ chatbots kiểu ChatGPT và câu chuyện tương tác đến công cụ tạo hồ sơ Hinge.

Image Credits: Vana

Bây giờ, bạn có thể hỏi, trong thời đại tăng nhận thức về bảo mật dữ liệu và các cuộc tấn công ransomware, tại sao ai đó sẽ từ bỏ thông tin cá nhân cho một startup ẩn danh, chưa kể một startup được hậu thuẫn bởi vốn đầu tư rủng rỉnh? (Vana đã huy động được 20 triệu đô la cho đến nay từ Paradigm, Polychain Capital và các nhà đầu tư khác.) Một công ty với mục tiêu lợi nhuận có thể được tin tưởng không lạm dụng hoặc xử lý không đúng cách bất kỳ dữ liệu có thể tạo ra lợi nhuận mà nó có trong tay?

Image Credits: Vana

Trả lời câu hỏi đó, Kazlauskas nhấn mạnh rằng mục tiêu chính của Vana là cho người dùng “lấy lại quyền kiểm soát trên dữ liệu của họ,” lưu ý rằng người dùng Vana có khả năng tự lưu trữ dữ liệu của họ thay vì lưu trữ trên máy chủ của Vana và kiểm soát cách dữ liệu của họ được chia sẻ với các ứng dụng và nhà phát triển. Cô cũng lập luận rằng, vì Vana kiếm tiền bằng cách tính phí đăng ký hàng tháng cho người dùng (bắt đầu từ 3,99 đô la) và đánh một khoản “giao dịch dữ liệu” cho các nhà phát triển (ví dụ, cho việc chuyển tập dữ liệu cho huấn luyện mô hình AI), công ty không bị động viên để lạm dụng người dùng và những lượng dữ liệu cá nhân mà họ mang theo.

“Chúng tôi muốn tạo ra các mô hình do người dùng sở hữu và quản lý đồng thời đóng góp dữ liệu của họ,” Kazlauskas nói, “và cho phép người dùng mang dữ liệu và mô hình của họ đi với bất kỳ ứng dụng nào.”

Bây giờ, trong khi Vana không bán dữ liệu của người dùng cho các công ty để huấn luyện mô hình AI sáng tạo (hoặc ít nhất là nó khẳng định vậy), nó muốn cho phép người dùng làm điều này bằng chính mình nếu họ muốn - bắt đầu từ các bài đăng Reddit của họ.

Tháng này, Vana đã ra mắt điều mà họ gọi là Reddit Data DAO (Tổ chức Tự động Số hóa), một chương trình tổ chức dữ liệu Reddit của nhiều người dùng (bao gồm điểm karma và lịch sử bài đăng của họ) và cho phép họ quyết định cùng nhau cách sử dụng dữ liệu kết hợp đó. Sau khi tham gia với một tài khoản Reddit, gửi yêu cầu cho Reddit về dữ liệu của mình và tải dữ liệu đó lên DAO, người dùng có quyền bỏ phiếu cùng với các thành viên khác của DAO về quyết định như cấp phép dữ liệu kết hợp cho các công ty AI sáng tạo để chia sẻ lợi nhuận.

Chúng tôi đã tính toán số liệu và r/datadao hiện là tổ chức dữ liệu DAO lớn nhất trong lịch sử: Giai đoạn 1 đã chào đón 141.000 người dùng Reddit với 21.000 tải dữ liệu đầy đủ.

- r/datadao (@rdatadao) 11 tháng 4 năm 2024

Đó là một câu trả lời một phần cho các động thái gần đây của Reddit để thương mại hóa dữ liệu trên nền tảng của mình.

Trước đó, Reddit không hạn chế truy cập vào các bài đăng và cộng đồng cho các mục đích huấn luyện AI sáng tạo. Nhưng nó đã đảo ngược quyết định vào cuối năm ngoái, trước khi IPO. Kể từ thay đổi chính sách, Reddit đã thu về hơn 203 triệu đô la từ các khoản cấp phép cho các công ty, bao gồm Google.

“Ý tưởng chính [với DAO] là để giải phóng dữ liệu người dùng khỏi những nền tảng lớn tìm cách gom và thương phẩm hóa nó,” Kazlauskas nói. “Đây là lần đầu tiên và là một phần trong sự đẩy mạnh của chúng tôi để giúp mọi người tổng hợp dữ liệu của họ thành các tập dữ liệu thuộc sở hữu của người dùng để huấn luyện mô hình AI.”

Không có gì ngạc nhiên, Reddit - không hợp tác với Vana theo bất kỳ cách thức chính thức nào - không hài lòng với DAO.

Reddit đã cấm subreddit của Vana dành cho thảo luận về DAO. Và một người phát ngôn của Reddit cáo buộc Vana “lợi dụng” hệ thống xuất dữ liệu của mình, được thiết kế để tuân thủ các quy định bảo vệ dữ liệu như GDPR và California Consumer Privacy Act.

“Các hợp đồng dữ liệu của chúng tôi cho phép chúng tôi đặt rào cản đối với những thực thể như vậy, ngay cả trên thông tin công cộng,” người phát ngôn cho biết với TechCrunch. “Reddit không chia sẻ dữ liệu cá nhân không công khai với các doanh nghiệp thương mại và khi các Redditor yêu cầu xuất dữ liệu của họ từ chúng tôi, họ nhận được dữ liệu cá nhân không công khai từ chúng tôi theo quy định của luật pháp áp dụng. Các đối tác trực tiếp giữa Reddit và các tổ chức được kiểm tra, với điều khoản rõ ràng và trách nhiệm, quan trọng và những liên kết và thỏa thuận này ngăn chặn sự lạm dụng và sai dùng dữ liệu của mọi người.”

Nhưng liệu Reddit có lý do thực sự để lo lắng không?

Kazlauskas mường tượng rằng DAO sẽ phát triển đến mức ảnh hưởng đến số tiền mà Reddit có thể tính phí cho khách hàng của mình với dữ liệu. Điều này vẫn còn xa xôi, giả sử rằng điều đó bao giờ thực sự xảy ra; DAO chỉ có hơn 141.000 thành viên, một tỷ lệ rất nhỏ so với cơ sở người dùng mạnh 73 triệu người của Reddit. Và một số thành viên trong đó có thể là bot hoặc tài khoản trùng lặp.

Vấn đề tiếp theo là cách phân phối công bố công bằng cho các khoản thanh toán mà DAO có thể nhận từ các nhà mua dữ liệu.

Hiện tại, DAO trao “token” - tiền điện tử - cho người dùng tương ứng với điểm karma Reddit của họ. Nhưng karma có thể không phải là biện pháp tốt nhất để đánh giá những đóng góp chất lượng vào tập dữ liệu - đặc biệt là ở trong cộng đồng Reddit nhỏ hơn có ít cơ hội để kiếm được nó.

Kazlauskas đưa ra ý tưởng rằng các thành viên của DAO có thể chọn chia sẻ dữ liệu trên nhiều nền tảng và dân số của họ, khiến DAO có thể trở nên có giá trị hơn và khuyến khích đăng ký. Nhưng điều đó cũng yêu cầu người dùng phải đặt niềm tin nhiều hơn vào Vana để xử lý dữ liệu nhạy cảm của

Related Articles

Back to top button Back to top button