Image Credits: Hakan Nural/Anadolu / Getty Images
Apple đã xuất bản một tài liệu kỹ thuật chi tiết các mô hình mà họ đã phát triển để cung cấp năng lượng cho Apple Intelligence, một loạt các tính năng AI tạo ra hướng đến iOS, macOS và iPadOS trong vài tháng tới.
Trong bài báo, Apple đã đẩy lùi các cáo buộc rằng họ đã thực hiện một cách tiếp cận đáng ngờ về mặt đạo đức để đào tạo một số mô hình của mình, nhắc lại rằng họ không sử dụng dữ liệu người dùng riêng tư và dựa trên sự kết hợp giữa dữ liệu có sẵn công khai và được cấp phép cho Apple Intelligence.
"Bộ dữ liệu trước khi đào tạo bao gồm... dữ liệu chúng tôi đã cấp phép từ các nhà xuất bản, các bộ dữ liệu có nguồn mở hoặc có sẵn công khai và thông tin có sẵn công khai được thu thập bởi trình thu thập dữ liệu web của chúng tôi, Applebot", Apple viết trong bài báo. "Với sự tập trung của chúng tôi vào việc bảo vệ quyền riêng tư của người dùng, chúng tôi lưu ý rằng không có dữ liệu người dùng Apple riêng tư nào được đưa vào hỗn hợp dữ liệu."
Vào tháng Bảy, Proof News báo cáo rằng Apple đã sử dụng một bộ dữ liệu có tên The Pile, chứa phụ đề từ hàng trăm nghìn video YouTube, để đào tạo một gia đình các mô hình được thiết kế để xử lý trên thiết bị. Nhiều người sáng tạo trên YouTube có phụ đề bị cuốn vào The Pile không biết và không đồng ý với điều này; Apple sau đó đã đưa ra một tuyên bố nói rằng họ không có ý định sử dụng các mô hình đó để cung cấp năng lượng cho bất kỳ tính năng AI nào trong các sản phẩm của mình.
Tài liệu kỹ thuật, bóc rèm cửa trên các mẫu Apple lần đầu tiên tiết lộ tại WWDC 2024 vào tháng 6, được gọi là Apple Foundation Models (AFM), nhấn mạnh rằng dữ liệu đào tạo cho các mẫu AFM có nguồn gốc theo cách "có trách nhiệm" - hoặc ít nhất là chịu trách nhiệm theo định nghĩa của Apple.
Dữ liệu đào tạo của các mô hình AFM bao gồm dữ liệu web có sẵn công khai cũng như dữ liệu được cấp phép từ các nhà xuất bản không được tiết lộ. Theo The New York Times, Apple đã liên hệ với một số nhà xuất bản vào cuối năm 2023, bao gồm NBC, Condé Nast và IAC, về các hợp đồng kéo dài nhiều năm trị giá ít nhất 50 triệu USD để đào tạo người mẫu về kho lưu trữ tin tức của các nhà xuất bản. Các mô hình AFM của Apple cũng được đào tạo về mã nguồn mở được lưu trữ trên GitHub, cụ thể là mã Swift, Python, C, Objective-C, C ++, JavaScript, Java và Go.
Đào tạo các mô hình về mã mà không được phép, thậm chí mã mở, là một điểm gây tranh cãi giữa các nhà phát triển. Một số cơ sở mã nguồn mở không được cấp phép hoặc không cho phép đào tạo AI trong điều khoản sử dụng của chúng, một số nhà phát triển lập luận. Nhưng Apple nói rằng họ đã "lọc giấy phép" cho mã để cố gắng chỉ bao gồm các kho lưu trữ với các hạn chế sử dụng tối thiểu, như các kho theo giấy phép MIT, ISC hoặc Apache.
Để tăng cường kỹ năng toán học của các mô hình AFM, Apple đặc biệt đưa vào bộ câu hỏi và câu trả lời toán học từ các trang web, diễn đàn toán học, blog, hướng dẫn và hội thảo, theo bài báo. Công ty cũng khai thác các bộ dữ liệu "chất lượng cao, có sẵn công khai" (mà bài báo không nêu tên) với "giấy phép cho phép sử dụng để đào tạo ... mô hình", được lọc để loại bỏ thông tin nhạy cảm.
Tất cả đã nói, bộ dữ liệu đào tạo cho các mô hình AFM nặng khoảng 6,3 nghìn tỷ mã thông báo. (Mã thông báo là những mẩu dữ liệu có kích thước vừa phải thường dễ dàng hơn cho các mô hình AI tạo ra để nhập.) Để so sánh, đó là chưa đến một nửa số lượng mã thông báo - 15 nghìn tỷ - mà Meta đã sử dụng để đào tạo mô hình tạo văn bản hàng đầu của mình, Llama 3.1 405B.
Apple đã lấy dữ liệu bổ sung, bao gồm dữ liệu từ phản hồi của con người và dữ liệu tổng hợp, để tinh chỉnh các mô hình AFM và cố gắng giảm thiểu bất kỳ hành vi không mong muốn nào, như phun ra độc tính.
"Các mô hình của chúng tôi đã được tạo ra với mục đích giúp người dùng thực hiện các hoạt động hàng ngày trên các sản phẩm Apple của họ, có căn cứ trong các giá trị cốt lõi của Apple và bắt nguồn từ các nguyên tắc AI có trách nhiệm của chúng tôi ở mọi giai đoạn", công ty cho biết.
Không có súng hút thuốc hoặc cái nhìn sâu sắc gây sốc trong bài báo - và đó là do thiết kế cẩn thận. Hiếm khi các giấy tờ như thế này rất tiết lộ, do áp lực cạnh tranh nhưng cũng vì tiết lộ quá nhiều có thể khiến các công ty gặp rắc rối pháp lý.
Một số công ty đào tạo mô hình bằng cách thu thập dữ liệu web công khai khẳng định rằng thực tiễn của họ được bảo vệ bởi học thuyết sử dụng hợp lý. Nhưng đó là một vấn đề đang được tranh luận rất nhiều và là chủ đề của một số vụ kiện ngày càng tăng.
Apple lưu ý trong bài báo rằng nó cho phép quản trị viên web chặn trình thu thập thông tin của nó thu thập dữ liệu của họ. Nhưng điều đó khiến những người sáng tạo cá nhân rơi vào tình trạng lúng túng. Một nghệ sĩ phải làm gì nếu, ví dụ, danh mục đầu tư của họ được lưu trữ trên một trang web từ chối chặn việc thu thập dữ liệu của Apple?
Các trận chiến trong phòng xử án sẽ quyết định số phận của các mô hình AI tạo ra và cách chúng được đào tạo. Tuy nhiên, hiện tại, Apple đang cố gắng định vị mình là một người chơi có đạo đức trong khi tránh sự giám sát pháp lý không mong muốn.