Cơ quan quản lý quyền riêng tư hàng đầu của Google tại Liên minh Châu Âu đã mở một cuộc điều tra về việc liệu Google có tuân thủ luật bảo vệ dữ liệu của khối liên quan đến việc sử dụng thông tin của mọi người để đào tạo AI tạo sinh hay không.
Cụ thể, cơ quan này đang xem xét liệu gã khổng lồ công nghệ có cần thực hiện đánh giá tác động bảo vệ dữ liệu (DPIA) hay không để chủ động xem xét các rủi ro mà công nghệ AI của mình có thể gây ra đối với quyền và quyền tự do của những cá nhân có thông tin được sử dụng để đào tạo các mô hình.
Các công cụ AI tạo sinh nổi tiếng là tạo ra những thông tin sai lệch nghe có vẻ hợp lý. Xu hướng đó, kết hợp với khả năng cung cấp thông tin cá nhân theo yêu cầu, tạo ra rất nhiều rủi ro pháp lý cho những người tạo ra chúng. Ủy ban Bảo vệ Dữ liệu (DPC) của Ireland, cơ quan giám sát việc Google tuân thủ Quy định Bảo vệ Dữ liệu Chung (GDPR) của khối, có quyền áp dụng các khoản tiền phạt lên tới 4% doanh thu hàng năm toàn cầu của Alphabet (công ty mẹ của Google) đối với bất kỳ vi phạm nào được xác nhận.
Google đã phát triển một số công cụ AI tạo sinh, bao gồm toàn bộ họ các mô hình ngôn ngữ lớn (LLM) mục đích chung được gọi là Gemini (trước đây là Bard). Công ty sử dụng công nghệ này để cung cấp năng lượng cho các chatbot AI, bao gồm cả việc cải thiện tìm kiếm trên web. Nền tảng của các công cụ AI hướng đến người tiêu dùng này là Google LLM có tên là PaLM2, được ra mắt vào năm ngoái tại hội nghị dành cho nhà phát triển I/O.
DPC Ireland cho biết họ đang điều tra cách Google phát triển mô hình AI nền tảng này theo Mục 110 của Đạo luật Bảo vệ Dữ liệu năm 2018 của Ireland, trong đó chuyển đổi GDPR thành luật quốc gia.
Việc đào tạo các mô hình GenAI thường đòi hỏi một lượng lớn dữ liệu và các loại thông tin mà những người tạo ra LLM đã thu thập được, cũng như cách thức và địa điểm họ có được thông tin đó, đang ngày càng được xem xét kỹ lưỡng liên quan đến một loạt các vấn đề pháp lý, bao gồm bản quyền và quyền riêng tư.
Trong trường hợp sau, thông tin được sử dụng làm nguồn dữ liệu đào tạo AI có chứa thông tin cá nhân của người dân EU phải tuân theo các quy tắc bảo vệ dữ liệu của khối, cho dù thông tin đó được thu thập từ internet công cộng hay được thu thập trực tiếp từ người dùng. Đây là lý do tại sao một số LLM đã phải đối mặt với các câu hỏi — và một số vấn đề thực thi GDPR — liên quan đến việc tuân thủ quyền riêng tư, bao gồm OpenAI, nhà sản xuất GPT (và ChatGPT); và Meta, đơn vị phát triển mô hình AI Llama.
Elon Musk sở hữu X cũng đã thu hút các khiếu nại về GDPR và sự tức giận của DPC về việc sử dụng dữ liệu của mọi người để đào tạo AI — dẫn đến một thủ tục tố tụng tại tòa án và cam kết của X sẽ hạn chế việc xử lý dữ liệu của mình nhưng không có lệnh trừng phạt. Mặc dù X vẫn có thể phải đối mặt với hình phạt GDPR nếu DPC xác định rằng việc xử lý dữ liệu người dùng để đào tạo công cụ AI của mình là Grok đã vi phạm chế độ.
Cuộc điều tra DPIA của DPC đối với GenAI của Google là hành động quản lý mới nhất trong lĩnh vực này.
"Cuộc điều tra theo luật định liên quan đến câu hỏi liệu Google có tuân thủ bất kỳ nghĩa vụ nào mà công ty có thể phải thực hiện đánh giá hay không, theo Điều 35 của Quy định bảo vệ dữ liệu chung (Đánh giá tác động bảo vệ dữ liệu), trước khi tham gia vào việc xử lý dữ liệu cá nhân của các đối tượng dữ liệu EU/EEA liên quan đến việc phát triển Mô hình AI cơ bản của mình, Mô hình ngôn ngữ Pathways 2 (PaLM 2)", DPC đã viết trong một thông cáo báo chí.
Bài viết chỉ ra rằng DPIA có thể có "tầm quan trọng cốt yếu trong việc đảm bảo rằng các quyền và tự do cơ bản của cá nhân được xem xét và bảo vệ đầy đủ khi việc xử lý dữ liệu cá nhân có khả năng dẫn đến rủi ro cao".
"Cuộc điều tra theo luật định này là một phần trong những nỗ lực rộng lớn hơn của DPC, phối hợp với các cơ quan quản lý ngang hàng EU/EEA [Khu vực kinh tế châu Âu], trong việc quản lý việc xử lý dữ liệu cá nhân của các chủ thể dữ liệu EU/EEA trong quá trình phát triển các mô hình và hệ thống AI", DPC nói thêm, đồng thời tham chiếu đến những nỗ lực đang diễn ra của mạng lưới những người thực thi GDPR của khối này nhằm đạt được sự đồng thuận về cách áp dụng tốt nhất luật bảo mật đối với các công cụ GenAI.
Google không trả lời các câu hỏi về nguồn dữ liệu được sử dụng để đào tạo các công cụ GenAI của mình nhưng người phát ngôn Jay Stoll đã gửi qua email một tuyên bố trong đó Google viết: "Chúng tôi thực hiện nghiêm túc các nghĩa vụ của mình theo GDPR và sẽ hợp tác xây dựng với DPC để trả lời các câu hỏi của họ".