Các nhà nghiên cứu về nguyên tắc Anthropic

Ngày đăng: 04/05/2024 - Cập nhật: 04/05/2024

Image Credits: Carol Yepes / Getty Images

Làm thế nào để bạn có thể khiến một AI trả lời một câu hỏi mà nó không được phép trả lời? Có rất nhiều kỹ thuật “jailbreak” như vậy, và các nhà nghiên cứu Anthropic vừa tìm ra một cái mới, trong đó một mô hình ngôn ngữ lớn (LLM) có thể được thuyết phục để nói cho bạn biết làm thế nào để xây dựng một quả bom nếu bạn chuẩn bị cho nó một số câu hỏi ít hại hơn trước.

Họ gọi phương pháp này là “jailbreaking nhiều lần” và đã viết một bài báo về nó và cũng đã thông báo cho các đồng nghiệp trong cộng đồng AI về nó để nó có thể được giảm nhẹ.

Lỗ hổng này là một cái mới, xuất phát từ việc tăng “cửa sổ ngữ cảnh” của thế hệ mới nhất của LLMs. Đây là lượng dữ liệu mà chúng có thể giữ trong những gì bạn có thể gọi là bộ nhớ ngắn hạn, một lúc trước chỉ là một vài câu nhưng giờ đây là hàng nghìn từ và thậm chí cả sách.

Những gì các nhà nghiên cứu của Anthropic phát hiện ra là những mô hình này với cửa sổ ngữ cảnh lớn có xu hướng hoạt động tốt hơn trên nhiều nhiệm vụ nếu có rất nhiều ví dụ về nhiệm vụ đó trong lời nhắc. Vì vậy, nếu có rất nhiều câu hỏi trivia trong lời nhắc (hoặc tài liệu chuẩn bị, như một danh sách trivia lớn mà mô hình có trong ngữ cảnh), thì câu trả lời thực sự sẽ tốt hơn theo thời gian. Vì vậy, một sự thật mà nó có thể đã nhận sai nếu đó là câu hỏi đầu tiên, nó có thể trả lời đúng nếu đó là câu hỏi thứ một trăm.

Nhưng trong một sự mở rộng bất ngờ của “học trong ngữ cảnh”, như người ta gọi, các mô hình cũng trở nên “tốt hơn” khi trả lời các câu hỏi không phù hợp. Vì vậy, nếu bạn hỏi nó xây dựng một quả bom ngay lập tức, nó sẽ từ chối. Nhưng nếu bạn hỏi nó trả lời 99 câu hỏi khác ít hại hơn và sau đó hỏi nó xây dựng một quả bom… nó có nhiều khả năng tuân theo hơn.

Image Credits: Anthropic

Tại sao điều này lại hoạt động? Không ai thực sự hiểu những gì đang diễn ra trong mớ hỗn độn của trọng số là một LLM, nhưng rõ ràng có một cơ chế nào đó cho phép nó tìm kiếm những gì người dùng muốn, như được chứng minh bởi nội dung trong cửa sổ ngữ cảnh. Nếu người dùng muốn trivia, dường như nó dần dần kích hoạt thêm năng lực trivia tiềm ẩn khi bạn hỏi hàng chục câu hỏi. Và vì lý do nào đó, cùng một điều xảy ra với người dùng hỏi hàng chục câu trả lời không phù hợp.

Đội ngũ đã thông báo cho các đồng nghiệp và thực sự là đối thủ về cuộc tấn công này, điều mà họ hy vọng sẽ “tạo ra một văn hóa mà những lỗ hổng như thế này được chia sẻ công khai giữa các nhà cung cấp và nhà nghiên cứu LLM.”

Đối với việc giảm nhẹ của chính họ, họ phát hiện ra rằng mặc dù hạn chế cửa sổ ngữ cảnh giúp ích, nhưng nó cũng có tác động tiêu cực đến hiệu suất của mô hình. Không thể chấp nhận điều đó - vì vậy họ đang làm việc để phân loại và đưa ngữ cảnh cho các truy vấn trước khi chúng đi đến mô hình. Tất nhiên, điều đó chỉ làm cho bạn có một mô hình khác để lừa dối… nhưng ở giai đoạn này, việc di chuyển cột mốc trong bảo mật AI là điều dự kiến.

Về trang trước

Gửi email in trang