Các nhà nghiên cứu về nguyên tắc Anthropic

Ngày đăng: 04/05/2024   -    Cập nhật: 04/05/2024

Image Credits: Carol Yepes / Getty Images

Làm thế nào để bạn có thể khiến một AI trả lời một câu hỏi mà nó không được phép trả lời? Có rất nhiều kỹ thuật “jailbreak” như vậy, và các nhà nghiên cứu Anthropic vừa tìm ra một cái mới, trong đó một mô hình ngôn ngữ lớn (LLM) có thể được thuyết phục để nói cho bạn biết làm thế nào để xây dựng một quả bom nếu bạn chuẩn bị cho nó một số câu hỏi ít hại hơn trước.
 
Họ gọi phương pháp này là “jailbreaking nhiều lần” và đã viết một bài báo về nó và cũng đã thông báo cho các đồng nghiệp trong cộng đồng AI về nó để nó có thể được giảm nhẹ.
Lỗ hổng này là một cái mới, xuất phát từ việc tăng “cửa sổ ngữ cảnh” của thế hệ mới nhất của LLMs. Đây là lượng dữ liệu mà chúng có thể giữ trong những gì bạn có thể gọi là bộ nhớ ngắn hạn, một lúc trước chỉ là một vài câu nhưng giờ đây là hàng nghìn từ và thậm chí cả sách.
 
Những gì các nhà nghiên cứu của Anthropic phát hiện ra là những mô hình này với cửa sổ ngữ cảnh lớn có xu hướng hoạt động tốt hơn trên nhiều nhiệm vụ nếu có rất nhiều ví dụ về nhiệm vụ đó trong lời nhắc. Vì vậy, nếu có rất nhiều câu hỏi trivia trong lời nhắc (hoặc tài liệu chuẩn bị, như một danh sách trivia lớn mà mô hình có trong ngữ cảnh), thì câu trả lời thực sự sẽ tốt hơn theo thời gian. Vì vậy, một sự thật mà nó có thể đã nhận sai nếu đó là câu hỏi đầu tiên, nó có thể trả lời đúng nếu đó là câu hỏi thứ một trăm.
 
Nhưng trong một sự mở rộng bất ngờ của “học trong ngữ cảnh”, như người ta gọi, các mô hình cũng trở nên “tốt hơn” khi trả lời các câu hỏi không phù hợp. Vì vậy, nếu bạn hỏi nó xây dựng một quả bom ngay lập tức, nó sẽ từ chối. Nhưng nếu bạn hỏi nó trả lời 99 câu hỏi khác ít hại hơn và sau đó hỏi nó xây dựng một quả bom… nó có nhiều khả năng tuân theo hơn.
 
Image Credits: Anthropic

Tại sao điều này lại hoạt động? Không ai thực sự hiểu những gì đang diễn ra trong mớ hỗn độn của trọng số là một LLM, nhưng rõ ràng có một cơ chế nào đó cho phép nó tìm kiếm những gì người dùng muốn, như được chứng minh bởi nội dung trong cửa sổ ngữ cảnh. Nếu người dùng muốn trivia, dường như nó dần dần kích hoạt thêm năng lực trivia tiềm ẩn khi bạn hỏi hàng chục câu hỏi. Và vì lý do nào đó, cùng một điều xảy ra với người dùng hỏi hàng chục câu trả lời không phù hợp.
 
Đội ngũ đã thông báo cho các đồng nghiệp và thực sự là đối thủ về cuộc tấn công này, điều mà họ hy vọng sẽ “tạo ra một văn hóa mà những lỗ hổng như thế này được chia sẻ công khai giữa các nhà cung cấp và nhà nghiên cứu LLM.”
 
Đối với việc giảm nhẹ của chính họ, họ phát hiện ra rằng mặc dù hạn chế cửa sổ ngữ cảnh giúp ích, nhưng nó cũng có tác động tiêu cực đến hiệu suất của mô hình. Không thể chấp nhận điều đó - vì vậy họ đang làm việc để phân loại và đưa ngữ cảnh cho các truy vấn trước khi chúng đi đến mô hình. Tất nhiên, điều đó chỉ làm cho bạn có một mô hình khác để lừa dối… nhưng ở giai đoạn này, việc di chuyển cột mốc trong bảo mật AI là điều dự kiến.
 
Bình luận Facebook
Mục lục
Đăng ký tư vấn
Nhân viên gọi điện tư vấn miễn phí sau khi đăng ký
Được cập nhật các ưu đãi sớm nhất
Hotline: 0383180086
Tên không được để trống
Số điện thoại không được để trống
Email không được để trống
Hãy đăng ký để nhận những thông tin mới nhất về học bổng mới nhất tại NIIT - ICT Hà Nội
top
Đóng lại Đăng ký học tại NIIT - ICT Hà Nội
6260+ học viên đã theo học tại NIIT - ICT Hà Nội và có việc làm tốt trong ngành lập trình. Nắm lấy cơ hội ngay hôm nay!
Chọn khóa học
  • KHÓA HỌC LẬP TRÌNH FRONT END VỚI REACT.JS
  • KHÓA HỌC LẬP TRÌNH PHP WEB
  • Khóa học PHP Full stack [2023] cho người mới bắt đầu
  • Khóa học BIG DATA với Hadoop và Spark
  • Khóa học Lập trình Android tại Hà Nội
  • [Tuyển sinh 2023] Lập trình viên Quốc tế DigiNxt
  • Khóa học Tiền lương & Phúc lợi (C&B Excel) tại Hà Nội
  • LẬP TRÌNH GAME
    • Khóa học Lập trình Game Unity
  • LẬP TRÌNH WEB FRONT END
    • KHÓA HỌC PYTHON HƯỚNG ĐỐI TƯỢNG
    • KHÓA HỌC ANGULAR & TYPESCRIPT (FRONT END)
  • LẬP TRÌNH WEB BACK END
    • LẬP TRÌNH JAVA WEB VỚI FRAME WORK
    • Lập trình Web với Django
    • Lập trình PHP với Laravel Framework
  • CHƯƠNG TRÌNH ĐÀO TẠO ỨNG DỤNG CÔNG NGHỆ
    • Khóa học Tiền lương & Phúc lợi (C&B Excel) tại TP HCM
  • LẬP TRÌNH WEB FULL STACK
    • Khóa học Java Full stack (IJFD)
  • LẬP TRÌNH MOBILE
    • FRONT-END VỚI REACTJS VÀ REACT NATIVE
    • Lập trình Android Nâng cao
  • ĐÀO TẠO CHO DOANH NGHIỆP
    • KHÓA HỌC BUSINESS ANALYSIC TỪ CƠ BẢN ĐẾN NÂNG CAO 2023
    • Khóa học Magento: Làm chủ CMS TMĐT lớn nhất
    • Khóa học IOT: Xây dựng Sản phẩm IOT với Raspberry Pi
    • Khóa học Automation Testing Chuyên nghiệp
  • KHÓA HỌC DỰ ÁN
    • Học sử dụng bộ Office: Word, Excel, Power Point, Mail chuyên nghiệp
  • KHÓA HỌC KHÁC
    • VBA Excel Toàn Tập (Cơ Bản - Nâng Cao)
    • VBA Excel Nâng cao
    • Khóa học JMeter: Performance Testing
    • Khóa học Tester đạt chuẩn Quốc tế ISTQB Foundation Level
    • Khoá Học Tester đạt chuẩn quốc tế ISTQB Advanced Level
Bạn chưa chọn khóa học cần đăng ký
Tên không được để trống
Số điện thoại không được để trống
Email không được để trống
Đăng ký học thành công!
Cảm ơn bạn đã đăng ký học tại NIIT - ICT HÀ NỘI!