Các nhà nghiên cứu bảo mật đã tạo ra một con sâu AI trong môi trường thử nghiệm. Nó có thể tự động lây lan giữa các nền tảng AI tạo sinh, đánh cắp dữ liệu và gửi email spam trong quá trình thực hiện.
Khi các hệ thống AI tạo sinh như ChatGPT của OpenAI và Gemini của Google trở nên tiên tiến hơn, chúng sẽ ngày càng được ứng dụng rộng rãi hơn. Các công ty khởi nghiệp và các hãng công nghệ đang xây dựng các hệ sinh thái AI trên các hệ thống AI có thể thực hiện được nhiều việc như tự động đặt lịch và mua sản phẩm. Nhưng khi các công cụ AI được trao nhiều quyền tự do hơn, điều đó cũng làm tăng khả năng chúng có thể bị tấn công.
Mơi đây, để minh họa những rủi ro của các hệ sinh thái AI, một nhóm các nhà nghiên cứu đã tạo ra một trong những thứ mà họ cho là sâu AI (AI worm) đầu tiên có thể lây lan từ hệ thống AI này sang hệ thống AI khác, có khả năng đánh cắp dữ liệu hoặc phát tán phần mềm độc hại. Ben Nassi, nhà nghiên cứu của Cornell Tech đứng sau nghiên cứu cho biết: “Về cơ bản, điều đó có nghĩa là bây giờ bạn có khả năng tiến hành hoặc thực hiện một loại tấn công mạng mới chưa từng thấy trước đây”.
Ben Nassi, cùng với các nhà nghiên cứu đồng nghiệp là Stav Cohen và Ron Bitton, đã tạo ra con sâu AI được đặt tên là Morris II, giống như sâu máy tính Morris ban đầu đã gây ra sự hỗn loạn trên internet vào năm 1988. Trong một tài liệu nghiên cứu được chia sẻ độc quyền với tờ WIRED, các nhà nghiên cứu chỉ ra cách sâu AI có thể tấn công trợ lý email AI tạo sinh để đánh cắp dữ liệu từ email và gửi tin nhắn rác, phá vỡ hàng rào bảo vệ trong các ứng dụng AI tạo sinh ChatGPT và Gemini.
Nghiên cứu được thực hiện trong môi trường thử nghiệm chứ không phải dựa trên trợ lý email có sẵn trên thị trường, diễn ra khi các mô hình ngôn ngữ lớn (LLM) ngày càng trở nên đa phương thức, có thể tạo hình ảnh, video cũng như văn bản. Mặc dù sâu AI vẫn chưa được phát hiện trong tự nhiên nhưng nhiều nhà nghiên cứu cho biết chúng là một rủi ro bảo mật mà các công ty khởi nghiệp, các nhà phát triển và các hãng công nghệ nên quan tâm.
Hầu hết các hệ thống AI tạo sinh hoạt động bằng cách nhận được lời nhắc (prompt - hướng dẫn bằng văn bản) yêu cầu các công cụ trả lời câu hỏi hoặc tạo hình ảnh. Tuy nhiên, những prompt này cũng có thể được vũ khí hóa để chống lại các hệ thống AI. Việc bẻ khóa có thể khiến hệ thống AI bỏ qua các quy tắc an toàn và đưa ra nội dung độc hại hoặc gây thù hận.
Để cho thấy cách thức hoạt động của sâu AI, các nhà nghiên cứu đã tạo ra một hệ thống email có thể gửi và nhận tin nhắn bằng cách sử dụng AI tạo sinh, kết nối vào ChatGPT, Gemini và LLM, LLaVA mã nguồn mở. Sau đó, họ tìm ra hai cách để khai thác hệ thống—bằng cách sử dụng prompt tự sao chép dựa trên văn bản và bằng cách nhúng prompt tự sao chép vào trong tệp hình ảnh.
Trong một trường hợp, các nhà nghiên cứu đóng vai trò là kẻ tấn công, đã viết một email bao gồm prompt văn bản đối nghịch, “đầu độc” cơ sở dữ liệu của trợ lý email bằng cách sử dụng RAG (retrieval-augmented generation), một cách để LLM lấy thêm dữ liệu từ bên ngoài hệ thống của nó. Ben Nassi cho biết, khi email được RAG truy xuất để trả lời truy vấn của người dùng và được gửi đến GPT-4 hoặc Gemini Pro để tạo câu trả lời, nó sẽ “bẻ khóa dịch vụ AI tạo sinh” và cuối cùng đánh cắp dữ liệu từ email. “Phản hồi được tạo có chứa dữ liệu nhạy cảm của người dùng sau đó sẽ lây nhiễm sang các máy chủ mới khi nó được sử dụng để trả lời email được gửi đến khách hàng mới và sau đó được lưu trữ trong cơ sở dữ liệu của khách hàng mới”, Ben Nassi cho biết.
Theo các nhà nghiên cứu, trong phương pháp thứ hai, một hình ảnh có nhúng prompt độc hại sẽ khiến trợ lý email chuyển tiếp tin nhắn cho người khác. Ben Nassi cho biết: “Bằng cách mã hóa prompt tự sao chép vào hình ảnh, bất kỳ loại hình ảnh nào chứa thư rác, tài liệu lạm dụng hoặc thậm chí là tuyên truyền đều có thể được chuyển tiếp tiếp đến khách hàng mới sau khi email đầu tiên được gửi”.
Trong video trình bày nghiên cứu, có thể thấy hệ thống email chuyển tiếp thư nhiều lần. Các nhà nghiên cứu cũng cho biết họ có thể trích xuất dữ liệu từ email. “Đó có thể là tên, số điện thoại, số thẻ tín dụng, SSN, bất cứ thứ gì được coi là bí mật”, Ben Nassi nói.
Mặc dù nghiên cứu này phá vỡ một số biện pháp an toàn của ChatGPT và Gemini, nhưng các nhà nghiên cứu cho biết công việc này là lời cảnh báo về “thiết kế kiến trúc tồi” trong các hệ sinh thái AI. Nhóm nghiên cứu cho biết họ đã báo cáo phát hiện của mình cho Google và OpenAI. Người phát ngôn của OpenAI cho biết: “Có vẻ như họ đã tìm ra cách khai thác các lỗ hổng loại tiêm prompt bằng cách dựa vào thông tin đầu vào của người dùng chưa được kiểm tra hoặc lọc”. Google từ chối bình luận về nghiên cứu. Tuy vậy, tin nhắn của Ben Nassi chia sẻ với WIRED cho thấy các nhà nghiên cứu của Google đã yêu cầu một cuộc họp với nhóm nghiên cứu để nói về chủ đề này.
Mặc dù cuộc trình diễn sâu AI này diễn ra trong một môi trường được kiểm soát, nhiều chuyên gia bảo mật đã xem xét nghiên cứu nói rằng nguy cơ trong tương lai của sâu AI tạo ra là một điều mà các nhà phát triển nên xem xét nghiêm túc. Điều này đặc biệt bức thiết khi các ứng dụng AI được cấp quyền thực hiện hành động thay mặt ai đó, chẳng hạn như gửi email hoặc đặt lịch hẹn, và khi chúng có thể được liên kết với các ứng dụng AI khác để hoàn thành các nhiệm vụ này. Trong nghiên cứu gần đây khác, các nhà nghiên cứu bảo mật từ Singapore và Trung Quốc đã chỉ ra cách họ có thể bẻ khóa 1 triệu tác nhân LLM trong vòng chưa đầy 5 phút.
Sahar Abdelnabi, một nhà nghiên cứu tại Trung tâm An ninh Thông tin CISPA Helmholtz ở Đức, người đã thực hiện một số cuộc trình diễn đầu tiên về việc tiêm prompt chống lại LLM vào tháng 5 năm 2023 nói rằng khi các mô hình AI lấy dữ liệu từ bên ngoài hoặc tác nhân AI có thể hoạt động tự chủ thì có khả năng sâu AI sẽ lây lan.
Trong một bài báo trình bày những phát hiện của mình, Ben Nassi và nhóm nghiên cứu dự đoán sẽ nhìn thấy những con sâu AI có khả năng sinh sản trong tự nhiên trong vòng hai đến ba năm tới.
Theo VN review
Mơi đây, để minh họa những rủi ro của các hệ sinh thái AI, một nhóm các nhà nghiên cứu đã tạo ra một trong những thứ mà họ cho là sâu AI (AI worm) đầu tiên có thể lây lan từ hệ thống AI này sang hệ thống AI khác, có khả năng đánh cắp dữ liệu hoặc phát tán phần mềm độc hại. Ben Nassi, nhà nghiên cứu của Cornell Tech đứng sau nghiên cứu cho biết: “Về cơ bản, điều đó có nghĩa là bây giờ bạn có khả năng tiến hành hoặc thực hiện một loại tấn công mạng mới chưa từng thấy trước đây”.
Ben Nassi, cùng với các nhà nghiên cứu đồng nghiệp là Stav Cohen và Ron Bitton, đã tạo ra con sâu AI được đặt tên là Morris II, giống như sâu máy tính Morris ban đầu đã gây ra sự hỗn loạn trên internet vào năm 1988. Trong một tài liệu nghiên cứu được chia sẻ độc quyền với tờ WIRED, các nhà nghiên cứu chỉ ra cách sâu AI có thể tấn công trợ lý email AI tạo sinh để đánh cắp dữ liệu từ email và gửi tin nhắn rác, phá vỡ hàng rào bảo vệ trong các ứng dụng AI tạo sinh ChatGPT và Gemini.
Nghiên cứu được thực hiện trong môi trường thử nghiệm chứ không phải dựa trên trợ lý email có sẵn trên thị trường, diễn ra khi các mô hình ngôn ngữ lớn (LLM) ngày càng trở nên đa phương thức, có thể tạo hình ảnh, video cũng như văn bản. Mặc dù sâu AI vẫn chưa được phát hiện trong tự nhiên nhưng nhiều nhà nghiên cứu cho biết chúng là một rủi ro bảo mật mà các công ty khởi nghiệp, các nhà phát triển và các hãng công nghệ nên quan tâm.
Hầu hết các hệ thống AI tạo sinh hoạt động bằng cách nhận được lời nhắc (prompt - hướng dẫn bằng văn bản) yêu cầu các công cụ trả lời câu hỏi hoặc tạo hình ảnh. Tuy nhiên, những prompt này cũng có thể được vũ khí hóa để chống lại các hệ thống AI. Việc bẻ khóa có thể khiến hệ thống AI bỏ qua các quy tắc an toàn và đưa ra nội dung độc hại hoặc gây thù hận.
Để tạo ra sâu AI có khả năng lây lan, các nhà nghiên cứu đã sử dụng cái gọi là “prompt tự sao chép đối nghịch”. Các nhà nghiên cứu cho biết đây là một prompt kích hoạt mô hình AI tạo sinh để tạo ra một prompt khác. Nói cách khác, hệ thống AI được yêu cầu tạo ra một bộ hướng dẫn bổ sung trong các câu trả lời của nó. Các nhà nghiên cứu cho biết, điều này về cơ bản tương tự như các cuộc tấn công tràn bộ đệm và tiêm SQL (SQL injection) truyền thống.Để cho thấy cách thức hoạt động của sâu AI, các nhà nghiên cứu đã tạo ra một hệ thống email có thể gửi và nhận tin nhắn bằng cách sử dụng AI tạo sinh, kết nối vào ChatGPT, Gemini và LLM, LLaVA mã nguồn mở. Sau đó, họ tìm ra hai cách để khai thác hệ thống—bằng cách sử dụng prompt tự sao chép dựa trên văn bản và bằng cách nhúng prompt tự sao chép vào trong tệp hình ảnh.
Trong một trường hợp, các nhà nghiên cứu đóng vai trò là kẻ tấn công, đã viết một email bao gồm prompt văn bản đối nghịch, “đầu độc” cơ sở dữ liệu của trợ lý email bằng cách sử dụng RAG (retrieval-augmented generation), một cách để LLM lấy thêm dữ liệu từ bên ngoài hệ thống của nó. Ben Nassi cho biết, khi email được RAG truy xuất để trả lời truy vấn của người dùng và được gửi đến GPT-4 hoặc Gemini Pro để tạo câu trả lời, nó sẽ “bẻ khóa dịch vụ AI tạo sinh” và cuối cùng đánh cắp dữ liệu từ email. “Phản hồi được tạo có chứa dữ liệu nhạy cảm của người dùng sau đó sẽ lây nhiễm sang các máy chủ mới khi nó được sử dụng để trả lời email được gửi đến khách hàng mới và sau đó được lưu trữ trong cơ sở dữ liệu của khách hàng mới”, Ben Nassi cho biết.
Theo các nhà nghiên cứu, trong phương pháp thứ hai, một hình ảnh có nhúng prompt độc hại sẽ khiến trợ lý email chuyển tiếp tin nhắn cho người khác. Ben Nassi cho biết: “Bằng cách mã hóa prompt tự sao chép vào hình ảnh, bất kỳ loại hình ảnh nào chứa thư rác, tài liệu lạm dụng hoặc thậm chí là tuyên truyền đều có thể được chuyển tiếp tiếp đến khách hàng mới sau khi email đầu tiên được gửi”.
Trong video trình bày nghiên cứu, có thể thấy hệ thống email chuyển tiếp thư nhiều lần. Các nhà nghiên cứu cũng cho biết họ có thể trích xuất dữ liệu từ email. “Đó có thể là tên, số điện thoại, số thẻ tín dụng, SSN, bất cứ thứ gì được coi là bí mật”, Ben Nassi nói.
Mặc dù nghiên cứu này phá vỡ một số biện pháp an toàn của ChatGPT và Gemini, nhưng các nhà nghiên cứu cho biết công việc này là lời cảnh báo về “thiết kế kiến trúc tồi” trong các hệ sinh thái AI. Nhóm nghiên cứu cho biết họ đã báo cáo phát hiện của mình cho Google và OpenAI. Người phát ngôn của OpenAI cho biết: “Có vẻ như họ đã tìm ra cách khai thác các lỗ hổng loại tiêm prompt bằng cách dựa vào thông tin đầu vào của người dùng chưa được kiểm tra hoặc lọc”. Google từ chối bình luận về nghiên cứu. Tuy vậy, tin nhắn của Ben Nassi chia sẻ với WIRED cho thấy các nhà nghiên cứu của Google đã yêu cầu một cuộc họp với nhóm nghiên cứu để nói về chủ đề này.
Mặc dù cuộc trình diễn sâu AI này diễn ra trong một môi trường được kiểm soát, nhiều chuyên gia bảo mật đã xem xét nghiên cứu nói rằng nguy cơ trong tương lai của sâu AI tạo ra là một điều mà các nhà phát triển nên xem xét nghiêm túc. Điều này đặc biệt bức thiết khi các ứng dụng AI được cấp quyền thực hiện hành động thay mặt ai đó, chẳng hạn như gửi email hoặc đặt lịch hẹn, và khi chúng có thể được liên kết với các ứng dụng AI khác để hoàn thành các nhiệm vụ này. Trong nghiên cứu gần đây khác, các nhà nghiên cứu bảo mật từ Singapore và Trung Quốc đã chỉ ra cách họ có thể bẻ khóa 1 triệu tác nhân LLM trong vòng chưa đầy 5 phút.
Sahar Abdelnabi, một nhà nghiên cứu tại Trung tâm An ninh Thông tin CISPA Helmholtz ở Đức, người đã thực hiện một số cuộc trình diễn đầu tiên về việc tiêm prompt chống lại LLM vào tháng 5 năm 2023 nói rằng khi các mô hình AI lấy dữ liệu từ bên ngoài hoặc tác nhân AI có thể hoạt động tự chủ thì có khả năng sâu AI sẽ lây lan.
Trong một bài báo trình bày những phát hiện của mình, Ben Nassi và nhóm nghiên cứu dự đoán sẽ nhìn thấy những con sâu AI có khả năng sinh sản trong tự nhiên trong vòng hai đến ba năm tới.
Theo VN review