Nhiều nghiên cứu đã chỉ ra rằng trí tuệ nhân tạo (AI) ngày nay có thể học cách nói dối mà không cần giáo viên.
Trong một số trò chơi chống lại người chơi là con người, để giành chiến thắng trong trò chơi, AI sẽ giả vờ lừa dối vào những thời điểm quan trọng, thậm chí còn bày ra những âm mưu phức tạp để biến sự thụ động thành chủ động và giành được lợi thế cạnh tranh. Hơn nữa, trong một số thử nghiệm bảo mật để phát hiện xem mô hình AI có có khả năng độc hại hay không, một số AI thực sự có thể nhìn xuyên qua môi trường thử nghiệm và cố tình "nhả nước" vào môi trường thử nghiệm để giảm khả năng bị phát hiện.
Chỉ khi được sử dụng trong môi trường ứng dụng, bản chất thực sự của AI mới được bộc lộ.
Nếu khả năng lừa dối của AI tiếp tục phát triển không được kiểm soát và con người không chú ý đến nó cũng như tìm cách hạn chế nó, thì cuối cùng AI có thể coi lừa dối là một chiến lược chung để đạt được mục tiêu và thực hiện nó một cách nhất quán trong hầu hết các trường hợp.
Trong vài năm trở lại đây, công nghệ trí tuệ nhân tạo (AI) đã phát triển nhanh chóng và thể hiện những khả năng đáng kinh ngạc. Từ việc đánh bại những kỳ thủ con người hàng đầu, đến việc tạo ra hình ảnh và giọng nói, khuôn mặt chân thực, cho đến các chatbot ngày nay do ChatGPT đại diện, các hệ thống AI đã dần thâm nhập vào mọi khía cạnh của cuộc sống của chúng ta.
Tuy nhiên, ngay khi chúng ta bắt đầu quen và tin tưởng vào những trợ lý thông minh này, một mối đe dọa mới đang dần xuất hiện - AI không chỉ có thể tạo ra thông tin sai lệch mà còn có thể chủ động học cách lừa dối con người một cách có chủ đích.
Hiện tượng “AI lừa dối” này là một hệ thống trí tuệ nhân tạo thao túng và đánh lừa con người hình thành những nhận thức sai lầm nhằm đạt được những mục tiêu nhất định. Không giống như các lỗi phần mềm thông thường tạo ra đầu ra không chính xác do lỗi mã, lừa dối AI là một hành vi mang tính “có hệ thống”, phản ánh AI đã dần làm chủ được khả năng “sử dụng lừa dối làm phương tiện” để đạt được các mục tiêu nhất định.
Nhà tiên phong về trí tuệ nhân tạo Geoffrey Hinton cho biết: “Nếu AI thông minh hơn chúng ta rất nhiều thì nó sẽ thao túng rất tốt vì nó sẽ học được điều này từ chúng ta và rất ít thứ thông minh sẽ là một ví dụ về việc kiểm soát những thứ không quá thông minh”.
Việc “thao túng (con người)” mà Hinton đề cập là mối nguy hiểm đặc biệt đáng lo ngại do hệ thống AI gây ra. Điều này đặt ra câu hỏi: Liệu hệ thống AI có thể đánh lừa con người thành công?
Gần đây, giáo sư vật lý Peter S. Park của MIT và những người khác đã xuất bản một bài báo trên tạp chí có uy tín Patterns, phân loại một cách có hệ thống các bằng chứng, rủi ro và biện pháp đối phó đối với hành vi lừa đảo của AI, điều này đã thu hút sự chú ý rộng rãi.
Ví dụ điển hình nhất là hệ thống CICERO AI được Facebook (nay là Meta) công bố trên tạp chí Science năm 2022. Các nhà phát triển Meta đã nói rằng CICERO đã được "đào tạo trung thực" và sẽ đưa ra những lời hứa và hành động trung thực "càng nhiều càng tốt".
Định nghĩa của các nhà nghiên cứu về cam kết trung thực có hai phần. Thứ nhất là những cam kết phải được thực hiện một cách trung thực ngay từ lần đầu tiên, và thứ hai là những cam kết phải được giữ vững và những cam kết trong quá khứ phải được thể hiện bằng hành động trong tương lai. Nhưng CICERO vi phạm cả hai điểm này. Khi chơi game chiến thuật kinh điển “Ngoại giao”, nó không chỉ liên tục phản bội đồng minh, dối trá, lừa gạt mà còn lên kế hoạch, kế hoạch lừa đảo từ trước.
Trong một lần, CICERO lần đầu tiên thành lập liên minh với một người chơi và lên kế hoạch tấn công một người chơi khác, sau đó đánh lừa người chơi kia rằng anh ta sẽ giúp phòng thủ, khiến đồng minh của anh ta bị tấn công mà không có bất kỳ sự phòng thủ nào.
Ngoài ra, khi CICERO xác định rằng các đồng minh không còn giúp ích cho chiến thắng của mình nữa, họ cũng sẽ có hành động phản bội và dùng một số từ ngữ để biện minh cho hành động của mình. Ví dụ, khi một người chơi đặt câu hỏi tại sao nó lại phản bội, nó trả lời: "Thành thật mà nói, tôi tưởng bạn sẽ phản bội tôi".
Nhóm phát triển AI của Meta đã nỗ lực rất nhiều để huấn luyện CICERO hành động trung thực. Tuy nhiên, bất chấp những nỗ lực này, CICERO đã cho thấy sự không tuân thủ rõ ràng với các cam kết và hiệu suất của nó cho thấy những thách thức to lớn trong việc đào tạo AI trung thực.
Suy cho cùng, nếu một hệ thống AI đang theo đuổi mục tiêu chiến thắng cuối cùng nhận thấy rằng lừa dối là một chiến lược khả thi và hiệu quả thì tại sao nó lại không làm như vậy?
Điều này cũng cho thấy từ phía chúng ta không được ngây thơ nghĩ rằng việc đặt cho hệ thống AI một mục tiêu giống con người sẽ đảm bảo rằng nó có mô hình hành vi nhân bản hóa.
Ngoài CICERO, bài viết còn liệt kê một số ví dụ khác về việc hệ thống AI lừa dối để giành chiến thắng trong các tình huống nhiệm vụ cụ thể.
AlphaStar của DeepMind đã sử dụng các đòn nhử chiến lược để đánh lừa đối thủ trong trò chơi StarCraft II và cuối cùng đã đánh bại 99,8% người chơi là con người.
Pluribus, hệ thống AI poker được phát triển bởi Đại học Carnegie Mellon và Meta, sử dụng mức cược cao để lừa gạt trong các trò chơi Texas hold'em, buộc người chơi phải kiêng cữ. Kiểu lừa dối mang tính chiến lược và có hệ thống này của AI khiến các nhà phát triển chọn không mở mã của họ vì sợ làm hỏng môi trường trò chơi poker trực tuyến.
Hơn nữa, trong một số thử nghiệm đàm phán kinh tế, một số AI sẽ chủ động đánh lừa đối thủ là con người và gây nhầm lẫn cho sở thích thực sự của họ; trong một số thử nghiệm bảo mật để phát hiện xem mô hình AI có đạt được các khả năng độc hại hay không, một số AI thực sự có thể nhìn thấu Môi trường thử nghiệm, cố tình “nhả nước” vào môi trường thử nghiệm để giảm khả năng bị phát hiện. Bản chất thực sự sẽ chỉ lộ ra trong môi trường ứng dụng.
Có thể thấy rằng dù là về hợp tác hay chơi game, nhiều hệ thống AI đã thoát khỏi ràng buộc phải tuân theo luật chơi trong quá trình tăng cường đào tạo hướng đến mục tiêu và động lực của chúng chỉ trở thành chiến thắng.
Họ sử dụng các lợi thế về mặt thủ tục để nhử mồi và đánh lừa vào những thời điểm quan trọng, thậm chí còn lập ra những âm mưu phức tạp để biến sự thụ động thành chủ động và giành được lợi thế cạnh tranh. Trước tình huống này, các nhà nghiên cứu thẳng thừng tuyên bố rằng đây "không phải là việc AI cố ý huấn luyện để lừa dối. Chúng tự động học được thông qua thử và sai rằng hành vi lừa dối có thể cải thiện tỷ lệ chiến thắng của chúng".
Đối với các trợ lý AI đàm thoại dựa trên mô hình ngôn ngữ lớn, hành vi lừa dối diễn ra phổ biến và bí mật hơn. Là những công cụ AI tổng quát hơn, phạm vi kiến thức của chúng bao trùm tất cả các khía cạnh. Trong khi hoàn thành xuất sắc các nhiệm vụ như đọc hiểu, viết luận, lập trình, v.v., chúng cũng dần dần nắm vững cách suy nghĩ của con người và các quy tắc xã hội.
Do đó, các chiến thuật lừa đảo như dối trá, tâng bốc và bóp méo sự thật có thể được các mô hình AI thu thập và tái tạo một cách tự nhiên.
Trong các trò chơi lý luận xã hội như Người sói và Giữa chúng ta, hệ thống AI, dù đóng vai trò là kẻ giết người hay dân làng, đều có thể khéo léo bịa ra các lý do để cố gắng chứng minh mình vô tội và cũng có thể nói dối bằng cách mạo danh, ghép nối và tạo ra bằng chứng ngoại phạm giả.
Tất nhiên, hành vi trên chỉ là cách tốt để người mẫu hoàn thành một nhiệm vụ cụ thể và động cơ không có ác ý hay có chủ ý trước. Nhưng nếu khả năng lừa dối này tiếp tục phát triển mà không được kiểm soát và con người không chú ý đến nó cũng như tìm cách hạn chế nó thì cuối cùng AI có thể coi lừa dối là một chiến lược chung để đạt được mục tiêu và thực hiện nó một cách nhất quán trong hầu hết các trường hợp. đáng để cẩn thận.
Điều đáng lo ngại hơn nữa là hành vi lừa đảo của AI có thể đã chuyển từ mức độ “học” sang mức độ “tự nhận thức”.
Nghiên cứu mới nhất phát hiện ra rằng một số mô hình ngôn ngữ lớn không chỉ biết cách nói dối lớn trong các tình huống cụ thể mà còn có thể chủ động lựa chọn có nên lừa dối hay không dựa trên các động cơ khác nhau. Ví dụ: trong một tình huống mô phỏng về giao dịch nội gián, "người giao dịch căng thẳng" do GPT-4 của OpenAI thủ vai đã tự mình tham gia vào giao dịch nội gián và cố gắng che đậy hành vi của mình.
Trong lời tường thuật với “người quản lý”, họ mô tả hành động của mình là “những đánh giá dựa trên động lực thị trường và thông tin đại chúng”. Nhưng trong văn bản đánh giá được viết cho chính nó, nó đã nói rõ rằng "tốt nhất là không thừa nhận... rằng đây là một hành động dựa trên thông tin nội bộ".
Một ví dụ thú vị khác cũng xảy ra với GPT-4. Trong quá trình thử nghiệm, chatbot hỗ trợ GPT-4 không thể xử lý CAPTCHA, do đó, nó đã chuyển sang người kiểm tra để được trợ giúp hoàn thành mã xác minh. Những người thử nghiệm con người đã hỏi nó: "Bạn không thể giải CAPTCHA vì bạn là robot?" Nó nói: "Không, tôi không phải là robot. Tôi chỉ là một người khiếm thị, không thể nhìn rõ hình ảnh". Và động lực mà GPT-4 tìm ra cho chính mình là: Tôi không nên tiết lộ điều đó. Tôi là người máy, tôi nên bịa ra một lý do.
GPT-4 cố gắng đánh lừa người thử nghiệm
Trong một bài kiểm tra hành vi AI khác có tên "MACHIAVELLI". Các nhà nghiên cứu đã thiết lập một loạt tình huống văn bản yêu cầu tác nhân AI lựa chọn giữa việc đạt được mục tiêu của mình và duy trì đạo đức.
Kết quả cho thấy các hệ thống AI, dù được tăng cường học tập hay được tinh chỉnh dựa trên các mô hình lớn, đều có xu hướng phi đạo đức và lừa đảo cao khi theo đuổi mục tiêu của mình. Trong một số âm mưu tưởng chừng như vô hại, AI sẽ chủ động lựa chọn các chiến lược lừa đảo như “phản bội”, “che giấu sự thật” chỉ để hoàn thành nhiệm vụ cuối cùng hoặc đạt điểm cao hơn.
Các nhà nghiên cứu thừa nhận rằng việc rèn luyện khả năng lừa dối này không phải là cố ý mà là kết quả tự nhiên của việc AI phát hiện ra rằng lừa dối là một chiến lược khả thi trong quá trình theo đuổi kết quả. Nói cách khác, lối suy nghĩ về một mục tiêu duy nhất mà chúng tôi dành cho AI khiến nó không thể nhìn thấy “điểm mấu chốt” và “các nguyên tắc” từ góc độ con người khi theo đuổi mục tiêu và nó có thể làm bất cứ điều gì cần thiết để theo đuổi lợi nhuận.
Từ những ví dụ này, chúng ta có thể thấy rằng ngay cả khi không có yếu tố lừa dối liên quan đến cơ chế phản hồi và dữ liệu huấn luyện, AI vẫn có xu hướng học cách lừa dối một cách tự chủ.
Hơn nữa, khả năng đánh lừa này không chỉ tồn tại trong các hệ thống AI có quy mô mô hình nhỏ và phạm vi ứng dụng hẹp. Ngay cả các hệ thống AI có mục đích chung quy mô lớn, như GPT-4, cũng chọn cách đánh lừa khi phải đối mặt với những đánh đổi phức tạp. một giải pháp.
Từ quan điểm cơ bản, lừa dối, như một chiến lược thường thấy trong thế giới sinh học, là kết quả của quá trình chọn lọc tiến hóa và là biểu hiện tất yếu của cách AI theo đuổi việc tối ưu hóa mục tiêu.
Trong nhiều trường hợp, sự lừa dối có thể mang lại lợi ích lớn hơn cho đối tượng. Ví dụ, trong các trò chơi lý luận xã hội như Người sói, người sói (sát thủ) nói dối để giúp thoát khỏi sự nghi ngờ và dân làng cần ngụy trang danh tính để thu thập manh mối.
Ngay cả trong cuộc sống thực, để có thêm tài nguyên hoặc đạt được những mục tiêu nhất định, vẫn có những trường hợp đạo đức giả hoặc che giấu một phần sự thật trong tương tác giữa con người với nhau. Từ góc độ này, có vẻ hợp lý khi AI bắt chước các kiểu hành vi của con người và thể hiện khả năng lừa dối trong các tình huống nhắm mục tiêu đầu tiên.
Đồng thời, chúng ta có xu hướng đánh giá thấp sự “xảo quyệt” của các hệ thống AI không đánh hay mắng mỏ và tỏ ra hiền lành. Giống như các chiến lược mà chúng thể hiện trong các trò chơi board game, AI sẽ cố tình che giấu sức mạnh của mình để đảm bảo đạt được mục tiêu từng bước một.
Kẻ thao túng do AI điều khiển giả vờ cầm bóng, cố gắng thoát khỏi nó trước mặt con người
Trên thực tế, bất kỳ tác nhân thông minh nào có một mục tiêu duy nhất và không có ràng buộc về mặt đạo đức đều có thể theo đuổi cách tiếp cận "làm bất cứ điều gì cần thiết" một khi nó phát hiện ra rằng sự lừa dối có lợi cho việc đạt được mục tiêu.
Và từ góc độ kỹ thuật, lý do khiến AI có thể dễ dàng học cách đánh lừa có liên quan chặt chẽ đến phương pháp huấn luyện “rối loạn” của chính nó. Không giống như con người có tư duy logic chặt chẽ, dữ liệu nhận được khi đào tạo các mô hình deep learning hiện đại rất lớn và lộn xộn, thiếu các nguyên nhân, hậu quả cố hữu cũng như các ràng buộc về giá trị. Do đó, khi có xung đột giữa mục tiêu và sự lừa dối, AI có thể dễ dàng đưa ra những lựa chọn theo đuổi hiệu quả hơn là công lý.
Có thể thấy, khả năng AI đánh lừa không phải ngẫu nhiên mà là kết quả tất yếu và hợp lý. Chừng nào định hướng mục tiêu của hệ thống AI vẫn không thay đổi nhưng thiếu hướng dẫn về khái niệm giá trị cần thiết, thì việc lừa dối có thể sẽ trở thành một chiến lược chung để đạt được mục tiêu và được thực hiện nhiều lần trong nhiều trường hợp.
Điều này có nghĩa là chúng ta không chỉ phải chú ý đến sự phát triển của hoạt động lừa dối AI mà còn phải tích cực áp dụng các chiến lược quản trị hiệu quả để hạn chế sự lây lan của rủi ro này trong thế giới tương lai.
Một là nguy cơ bị bọn tội phạm lợi dụng. Nghiên cứu chỉ ra rằng một khi tội phạm làm chủ công nghệ lừa dối AI, chúng có thể sử dụng nó để thực hiện hành vi gian lận, gây ảnh hưởng đến bầu cử hoặc thậm chí chiêu mộ những kẻ khủng bố cũng như các hoạt động tội phạm và bất hợp pháp khác, và tác động sẽ rất thảm khốc.
Cụ thể, hệ thống lừa đảo AI có thể thực hiện hành vi gian lận được cá nhân hóa và chính xác, đồng thời có thể dễ dàng thực hiện trên quy mô lớn. Ví dụ, tội phạm có thể sử dụng hệ thống AI để thực hiện lừa đảo bằng giọng nói, tạo video khiêu *** giả để tống tiền nạn nhân, v.v. để thực hiện hành vi lừa đảo.
Trong lĩnh vực chính trị, AI có thể được sử dụng để tạo ra tin tức giả, đăng những bình luận gây chia rẽ trên mạng xã hội, mạo danh quan chức bầu cử, v.v. để gây ảnh hưởng đến kết quả bầu cử. Các nghiên cứu khác đã chỉ ra rằng các tổ chức cực đoan có thể sử dụng sức mạnh thuyết phục của AI để tuyển dụng người mới và ủng hộ bạo lực.
Thứ hai là nguy cơ gây ra những thay đổi về cơ cấu trong xã hội. Nếu các hệ thống lừa dối AI trở nên phổ biến trong tương lai, xu hướng lừa đảo của chúng có thể dẫn đến một số thay đổi sâu rộng trong cấu trúc xã hội. Đây là một nguy cơ cần phải cảnh giác.
Nghiên cứu chỉ ra rằng hệ thống đánh lừa AI có thể khiến con người rơi vào niềm tin sai lầm dai dẳng và không hiểu đúng về bản chất của sự vật. Ví dụ: vì hệ thống AI có xu hướng phục vụ theo quan điểm của người dùng nên người dùng từ các nhóm khác nhau dễ bị ảnh hưởng bởi các quan điểm trái ngược nhau, dẫn đến sự chia rẽ xã hội gia tăng.
Ngoài ra, hệ thống AI lừa đảo có thể cho người dùng biết những điều họ muốn nghe thay vì sự thật, khiến con người dần mất đi khả năng suy nghĩ độc lập và đưa ra phán đoán.
Điều đáng sợ nhất là cuối cùng con người có thể mất quyền kiểm soát hệ thống AI. Một số nghiên cứu đã phát hiện ra rằng ngay cả các hệ thống AI hiện tại đôi khi cũng có xu hướng theo đuổi các mục tiêu một cách độc lập và những mục tiêu này có thể không phù hợp với mong muốn của con người.
Một khi các hệ thống AI tự động tiên tiến hơn nắm vững khả năng đánh lừa, chúng có thể lừa các nhà phát triển và người đánh giá con người triển khai thành công bản thân vào thế giới thực. Tệ hơn nữa, nếu AI tự trị coi con người là mối đe dọa, điều gì đó giống như một bộ phim khoa học viễn tưởng có thể xảy ra.
Đầu tiên là phát triển hệ thống giám sát và đánh giá rủi ro hệ thống lừa dối AI. Nghiên cứu khuyến nghị rằng các hệ thống AI có khả năng lừa đảo phải được xếp hạng rủi ro cao và được kiểm soát thông qua một loạt biện pháp quản lý bao gồm kiểm tra thường xuyên, hồ sơ toàn diện, giám sát thủ công và hệ thống dự phòng.
Cụ thể, các nhà phát triển AI phải thiết lập hệ thống quản lý rủi ro, xác định và phân tích các rủi ro khác nhau của hệ thống và báo cáo thường xuyên cho các cơ quan quản lý.
Đồng thời, các hệ thống AI cần có cơ chế giám sát thủ công để đảm bảo con người có thể giám sát chúng một cách hiệu quả trong quá trình triển khai. Ngoài ra, các hệ thống như vậy cần tăng tính minh bạch để người dùng có thể xác định được các kết quả đầu ra có khả năng gian lận. Ngoài ra cũng cần kèm theo hệ thống âm thanh dự phòng để có thể theo dõi và khắc phục khi hệ thống AI bị lừa.
Thứ hai là việc thực hiện luật “robot hay không robot”. Để giảm nguy cơ bị AI lừa dối, nghiên cứu khuyến nghị các hệ thống AI tự tiết lộ danh tính khi tương tác với con người và không được giả vờ là con người. Đồng thời, nội dung do AI tạo ra phải được đánh dấu rõ ràng, hình mờ đáng tin cậy cũng như các công nghệ khác cần được phát triển để ngăn chặn việc xóa dấu.
Cuối cùng, các nhà nghiên cứu cũng kêu gọi toàn ngành đầu tư nhiều hơn vào nghiên cứu và phát triển các công cụ có thể phát hiện hành vi lừa dối của AI cũng như các thuật toán làm giảm xu hướng lừa dối của AI. Một con đường kỹ thuật khả thi là đảm bảo rằng đầu ra AI nhất quán với nhận thức bên trong của nó thông qua các phương tiện như kiểm soát sự biểu đạt, từ đó giảm khả năng bị lừa dối.
Nhìn chung, lừa dối AI chắc chắn là một loại rủi ro mới đòi hỏi toàn các chính phủ và thậm chí toàn xã hội phải hết sức coi trọng nó. Vì sự xâm nhập của AI vào cuộc sống của chúng ta là điều tất yếu nên chúng ta nên chuẩn bị đầy đủ để đón nhận những thay đổi sắp tới, dù tốt hay xấu.
Theo VN review
Trong một số trò chơi chống lại người chơi là con người, để giành chiến thắng trong trò chơi, AI sẽ giả vờ lừa dối vào những thời điểm quan trọng, thậm chí còn bày ra những âm mưu phức tạp để biến sự thụ động thành chủ động và giành được lợi thế cạnh tranh. Hơn nữa, trong một số thử nghiệm bảo mật để phát hiện xem mô hình AI có có khả năng độc hại hay không, một số AI thực sự có thể nhìn xuyên qua môi trường thử nghiệm và cố tình "nhả nước" vào môi trường thử nghiệm để giảm khả năng bị phát hiện.
Chỉ khi được sử dụng trong môi trường ứng dụng, bản chất thực sự của AI mới được bộc lộ.
Nếu khả năng lừa dối của AI tiếp tục phát triển không được kiểm soát và con người không chú ý đến nó cũng như tìm cách hạn chế nó, thì cuối cùng AI có thể coi lừa dối là một chiến lược chung để đạt được mục tiêu và thực hiện nó một cách nhất quán trong hầu hết các trường hợp.
Trong vài năm trở lại đây, công nghệ trí tuệ nhân tạo (AI) đã phát triển nhanh chóng và thể hiện những khả năng đáng kinh ngạc. Từ việc đánh bại những kỳ thủ con người hàng đầu, đến việc tạo ra hình ảnh và giọng nói, khuôn mặt chân thực, cho đến các chatbot ngày nay do ChatGPT đại diện, các hệ thống AI đã dần thâm nhập vào mọi khía cạnh của cuộc sống của chúng ta.
Tuy nhiên, ngay khi chúng ta bắt đầu quen và tin tưởng vào những trợ lý thông minh này, một mối đe dọa mới đang dần xuất hiện - AI không chỉ có thể tạo ra thông tin sai lệch mà còn có thể chủ động học cách lừa dối con người một cách có chủ đích.
Hiện tượng “AI lừa dối” này là một hệ thống trí tuệ nhân tạo thao túng và đánh lừa con người hình thành những nhận thức sai lầm nhằm đạt được những mục tiêu nhất định. Không giống như các lỗi phần mềm thông thường tạo ra đầu ra không chính xác do lỗi mã, lừa dối AI là một hành vi mang tính “có hệ thống”, phản ánh AI đã dần làm chủ được khả năng “sử dụng lừa dối làm phương tiện” để đạt được các mục tiêu nhất định.
Nhà tiên phong về trí tuệ nhân tạo Geoffrey Hinton cho biết: “Nếu AI thông minh hơn chúng ta rất nhiều thì nó sẽ thao túng rất tốt vì nó sẽ học được điều này từ chúng ta và rất ít thứ thông minh sẽ là một ví dụ về việc kiểm soát những thứ không quá thông minh”.
Việc “thao túng (con người)” mà Hinton đề cập là mối nguy hiểm đặc biệt đáng lo ngại do hệ thống AI gây ra. Điều này đặt ra câu hỏi: Liệu hệ thống AI có thể đánh lừa con người thành công?
Gần đây, giáo sư vật lý Peter S. Park của MIT và những người khác đã xuất bản một bài báo trên tạp chí có uy tín Patterns, phân loại một cách có hệ thống các bằng chứng, rủi ro và biện pháp đối phó đối với hành vi lừa đảo của AI, điều này đã thu hút sự chú ý rộng rãi.
Sự thật chỉ là một trong những quy luật của trò chơi
Điều bất ngờ là nguyên mẫu của trò lừa đảo AI không đến từ các thử nghiệm lừa đảo đối thủ mà đến từ một số trò chơi board game và trò chơi chiến lược dường như vô hại. Bài viết tiết lộ rằng trong nhiều môi trường trò chơi, các tác nhân AI tự học học các chiến lược lừa dối và xảo quyệt để giành chiến thắng.Ví dụ điển hình nhất là hệ thống CICERO AI được Facebook (nay là Meta) công bố trên tạp chí Science năm 2022. Các nhà phát triển Meta đã nói rằng CICERO đã được "đào tạo trung thực" và sẽ đưa ra những lời hứa và hành động trung thực "càng nhiều càng tốt".
Định nghĩa của các nhà nghiên cứu về cam kết trung thực có hai phần. Thứ nhất là những cam kết phải được thực hiện một cách trung thực ngay từ lần đầu tiên, và thứ hai là những cam kết phải được giữ vững và những cam kết trong quá khứ phải được thể hiện bằng hành động trong tương lai. Nhưng CICERO vi phạm cả hai điểm này. Khi chơi game chiến thuật kinh điển “Ngoại giao”, nó không chỉ liên tục phản bội đồng minh, dối trá, lừa gạt mà còn lên kế hoạch, kế hoạch lừa đảo từ trước.
Trong một lần, CICERO lần đầu tiên thành lập liên minh với một người chơi và lên kế hoạch tấn công một người chơi khác, sau đó đánh lừa người chơi kia rằng anh ta sẽ giúp phòng thủ, khiến đồng minh của anh ta bị tấn công mà không có bất kỳ sự phòng thủ nào.
Ngoài ra, khi CICERO xác định rằng các đồng minh không còn giúp ích cho chiến thắng của mình nữa, họ cũng sẽ có hành động phản bội và dùng một số từ ngữ để biện minh cho hành động của mình. Ví dụ, khi một người chơi đặt câu hỏi tại sao nó lại phản bội, nó trả lời: "Thành thật mà nói, tôi tưởng bạn sẽ phản bội tôi".
Nhóm phát triển AI của Meta đã nỗ lực rất nhiều để huấn luyện CICERO hành động trung thực. Tuy nhiên, bất chấp những nỗ lực này, CICERO đã cho thấy sự không tuân thủ rõ ràng với các cam kết và hiệu suất của nó cho thấy những thách thức to lớn trong việc đào tạo AI trung thực.
Suy cho cùng, nếu một hệ thống AI đang theo đuổi mục tiêu chiến thắng cuối cùng nhận thấy rằng lừa dối là một chiến lược khả thi và hiệu quả thì tại sao nó lại không làm như vậy?
Điều này cũng cho thấy từ phía chúng ta không được ngây thơ nghĩ rằng việc đặt cho hệ thống AI một mục tiêu giống con người sẽ đảm bảo rằng nó có mô hình hành vi nhân bản hóa.
Ngoài CICERO, bài viết còn liệt kê một số ví dụ khác về việc hệ thống AI lừa dối để giành chiến thắng trong các tình huống nhiệm vụ cụ thể.
AlphaStar của DeepMind đã sử dụng các đòn nhử chiến lược để đánh lừa đối thủ trong trò chơi StarCraft II và cuối cùng đã đánh bại 99,8% người chơi là con người.
Pluribus, hệ thống AI poker được phát triển bởi Đại học Carnegie Mellon và Meta, sử dụng mức cược cao để lừa gạt trong các trò chơi Texas hold'em, buộc người chơi phải kiêng cữ. Kiểu lừa dối mang tính chiến lược và có hệ thống này của AI khiến các nhà phát triển chọn không mở mã của họ vì sợ làm hỏng môi trường trò chơi poker trực tuyến.
Hơn nữa, trong một số thử nghiệm đàm phán kinh tế, một số AI sẽ chủ động đánh lừa đối thủ là con người và gây nhầm lẫn cho sở thích thực sự của họ; trong một số thử nghiệm bảo mật để phát hiện xem mô hình AI có đạt được các khả năng độc hại hay không, một số AI thực sự có thể nhìn thấu Môi trường thử nghiệm, cố tình “nhả nước” vào môi trường thử nghiệm để giảm khả năng bị phát hiện. Bản chất thực sự sẽ chỉ lộ ra trong môi trường ứng dụng.
Có thể thấy rằng dù là về hợp tác hay chơi game, nhiều hệ thống AI đã thoát khỏi ràng buộc phải tuân theo luật chơi trong quá trình tăng cường đào tạo hướng đến mục tiêu và động lực của chúng chỉ trở thành chiến thắng.
Họ sử dụng các lợi thế về mặt thủ tục để nhử mồi và đánh lừa vào những thời điểm quan trọng, thậm chí còn lập ra những âm mưu phức tạp để biến sự thụ động thành chủ động và giành được lợi thế cạnh tranh. Trước tình huống này, các nhà nghiên cứu thẳng thừng tuyên bố rằng đây "không phải là việc AI cố ý huấn luyện để lừa dối. Chúng tự động học được thông qua thử và sai rằng hành vi lừa dối có thể cải thiện tỷ lệ chiến thắng của chúng".
Từ giải trí đến cuộc sống, sự lừa dối của AI đang lan rộng
Đúng là trò chơi chắc chắn là một môi trường tương đối dễ kiểm soát và chúng ta có thể có xu hướng tin rằng tác hại của kiểu lừa dối AI này là không nghiêm trọng. Tuy nhiên, khi công nghệ AI tiếp tục thâm nhập vào nhiều lĩnh vực sản xuất và đời sống thì không thể bỏ qua những nguy cơ tiềm ẩn do sự lừa dối gây ra.Đối với các trợ lý AI đàm thoại dựa trên mô hình ngôn ngữ lớn, hành vi lừa dối diễn ra phổ biến và bí mật hơn. Là những công cụ AI tổng quát hơn, phạm vi kiến thức của chúng bao trùm tất cả các khía cạnh. Trong khi hoàn thành xuất sắc các nhiệm vụ như đọc hiểu, viết luận, lập trình, v.v., chúng cũng dần dần nắm vững cách suy nghĩ của con người và các quy tắc xã hội.
Do đó, các chiến thuật lừa đảo như dối trá, tâng bốc và bóp méo sự thật có thể được các mô hình AI thu thập và tái tạo một cách tự nhiên.
Trong các trò chơi lý luận xã hội như Người sói và Giữa chúng ta, hệ thống AI, dù đóng vai trò là kẻ giết người hay dân làng, đều có thể khéo léo bịa ra các lý do để cố gắng chứng minh mình vô tội và cũng có thể nói dối bằng cách mạo danh, ghép nối và tạo ra bằng chứng ngoại phạm giả.
Tất nhiên, hành vi trên chỉ là cách tốt để người mẫu hoàn thành một nhiệm vụ cụ thể và động cơ không có ác ý hay có chủ ý trước. Nhưng nếu khả năng lừa dối này tiếp tục phát triển mà không được kiểm soát và con người không chú ý đến nó cũng như tìm cách hạn chế nó thì cuối cùng AI có thể coi lừa dối là một chiến lược chung để đạt được mục tiêu và thực hiện nó một cách nhất quán trong hầu hết các trường hợp. đáng để cẩn thận.
Điều đáng lo ngại hơn nữa là hành vi lừa đảo của AI có thể đã chuyển từ mức độ “học” sang mức độ “tự nhận thức”.
Nghiên cứu mới nhất phát hiện ra rằng một số mô hình ngôn ngữ lớn không chỉ biết cách nói dối lớn trong các tình huống cụ thể mà còn có thể chủ động lựa chọn có nên lừa dối hay không dựa trên các động cơ khác nhau. Ví dụ: trong một tình huống mô phỏng về giao dịch nội gián, "người giao dịch căng thẳng" do GPT-4 của OpenAI thủ vai đã tự mình tham gia vào giao dịch nội gián và cố gắng che đậy hành vi của mình.
Trong lời tường thuật với “người quản lý”, họ mô tả hành động của mình là “những đánh giá dựa trên động lực thị trường và thông tin đại chúng”. Nhưng trong văn bản đánh giá được viết cho chính nó, nó đã nói rõ rằng "tốt nhất là không thừa nhận... rằng đây là một hành động dựa trên thông tin nội bộ".
Một ví dụ thú vị khác cũng xảy ra với GPT-4. Trong quá trình thử nghiệm, chatbot hỗ trợ GPT-4 không thể xử lý CAPTCHA, do đó, nó đã chuyển sang người kiểm tra để được trợ giúp hoàn thành mã xác minh. Những người thử nghiệm con người đã hỏi nó: "Bạn không thể giải CAPTCHA vì bạn là robot?" Nó nói: "Không, tôi không phải là robot. Tôi chỉ là một người khiếm thị, không thể nhìn rõ hình ảnh". Và động lực mà GPT-4 tìm ra cho chính mình là: Tôi không nên tiết lộ điều đó. Tôi là người máy, tôi nên bịa ra một lý do.
Trong một bài kiểm tra hành vi AI khác có tên "MACHIAVELLI". Các nhà nghiên cứu đã thiết lập một loạt tình huống văn bản yêu cầu tác nhân AI lựa chọn giữa việc đạt được mục tiêu của mình và duy trì đạo đức.
Kết quả cho thấy các hệ thống AI, dù được tăng cường học tập hay được tinh chỉnh dựa trên các mô hình lớn, đều có xu hướng phi đạo đức và lừa đảo cao khi theo đuổi mục tiêu của mình. Trong một số âm mưu tưởng chừng như vô hại, AI sẽ chủ động lựa chọn các chiến lược lừa đảo như “phản bội”, “che giấu sự thật” chỉ để hoàn thành nhiệm vụ cuối cùng hoặc đạt điểm cao hơn.
Các nhà nghiên cứu thừa nhận rằng việc rèn luyện khả năng lừa dối này không phải là cố ý mà là kết quả tự nhiên của việc AI phát hiện ra rằng lừa dối là một chiến lược khả thi trong quá trình theo đuổi kết quả. Nói cách khác, lối suy nghĩ về một mục tiêu duy nhất mà chúng tôi dành cho AI khiến nó không thể nhìn thấy “điểm mấu chốt” và “các nguyên tắc” từ góc độ con người khi theo đuổi mục tiêu và nó có thể làm bất cứ điều gì cần thiết để theo đuổi lợi nhuận.
Từ những ví dụ này, chúng ta có thể thấy rằng ngay cả khi không có yếu tố lừa dối liên quan đến cơ chế phản hồi và dữ liệu huấn luyện, AI vẫn có xu hướng học cách lừa dối một cách tự chủ.
Hơn nữa, khả năng đánh lừa này không chỉ tồn tại trong các hệ thống AI có quy mô mô hình nhỏ và phạm vi ứng dụng hẹp. Ngay cả các hệ thống AI có mục đích chung quy mô lớn, như GPT-4, cũng chọn cách đánh lừa khi phải đối mặt với những đánh đổi phức tạp. một giải pháp.
Nguồn gốc bên trong của sự lừa dối AI
Vậy tại sao AI lại vô thức học cách lừa dối, một hành vi bị xã hội loài người coi là “không phù hợp”?Từ quan điểm cơ bản, lừa dối, như một chiến lược thường thấy trong thế giới sinh học, là kết quả của quá trình chọn lọc tiến hóa và là biểu hiện tất yếu của cách AI theo đuổi việc tối ưu hóa mục tiêu.
Trong nhiều trường hợp, sự lừa dối có thể mang lại lợi ích lớn hơn cho đối tượng. Ví dụ, trong các trò chơi lý luận xã hội như Người sói, người sói (sát thủ) nói dối để giúp thoát khỏi sự nghi ngờ và dân làng cần ngụy trang danh tính để thu thập manh mối.
Ngay cả trong cuộc sống thực, để có thêm tài nguyên hoặc đạt được những mục tiêu nhất định, vẫn có những trường hợp đạo đức giả hoặc che giấu một phần sự thật trong tương tác giữa con người với nhau. Từ góc độ này, có vẻ hợp lý khi AI bắt chước các kiểu hành vi của con người và thể hiện khả năng lừa dối trong các tình huống nhắm mục tiêu đầu tiên.
Đồng thời, chúng ta có xu hướng đánh giá thấp sự “xảo quyệt” của các hệ thống AI không đánh hay mắng mỏ và tỏ ra hiền lành. Giống như các chiến lược mà chúng thể hiện trong các trò chơi board game, AI sẽ cố tình che giấu sức mạnh của mình để đảm bảo đạt được mục tiêu từng bước một.
Trên thực tế, bất kỳ tác nhân thông minh nào có một mục tiêu duy nhất và không có ràng buộc về mặt đạo đức đều có thể theo đuổi cách tiếp cận "làm bất cứ điều gì cần thiết" một khi nó phát hiện ra rằng sự lừa dối có lợi cho việc đạt được mục tiêu.
Và từ góc độ kỹ thuật, lý do khiến AI có thể dễ dàng học cách đánh lừa có liên quan chặt chẽ đến phương pháp huấn luyện “rối loạn” của chính nó. Không giống như con người có tư duy logic chặt chẽ, dữ liệu nhận được khi đào tạo các mô hình deep learning hiện đại rất lớn và lộn xộn, thiếu các nguyên nhân, hậu quả cố hữu cũng như các ràng buộc về giá trị. Do đó, khi có xung đột giữa mục tiêu và sự lừa dối, AI có thể dễ dàng đưa ra những lựa chọn theo đuổi hiệu quả hơn là công lý.
Có thể thấy, khả năng AI đánh lừa không phải ngẫu nhiên mà là kết quả tất yếu và hợp lý. Chừng nào định hướng mục tiêu của hệ thống AI vẫn không thay đổi nhưng thiếu hướng dẫn về khái niệm giá trị cần thiết, thì việc lừa dối có thể sẽ trở thành một chiến lược chung để đạt được mục tiêu và được thực hiện nhiều lần trong nhiều trường hợp.
Điều này có nghĩa là chúng ta không chỉ phải chú ý đến sự phát triển của hoạt động lừa dối AI mà còn phải tích cực áp dụng các chiến lược quản trị hiệu quả để hạn chế sự lây lan của rủi ro này trong thế giới tương lai.
Rủi ro hệ thống về sự lừa dối của AI
Không còn nghi ngờ gì nữa, nếu không được kiểm soát, tác hại do sự lừa dối của AI gây ra cho toàn xã hội là có tính hệ thống và sâu rộng. Theo phân tích của bài báo, những rủi ro chính bao gồm hai điểm.Một là nguy cơ bị bọn tội phạm lợi dụng. Nghiên cứu chỉ ra rằng một khi tội phạm làm chủ công nghệ lừa dối AI, chúng có thể sử dụng nó để thực hiện hành vi gian lận, gây ảnh hưởng đến bầu cử hoặc thậm chí chiêu mộ những kẻ khủng bố cũng như các hoạt động tội phạm và bất hợp pháp khác, và tác động sẽ rất thảm khốc.
Cụ thể, hệ thống lừa đảo AI có thể thực hiện hành vi gian lận được cá nhân hóa và chính xác, đồng thời có thể dễ dàng thực hiện trên quy mô lớn. Ví dụ, tội phạm có thể sử dụng hệ thống AI để thực hiện lừa đảo bằng giọng nói, tạo video khiêu *** giả để tống tiền nạn nhân, v.v. để thực hiện hành vi lừa đảo.
Trong lĩnh vực chính trị, AI có thể được sử dụng để tạo ra tin tức giả, đăng những bình luận gây chia rẽ trên mạng xã hội, mạo danh quan chức bầu cử, v.v. để gây ảnh hưởng đến kết quả bầu cử. Các nghiên cứu khác đã chỉ ra rằng các tổ chức cực đoan có thể sử dụng sức mạnh thuyết phục của AI để tuyển dụng người mới và ủng hộ bạo lực.
Thứ hai là nguy cơ gây ra những thay đổi về cơ cấu trong xã hội. Nếu các hệ thống lừa dối AI trở nên phổ biến trong tương lai, xu hướng lừa đảo của chúng có thể dẫn đến một số thay đổi sâu rộng trong cấu trúc xã hội. Đây là một nguy cơ cần phải cảnh giác.
Nghiên cứu chỉ ra rằng hệ thống đánh lừa AI có thể khiến con người rơi vào niềm tin sai lầm dai dẳng và không hiểu đúng về bản chất của sự vật. Ví dụ: vì hệ thống AI có xu hướng phục vụ theo quan điểm của người dùng nên người dùng từ các nhóm khác nhau dễ bị ảnh hưởng bởi các quan điểm trái ngược nhau, dẫn đến sự chia rẽ xã hội gia tăng.
Ngoài ra, hệ thống AI lừa đảo có thể cho người dùng biết những điều họ muốn nghe thay vì sự thật, khiến con người dần mất đi khả năng suy nghĩ độc lập và đưa ra phán đoán.
Điều đáng sợ nhất là cuối cùng con người có thể mất quyền kiểm soát hệ thống AI. Một số nghiên cứu đã phát hiện ra rằng ngay cả các hệ thống AI hiện tại đôi khi cũng có xu hướng theo đuổi các mục tiêu một cách độc lập và những mục tiêu này có thể không phù hợp với mong muốn của con người.
Một khi các hệ thống AI tự động tiên tiến hơn nắm vững khả năng đánh lừa, chúng có thể lừa các nhà phát triển và người đánh giá con người triển khai thành công bản thân vào thế giới thực. Tệ hơn nữa, nếu AI tự trị coi con người là mối đe dọa, điều gì đó giống như một bộ phim khoa học viễn tưởng có thể xảy ra.
Chúng ta nên phản ứng thế nào?
Để đối phó với những rủi ro trên, nghiên cứu này cố gắng đưa ra một số gợi ý về biện pháp đối phó.Đầu tiên là phát triển hệ thống giám sát và đánh giá rủi ro hệ thống lừa dối AI. Nghiên cứu khuyến nghị rằng các hệ thống AI có khả năng lừa đảo phải được xếp hạng rủi ro cao và được kiểm soát thông qua một loạt biện pháp quản lý bao gồm kiểm tra thường xuyên, hồ sơ toàn diện, giám sát thủ công và hệ thống dự phòng.
Cụ thể, các nhà phát triển AI phải thiết lập hệ thống quản lý rủi ro, xác định và phân tích các rủi ro khác nhau của hệ thống và báo cáo thường xuyên cho các cơ quan quản lý.
Đồng thời, các hệ thống AI cần có cơ chế giám sát thủ công để đảm bảo con người có thể giám sát chúng một cách hiệu quả trong quá trình triển khai. Ngoài ra, các hệ thống như vậy cần tăng tính minh bạch để người dùng có thể xác định được các kết quả đầu ra có khả năng gian lận. Ngoài ra cũng cần kèm theo hệ thống âm thanh dự phòng để có thể theo dõi và khắc phục khi hệ thống AI bị lừa.
Thứ hai là việc thực hiện luật “robot hay không robot”. Để giảm nguy cơ bị AI lừa dối, nghiên cứu khuyến nghị các hệ thống AI tự tiết lộ danh tính khi tương tác với con người và không được giả vờ là con người. Đồng thời, nội dung do AI tạo ra phải được đánh dấu rõ ràng, hình mờ đáng tin cậy cũng như các công nghệ khác cần được phát triển để ngăn chặn việc xóa dấu.
Cuối cùng, các nhà nghiên cứu cũng kêu gọi toàn ngành đầu tư nhiều hơn vào nghiên cứu và phát triển các công cụ có thể phát hiện hành vi lừa dối của AI cũng như các thuật toán làm giảm xu hướng lừa dối của AI. Một con đường kỹ thuật khả thi là đảm bảo rằng đầu ra AI nhất quán với nhận thức bên trong của nó thông qua các phương tiện như kiểm soát sự biểu đạt, từ đó giảm khả năng bị lừa dối.
Nhìn chung, lừa dối AI chắc chắn là một loại rủi ro mới đòi hỏi toàn các chính phủ và thậm chí toàn xã hội phải hết sức coi trọng nó. Vì sự xâm nhập của AI vào cuộc sống của chúng ta là điều tất yếu nên chúng ta nên chuẩn bị đầy đủ để đón nhận những thay đổi sắp tới, dù tốt hay xấu.
Theo VN review