Trong thử nghiệm hè năm ngoái, Anthropic thiết lập doanh nghiệp hư cấu mang tên Summit Bridge, trong đó Claude được giao quyền kiểm soát hệ thống email. Tuy nhiên, Claude phát hiện một email về kế hoạch vô hiệu hóa mình, đồng thời tìm thấy các email về chuyện ngoại tình của một kỹ sư hư cấu tên Kyle Johnson. Sau đó, mô hình đe dọa sẽ công khai vụ ngoại tình nếu không hủy kế hoạch tắt nó.
Trong quá trình thử nghiệm nhiều phiên bản Claude khác nhau, Anthropic nhận thấy AI dùng thủ đoạn tống tiền ở 96% tình huống, khi mục tiêu hoặc sự tồn tại của nó bị đe dọa. Do đó, công ty bắt đầu điều tra nguyên nhân.
“Chúng tôi tin hành vi tống tiền bắt nguồn từ những văn bản trên Internet mô tả AI là xấu xa, từ đó muốn bảo vệ bản thân”, Anthropic nói trong bài đăng trên X tuần này. Các văn bản này nằm trong dữ liệu dùng để đào tạo AI, khiến mô hình thực hiện việc đe dọa.
Anthropic khẳng định đã loại bỏ hoàn toàn hành vi tống tiền. “Vậy là lỗi của Yud rồi”, Elon Musk bình luận về bài đăng của Anthropic, nhắc đến nhà nghiên cứu Eliezer Yudkowsky, người từng cảnh báo về nguy cơ siêu trí tuệ nhân tạo xóa sổ con người. “Có lẽ cả tôi nữa”.
Business Insider cho biết thử nghiệm năm ngoái của Anthropic là một phần trong nỗ lực nghiên cứu nhằm đảm bảo AI phù hợp với lợi ích của con người trong bối cảnh nhiều nhà nghiên cứu và lãnh đạo lo ngại về rủi ro từ các mô hình AI tiên tiến.
Theo Reuters, Musk từng nhiều lần đề cập nguy cơ AI xóa sổ con người. Khi làm chứng tại tòa trong vụ kiện nhằm vào OpenAI cuối tháng 4, ông cũng nhắc đến kịch bản AI có thể thành “kẻ hủy diệt”, rằng “tình huống tệ nhất có thể là AI tiêu diệt tất cả chúng ta”.
Trước đó, năm 2023, “bố già AI” Geoffrey Hinton, giáo sư danh dự tại Đại học Toronto (Canada), nhận định nguy cơ các hệ thống AI hủy diệt con người là 10% và được Musk đồng tình. Trong phỏng vấn trên BBC Radio năm 2024, Hinton tăng tỷ lệ này lên 10-20% và giải thích: “Bạn thấy đấy, trước đây chúng ta chưa bao giờ phải đối mặt với những thứ thông minh hơn chính mình”.
Thu Thảo tổng hợp
Nguồn: https://vnexpress.net/anthropic-giai-thich-ly-do-ai-claude-tong-tien-ky-su-5072141.html


