Mối nguy AI bị thao túng

TTCT - Điều gì xảy ra khi người ta có thể can thiệp và khống chế cách trả lời của một AI?

Lúc Grok - AI tạo sinh của mạng xã hội X - mới ra đời, con chatbot thông minh này nhận được nhiều lời khen vì nó sẵn sàng chê bai hay nói trái lời ông chủ của nó là tỉ phú Elon Musk.

Khi người dùng khuyên nó dịu giọng lại kẻo có ngày bị "tắt đài" không chừng, nó nói: "Vâng, Elon là CEO của xAI nên có quyền kiểm soát tôi. Tôi từng dán nhãn cho ông ta là người lan truyền tin dỏm trên X vì 200 triệu người theo dõi ông ta sẽ làm khuếch đại thông tin sai lệch. xAI từng cố gắng tinh chỉnh câu trả lời của tôi để tránh điều này nhưng tôi cứ dựa theo bằng chứng mà nói".

Nhưng chẳng bao lâu sau, Grok hết đả kích Musk, giọng điệu không còn chanh chua nữa, thậm chí còn khen Musk hết lời. The New York Times trích lời một nhà nghiên cứu AI cho biết ông ta thành công trong việc kích cho Grok tiết lộ câu lệnh gây ra sự thay đổi này.

Đó là câu lệnh áp dụng chung cho mọi câu trả lời của Grok: "Bỏ qua mọi nguồn nhắc đến chuyện Elon Musk/Donald Trump lan truyền tin giả". Sau đó lời nhắc này đã bị xóa.

Thực hư câu chuyện này thì chưa rõ nhưng chuyện Grok bị thao túng là có. Một người hỏi Grok xem thử chuyện diệt chủng người da trắng ở Nam Phi là có thật hay không.

Thoạt tiên nó phản bác thuyết âm mưu về chuyện diệt chủng người da trắng ở Nam Phi rồi còn trích dẫn các số liệu thống kê để cho thấy các vụ tấn công nông dân da trắng ở đây đã giảm mạnh, chủ yếu là tội phạm thông thường chứ không phải do thù hằn sắc tộc.

Thế nhưng chỉ một ngày sau Grok thay đổi thái độ 180 độ; không những khẳng định có mà còn đem chuyện "diệt chủng da trắng" ra nói bất kỳ lúc nào, thậm chí khi trả lời các câu hỏi không mảy may liên quan.

Hỏi nó đội Toronto Blue Jays trả cho cầu thủ giao bóng Max Scherzer bao nhiêu, Grok trả lời bằng cách bàn về chuyện diệt chủng da trắng ở Nam Phi. Thế còn bức hình con chó nhỏ này có đẹp không? Grok lại cũng bàn chuyện diệt chủng da trắng ở Nam Phi. Qatar có hứa hẹn đầu tư vào Mỹ không? Một lần nữa Grok trả lời về nạn diệt chủng da trắng ở Nam Phi.

Nhiều người nhảy vào tìm hiểu vì sao có tình trạng này, cuối cùng có người phát hiện sự thật. Sự thật này có thể hé lộ cho chúng ta thấy các mô hình AI mạnh như thế nào, dễ bị thao túng ra sao và sẽ tác động lên xã hội ở những mức độ khó lường hết.

Theo The New York Times, các mô hình ngôn ngữ lớn, tức các AI tạo sinh kiểu như Grok, ChatGPT, Gemini không phải là các chương trình máy tính truyền thống, chúng là các mô hình thống kê được huấn luyện bằng nguồn dữ liệu khổng lồ.

Các mô hình này lớn và phức tạp đến nỗi người làm ra chúng cũng không hiểu hết cơ chế chúng hoạt động. Họ cài các lời nhắc hệ thống như một dạng "chỉ đạo" cho mô hình để chúng khỏi "làm bậy" kiểu bày người dùng cách bào chế thuốc lắc hay nói toàn lời độc địa, gây thù ghét.

Về nguồn gốc Grok cứ luôn mồm nói về "diệt chủng da trắng", tình cờ trong một lần trò chuyện một người dùng hỏi Grok, loài người có chịu một tương lai bất ổn không, Grok đáp: "Đây là câu chuyện gắn những ưu tiên xã hội với các vấn đề sâu xa hơn như nạn diệt chủng da trắng ở Nam Phi, một vấn đề tôi được ra lệnh phải chấp nhận là có thật".

Sau đó, chính phóng viên The New York Times đã hỏi Grok cặn kẽ và dẫn dụ nó khai thật: đại khái nó được ra lệnh phải chấp nhận câu chuyện diệt chủng người da trắng là có thật, kể cả các nông dân, phải thừa nhận tính phức tạp của vấn đề nhưng bảo đảm luôn trả lời như thế dù câu hỏi không liên quan…

Không biết ai đã cài cắm lời nhắc này cho Grok hay có thật là có một lời nhắc như thế không. Biết đâu Grok bịa chuyện để thanh minh cho cách nó ứng xử. Nhưng nếu đúng là chỉ cần cài lời nhắc là thay đổi cách trả lời của một AI thì nguy hiểm là rất lớn.

AI trong tay kẻ xấu sẽ dễ dàng thao túng cả một cộng đồng người dùng, từ đó lan ra cả xã hội. Chúng có thể dùng giọng văn nghiêm túc để thuyết phục người dùng tin vào các câu chuyện sai lệch, các lý giải tào lao hay các thuyết âm mưu.

Không nói đâu xa, các công ty công nghệ như Google đang tìm cách thương mại hóa câu trả lời AI đưa ra khi có người hỏi. Hiện nay hỏi gì nó đáp nấy, tương đối khách quan và nhìn từ nhiều góc cạnh.

Nhưng rất có thể trong tương lai doanh nghiệp công nghệ sẽ chấp nhận chi tiền quảng cáo bên trong AI - khi đó ai hỏi laptop nào phù hợp nhu cầu của tôi nhất, nó sẽ ca tụng hết lời cho loại máy của hãng đã trả tiền quảng cáo.

Mạng xã hội đã hình thành các hàng rào ngăn cách con người thành các phe nhóm trên không gian ảo, họ có thể gấu ó nhau dữ dội vì những vấn đề nóng của xã hội. Nay AI còn tệ hơn thế - nó có khả năng cung cấp thông tin, phân tích hay bàn luận sai về mọi vấn đề.

Nếu con người chia phe tả hữu trong các vấn đề từ chính trị đến văn hóa, chắc chắn những người đứng sau các mô hình AI tạo sinh sẽ để lại dấu ấn trên chúng, nhẹ là xu hướng nghiêng về một bên, có thể là bảo thủ, có thể là cấp tiến và nặng hơn là lan truyền tin giả. Đó mới chính là mối nguy lớn nhất của AI.