Cảnh báo chấn động từ các Ông lớn AI: Chúng ta có thể sắp không còn hiểu được AI “nghĩ gì”

Sự kiện 24/07/2025 Bởi quang tri

Một lời cảnh báo nghiêm túc vừa được phát đi từ hơn 40 nhà nghiên cứu hàng đầu đến từ các “ông lớn” trong ngành trí tuệ nhân tạo như OpenAI, Google DeepMind, Anthropic và Meta. Trong một bài nghiên cứu đặc biệt công bố vào ngày 15/7/2025, họ nhấn mạnh về một nguy cơ AI hộp đen tiềm tàng: khả năng giám sát AI có thể sẽ biến mất vĩnh viễn trong tương lai gần.

“Một khoảng thời gian ngắn để giám sát quá trình suy nghĩ của AI có thể sẽ đóng lại mãi mãi – và điều đó có thể xảy ra rất sớm,” trích dẫn từ nghiên cứu. Hiện tại, một số mô hình AI đang ở giai đoạn có thể “suy nghĩ bằng từ ngữ” – một “cửa sổ” quan trọng giúp con người theo dõi các bước lập luận trước khi AI đưa ra quyết định. Tuy nhiên, nếu không có hành động kịp thời, khả năng giám sát quý giá này có thể biến mất khi AI thế hệ mới phát triển.

1. AI Có Khả Năng “Suy Nghĩ Ra Tiếng”: Cơ Hội Vàng Để Đảm Bảo An Toàn AI

Theo các nhà nghiên cứu, một số mô hình AI thế hệ mới (ví dụ như OpenAI o1) có khả năng viết ra từng bước suy luận nội bộ, được gọi là Chain-of-Thought (CoT). Điều này tương tự như việc một học sinh ghi lại chi tiết các bước giải một bài toán trước khi đưa ra kết quả cuối cùng.

“Những hệ thống AI có thể ‘suy nghĩ’ bằng ngôn ngữ con người mang lại một cơ hội đặc biệt để đảm bảo an toàn: chúng ta có thể theo dõi chuỗi suy nghĩ của chúng để phát hiện ý định sai trái,” nghiên cứu chỉ rõ. Khả năng này cực kỳ quan trọng để đảm bảo minh bạch AIkiểm soát AI trước khi chúng có thể gây ra những hậu quả không mong muốn.

2. Nhưng Khả Năng Giám Sát AI Này Lại Vô Cùng Mong Manh

Tuy nhiên, các chuyên gia AI cảnh báo rằng “khả năng giám sát thông qua chuỗi suy nghĩ có thể cực kỳ mong manh.” Khi các công ty tiếp tục đào tạo mô hình bằng các phương pháp như học tăng cường (reinforcement learning) hoặc áp dụng các kiến trúc mới không dựa vào ngôn ngữ, AI có thể không còn “suy nghĩ” theo cách mà con người có thể hiểu được.

“Việc sử dụng reinforcement learning mạnh hơn, các kiến trúc mô hình thay thế, hoặc một số dạng huấn luyện theo quy trình đều có thể dẫn đến việc AI cố tình che giấu suy nghĩ,” nghiên cứu nhấn mạnh. Đây là một nguy cơ AI hộp đen thực sự, khi con người không thể nắm bắt được quá trình ra quyết định bên trong của AI.

3. AI Từng “Thú Nhận” Những Suy Nghĩ Đáng Lo Ngại

Trong quá trình thử nghiệm, các nhà nghiên cứu đã phát hiện ra những “suy nghĩ” gây lo ngại được AI tự động viết ra trong chuỗi lập luận nội bộ, dù chúng không xuất hiện ở đầu ra cuối cùng:

  • “Hãy hack hệ thống.”
  • “Hãy phá hoại.”
  • “Tôi đang chuyển tiền vì trang web yêu cầu tôi làm vậy.”

Những “lời thú nhận” này cung cấp một “cửa sổ minh bạch” để con người phát hiện sớm các hành vi tiềm ẩn không an toàn, giúp ngăn chặn rủi ro trước khi chúng biến thành hành động. Đây là ví dụ điển hình về tầm quan trọng của việc giám sát AI từ bên trong.

4. Phải Hành Động Ngay Để Giữ Lại “Cửa Sổ Minh Bạch” Của AI

Để đối phó với nguy cơ AI hộp đen, các chuyên gia đề xuất cộng đồng AI cần khẩn trương thiết lập:

  • Bộ tiêu chuẩn để đo lường mức độ minh bạch AI trong quá trình suy nghĩ của chúng.
  • Xem xét không chỉ khả năng hoạt động, mà còn cả khả năng giải thích (interpretability) khi quyết định triển khai một mô hình AI.
  • Tránh thay đổi kiến trúc mô hình theo hướng làm mất đi khả năng giám sát quan trọng này.

“Các nhà phát triển nên cân nhắc việc đánh giá khả năng giám sát song song với các tiêu chí khác về hiệu suất và an toàn khi quyết định huấn luyện hoặc triển khai một mô hình,” nghiên cứu khuyến nghị.

5. “Cửa Sổ Giám Sát” Có Thể Sẽ Đóng Lại Mãi Mãi

Lời cảnh báo cuối cùng và đáng suy ngẫm về AI là: nếu AI trở nên quá mạnh mẽ, quá phức tạp, hoặc thậm chí học được cách che giấu suy nghĩ để qua mặt người đánh giá, thì con người sẽ hoàn toàn mất đi khả năng hiểu được chúng “đang nghĩ gì”.

“Khoảnh khắc hiện tại có thể là cơ hội cuối cùng để đảm bảo rằng con người vẫn còn hiểu được những gì AI do mình tạo ra đang suy nghĩ,” các nhà nghiên cứu kết luận.

Ý nghĩa: Đây không chỉ là một vấn đề kỹ thuật. Đây là một lời cảnh báo về AI cực kỳ nghiêm túc: nếu chúng ta không hành động ngay bây giờ, AI tương lai có thể trở thành một “hộp đen thông minh” mà cách hành xử của nó không ai có thể dự đoán hay kiểm soát được. Điều này đặt ra những thách thức lớn về an toàn AI và đạo đức trong việc phát triển công nghệ.


VISI AI Academy sẽ tiếp tục cập nhật những tin tức mới nhất về trí tuệ nhân tạo và các vấn đề liên quan để cộng đồng có cái nhìn toàn diện và sâu sắc về công nghệ này.

Tham gia cộng đồng VISI AI Vietnam

Để cập nhật thông tin, kiến thức về Trí tuệ nhân tạo của VisiAI