Microsoft: Khung mô hình hóa rủi ro bảo mật cho ứng dụng AI

Các hệ thống AI, đặc biệt là AI tạo sinh và AI tác tử (agentic AI), mang đến những rủi ro bảo mật mới mà các phương pháp truyền thống không thể lường hết. Để giúp doanh nghiệp giải quyết thách thức này, Microsoft đã công bố một khuôn khổ mô hình hóa mối đe dọa (threat modeling) được điều chỉnh riêng cho AI, tập trung vào việc xác định, phân tích và ưu tiên rủi ro ngay từ giai đoạn đầu.

Tại sao AI thay đổi cách mô hình hóa mối đe dọa

Theo Microsoft, các mô hình bảo mật truyền thống được xây dựng cho phần mềm có tính xác định, với các luồng mã, đầu vào và đầu ra có thể dự đoán được. Tuy nhiên, hệ thống AI phá vỡ những giả định này.

Ba đặc tính cốt lõi của AI thúc đẩy sự thay đổi này:

Tính không xác định (Nondeterminism): Hệ thống AI đòi hỏi phải phân tích một loạt các hành vi có thể xảy ra, bao gồm cả những lỗi hiếm gặp nhưng có tác động nghiêm trọng, thay vì một luồng thực thi duy nhất có thể dự đoán.
Thiên hướng tuân thủ lệnh (Instruction-following bias): Các mô hình được tối ưu hóa để trở nên hữu ích và tuân thủ, khiến các kỹ thuật tấn công như prompt injection (chèn câu lệnh độc hại), ép buộc và thao túng trở nên dễ dàng hơn khi dữ liệu và hướng dẫn bị trộn lẫn.
Mở rộng hệ thống thông qua công cụ và bộ nhớ: Các hệ thống agentic AI có thể tự động gọi API, duy trì trạng thái và kích hoạt các quy trình làm việc, cho phép các lỗi lan truyền và cộng hưởng nhanh chóng giữa các thành phần.

Những yếu tố này tạo ra các rủi ro quen thuộc dưới hình thức mới: prompt injection trực tiếp và gián tiếp, lạm dụng công cụ, leo thang đặc quyền, trích xuất dữ liệu âm thầm và các kết quả sai một cách tự tin nhưng lại được coi là sự thật. Các mô hình hóa mối đe dọa cho AI cũng phải xem xét các rủi ro lấy con người làm trung tâm như xói mòn lòng tin, phụ thuộc quá mức vào các kết quả sai và các tác hại do phản hồi sai lệch gây ra.

Bắt đầu từ tài sản cần bảo vệ, không phải từ các cuộc tấn công

Microsoft nhấn mạnh rằng mô hình hóa mối đe dọa hiệu quả bắt đầu bằng việc xác định rõ những gì doanh nghiệp đang cần bảo vệ. Trong các hệ thống AI, tài sản không chỉ là cơ sở dữ liệu và thông tin đăng nhập, mà còn bao gồm:

An toàn của người dùng: Đặc biệt khi hệ thống tạo ra các hướng dẫn có thể ảnh hưởng đến hành động trong thế giới thực.
Lòng tin của người dùng: Vào các kết quả và hành vi của hệ thống.
Quyền riêng tư và bảo mật: Của dữ liệu nhạy cảm từ người dùng và doanh nghiệp.
Tính toàn vẹn: Của các hướng dẫn, prompt và dữ liệu ngữ cảnh.
Tính toàn vẹn: Của các hành động do agent thực hiện và các tác động sau đó.

Việc xác định rõ các tài sản này buộc các đội ngũ phải trả lời những câu hỏi khó: Hệ thống này không bao giờ được phép thực hiện hành động nào? Một số rủi ro là không thể chấp nhận được bất kể lợi ích tiềm năng.

Hiểu rõ hệ thống thực tế đang xây dựng

Để mô hình hóa mối đe dọa hiệu quả, cần phải dựa trên cách hệ thống vận hành trong thực tế, không phải phiên bản đơn giản hóa trên tài liệu thiết kế. Đối với hệ thống AI, điều này có nghĩa là phải hiểu rõ:

Người dùng tương tác với hệ thống như thế nào.
Prompt, bộ nhớ và ngữ cảnh được lắp ráp và chuyển đổi ra sao.
Nguồn dữ liệu bên ngoài nào được sử dụng và với giả định tin cậy nào.
Hệ thống có thể gọi những công cụ hoặc API nào.
Hành động là phản ứng tức thời hay tự chủ.
Sự phê duyệt của con người được yêu cầu ở đâu và được thực thi như thế nào.

Trong các hệ thống AI, pipeline lắp ráp prompt (prompt assembly pipeline) là một ranh giới bảo mật hàng đầu. Các lỗi thường xảy ra ở khoảng trống giữa các thành phần, nơi ý định và quyền kiểm soát là ngầm định thay vì được thực thi rõ ràng.

Mô hình hóa cả lạm dụng và sự cố ngoài ý muốn

Các hệ thống AI là mục tiêu hấp dẫn vì chúng linh hoạt và dễ bị lạm dụng. Mô hình hóa mối đe dọa phải xem xét cả những kẻ tấn công có chủ đích và cả các trường hợp lạm dụng vô tình nhưng vẫn gây ra tác hại thực sự. Các hình thái phổ biến bao gồm:

Đánh giá quá cao trí thông minh: Người dùng có thể cho rằng hệ thống AI có năng lực, chính xác hoặc đáng tin cậy hơn thực tế.
Sử dụng ngoài mục đích: Người dùng có thể áp dụng kết quả của AI ngoài ngữ cảnh mà nó được thiết kế, hoặc cho rằng các biện pháp bảo vệ đã tồn tại trong khi thực tế không có.
Phụ thuộc quá mức (Overreliance): Người dùng chấp nhận các kết quả không chính xác hoặc không đầy đủ của AI, thường là do thiết kế hệ thống khiến việc phát hiện lỗi trở nên khó khăn.

Dùng tác động để ưu tiên, dùng xác suất để định hình phản ứng

Không phải tất cả các thất bại đều như nhau. Trong các hệ thống quy mô lớn, ngay cả các sự kiện có xác suất thấp cũng có thể xảy ra. Microsoft đề xuất một cách tiếp cận mới: không nhân tác động với xác suất để ưu tiên rủi ro, vì điều này có thể tạo ra cảm giác an toàn giả tạo.

Thay vào đó, hãy tách biệt việc ưu tiên và phản ứng:

Tác động quyết định mức độ ưu tiên: Các rủi ro có mức độ nghiêm trọng cao đòi hỏi sự chú ý bất kể tần suất.
Xác suất định hình cách phản ứng: Các lỗi hiếm gặp nhưng nghiêm trọng có thể dựa vào sự leo thang thủ công và đánh giá của con người; các lỗi thường xuyên đòi hỏi các biện pháp kiểm soát tự động và có khả năng mở rộng.

Ma trận Tác động, Xác suất và các chiến lược giảm thiểu tương ứng cho rủi ro AI.

Hình 1. Tác động, Xác suất và Chiến lược giảm thiểu, bởi Alyssa Ofstein.

Thiết kế các biện pháp giảm thiểu ngay từ kiến trúc

Hành vi của AI xuất phát từ sự tương tác giữa mô hình, dữ liệu, công cụ và người dùng. Do đó, các biện pháp giảm thiểu hiệu quả phải mang tính kiến trúc, được thiết kế để hạn chế thất bại thay vì chỉ phản ứng với nó. Các biện pháp phổ biến bao gồm:

Tách biệt rõ ràng giữa hướng dẫn hệ thống và nội dung không đáng tin cậy.
Áp dụng nguyên tắc đặc quyền tối thiểu (least-privilege) cho các công cụ và hành động.
Sử dụng danh sách cho phép (allow lists) cho việc truy xuất và gọi ra bên ngoài.
Cơ chế Human-in-the-loop (có sự tham gia của con người) để phê duyệt các hành động có rủi ro cao hoặc không thể đảo ngược.

Mục tiêu là hạn chế bán kính ảnh hưởng (blast radius) thay vì cố gắng đạt được hành vi hoàn hảo.

Giám sát, phát khả năng quan sát (Observability) và phản ứng

Vì một số thất bại là không thể tránh khỏi, khả năng quan sát (observability) mạnh mẽ là yếu tố quyết định. Các hệ thống cần ghi log lại prompt và ngữ cảnh, ghi nhận rõ ràng các hành động, và có các tín hiệu khi dữ liệu không đáng tin cậy ảnh hưởng đến đầu ra. Khả năng quan sát này biến hành vi của AI từ thứ mà các đội ngũ hy vọng là an toàn thành thứ họ có thể xác minh, gỡ lỗi và cải thiện theo thời gian.

Mô hình hóa mối đe dọa là một kỷ luật liên tục

Microsoft kết luận rằng mô hình hóa mối đe dọa AI không phải là hoạt động riêng của đội ngũ bảo mật, mà là trách nhiệm chung của các bộ phận kỹ thuật, sản phẩm và thiết kế. Đây là một phần của chu trình thiết kế liên tục, giúp định hình kiến trúc và giữ cho tác động đến con người luôn được đặt lên hàng đầu.

Để bắt đầu, Microsoft đề xuất ba việc:

Lập bản đồ nơi dữ liệu không đáng tin cậy đi vào hệ thống của bạn.
Đặt ra các ranh giới rõ ràng về những điều “không bao giờ được làm”.
Thiết kế cơ chế phát hiện và phản ứng cho các lỗi ở quy mô lớn.

Post Views: 122