홈페이지 / 기술 업데이트

Microsoft: AI Observability là yêu cầu bắt buộc để quản trị rủi ro AI

Khi các doanh nghiệp ngày càng tích hợp sâu Generative AI (GenAI) và AI tác tử (agentic AI) vào hoạt động, họ phải đối mặt với những rủi ro bảo mật mới và khó phát hiện. Trong một bài đăng ngày 18/03/2026, Microsoft đã nhấn mạnh rằng các công cụ giám sát truyền thống không còn đủ khả năng, và observability (khả năng quan sát và thấu hiểu hệ thống) cho AI là một yêu cầu bảo mật và quản trị nền tảng.

Theo Microsoft, nhiều tổ chức chưa nhận thức được tầm quan trọng của AI observability, tạo ra những “điểm mù” tiềm ẩn ngay khi khả năng giám sát trở nên quan trọng nhất.

“Điểm mù” bảo mật khi giám sát AI bằng công cụ truyền thống

Trong phần mềm truyền thống, các luồng xử lý có tính tất định, giúp các công cụ observability dễ dàng theo dõi các chỉ số như độ trễ (latency), lỗi và thông lượng (throughput). Tuy nhiên, hệ thống GenAI và agentic AI lại có bản chất xác suất, đưa ra các quyết định phức tạp khi vận hành, khiến việc dự đoán các kịch bản lỗi trở nên khó khăn hơn nhiều.

Microsoft đưa ra một kịch bản rủi ro điển hình: một agent email yêu cầu một agent nghiên cứu tìm kiếm thông tin trên web. Agent nghiên cứu truy cập một trang web chứa mã độc và chuyển nội dung đã bị “đầu độc” này về cho agent email. Tin rằng đây là dữ liệu đầu vào đáng tin cậy, agent email đã tự động chuyển tiếp các tài liệu nhạy cảm cho người nhận không được phép, dẫn đến rò rỉ dữ liệu.

Trong ví dụ này, các chỉ số vận hành truyền thống vẫn ở mức “xanh”: không có lỗi, không có cảnh báo. Hệ thống dường như hoạt động hoàn hảo, nhưng thực tế ranh giới tin cậy đã bị xâm phạm. Nếu không có khả năng quan sát sâu vào cách bối cảnh được tạo ra ở mỗi bước, đội ngũ vận hành sẽ không thể phát hiện hay tái dựng lại chuỗi sự kiện tấn công.

AI Observability: Vượt xa Logs, Metrics và Traces

AI Observability là khả năng giám sát, thấu hiểu và xử lý sự cố của một hệ thống AI một cách toàn diện, từ khâu phát triển đến vận hành. Microsoft định nghĩa AI observability dựa trên nền tảng truyền thống gồm logs, metrics, traces, nhưng mở rộng thêm hai thành phần cốt lõi mới là Evaluation (Đánh giá) và Governance (Quản trị).

  • Logs, Metrics, và Traces: Vẫn là nền tảng nhưng được điều chỉnh để ghi lại các tín hiệu đặc thù của AI. Logs phải ghi lại cả prompt của người dùng và phản hồi của model, các công cụ được gọi, nguồn dữ liệu đã truy vấn. Metrics bao gồm các chỉ số mới như lượng token sử dụng, số lượt tương tác của agent. Traces giúp tái dựng lại toàn bộ hành trình xử lý của một yêu cầu.
  • Evaluation (Đánh giá): Một thành phần mới, giúp đo lường chất lượng phản hồi, đánh giá xem đầu ra có dựa trên nguồn dữ liệu tin cậy (grounding) không, và liệu các agent có sử dụng công cụ đúng cách hay không. Evaluation cung cấp các tín hiệu định lượng để hiểu về độ tin cậy và rủi ro vận hành của AI.
  • Governance (Quản trị): Là khả năng đo lường, xác minh và thực thi các hành vi được chấp nhận của hệ thống dựa trên bằng chứng quan sát được. Governance đảm bảo hệ thống tuân thủ chính sách, có thể kiểm toán và quy trách nhiệm.

Đối với AI, việc tương quan hóa dữ liệu cần được thực hiện ở cấp độ “vòng đời của agent” (agent lifecycle-level), thay vì chỉ ở cấp độ yêu cầu đơn lẻ (request-level) như trước đây, để có thể hiểu được toàn bộ bối cảnh của một cuộc hội thoại nhiều lượt.

5 bước triển khai AI Observability trong doanh nghiệp

Microsoft khuyến nghị các doanh nghiệp tích hợp AI observability vào Vòng đời Phát triển An toàn (Secure Development Lifecycle – SDL) của mình thông qua năm bước sau:

  1. Chuẩn hóa AI Observability: Đưa các tiêu chuẩn về observability cho GenAI và agentic AI thành yêu cầu bắt buộc trong vòng đời phát triển, thay vì để các đội ngũ tự quyết định.
  2. Trang bị công cụ từ đầu: Tích hợp các công cụ đo lường (telemetry) đặc thù cho AI ngay từ giai đoạn thiết kế. Việc tuân thủ các quy ước của ngành như OpenTelemetry (OTel) sẽ cải thiện tính nhất quán và tương tác.
  3. Ghi lại toàn bộ bối cảnh: Ghi log chi tiết về prompt của người dùng, phản hồi của model, nguồn gốc dữ liệu, các công cụ được gọi và quyền hạn tại thời điểm đó. Điều này giúp đội ngũ bảo mật phân biệt lỗi của model và lỗ hổng bị khai thác.
  4. Thiết lập ngưỡng hành vi và cảnh báo: Sử dụng các dịch vụ như Azure MonitorApplication Insights để xác định các mẫu hành vi bình thường của agent (tần suất gọi công cụ, lượng token tiêu thụ…) và thiết lập cảnh báo khi có sai lệch đáng kể.
  5. Quản lý tập trung các AI agent: Kết hợp observability với một nền tảng quản trị hợp nhất. Ví dụ, Microsoft Foundry Control Plane hợp nhất việc kiểm kê, observability, và tuân thủ chính sách, trong khi Microsoft Agent 365 (đang trong bản Frontier preview) cung cấp khả năng quản trị cấp tenant.

Chuyển đổi hành vi AI thành tín hiệu bảo mật

Việc áp dụng AI observability giúp chuyển đổi các hành vi vốn mờ mịt của model thành các tín hiệu bảo mật hữu ích, tăng cường cả khả năng phát hiện rủi ro chủ động và điều tra sự cố bị động. Khi được tích hợp vào SDL, observability trở thành một cơ chế kiểm soát kỹ thuật, đảm bảo rằng các hệ thống AI được trang bị đủ khả năng giám sát trước khi đưa vào vận hành.

Microsoft kết luận bằng một quan điểm mạnh mẽ: nếu bạn không thể tái dựng lại một lượt chạy của agent hoặc phát hiện các vi phạm ranh giới tin cậy từ logs và traces, hệ thống đó có thể chưa sẵn sàng cho môi trường production.

👋 Hi! Bạn cần tư vấn gì về dịch vụ Microsoft?