Ngày 14/10/2025, Microsoft đã công bố ExCyTIn-Bench, một công cụ benchmark mã nguồn mở mới được thiết kế để đánh giá hiệu suất của các hệ thống AI trong các cuộc điều tra an ninh mạng thực tế. Nền tảng này giúp các lãnh đạo doanh nghiệp đánh giá các mô hình ngôn ngữ bằng cách mô phỏng các kịch bản tấn công mạng phức tạp, cung cấp thông tin chi tiết và hữu ích về cách các công cụ AI suy luận để giải quyết vấn đề.
Tại sao ExCyTIn-Bench quan trọng với doanh nghiệp?
Đối với các Giám đốc An ninh Thông tin (CISO), lãnh đạo CNTT và các nhà quản lý mua sắm, ExCyTIn-Bench cung cấp một phương pháp khách quan và rõ ràng để đánh giá năng lực của AI trong lĩnh vực bảo mật. Thay vì chỉ tập trung vào độ chính xác của các báo cáo, kiến thức tĩnh hay các mô phỏng đơn giản, benchmark này đánh giá khả năng của AI trong việc điều tra, thích ứng và giải thích các phát hiện của mình khi đối mặt với các mối đe dọa thực tế.
Microsoft cho biết họ sử dụng framework này trong nội bộ để củng cố các tính năng bảo mật do AI cung cấp và kiểm tra khả năng chống chịu của chúng trước các cuộc tấn công mạng. Các mô hình AI chuyên về bảo mật của Microsoft dựa vào phản hồi từ ExCyTIn để phát hiện điểm yếu trong logic phát hiện, khả năng công cụ và điều hướng dữ liệu. Để tích hợp rộng rãi hơn, Microsoft cũng đang hợp tác với các sản phẩm bảo mật như Microsoft Security Copilot, Microsoft Sentinel và Microsoft Defender để đánh giá và cung cấp phản hồi về các tính năng AI của chúng.
ExCyTIn-Bench cải tiến hơn các benchmark truyền thống như thế nào?
Không giống các benchmark truyền thống dựa trên câu hỏi trắc nghiệm—vốn dễ bị ảnh hưởng bởi phỏng đoán—ExCyTIn-Bench áp dụng một phương pháp luận có nguyên tắc để tạo ra các cặp câu hỏi và câu trả lời từ biểu đồ điều tra mối đe dọa. Các chuyên gia phân tích con người lên ý tưởng về các cuộc điều tra bằng cách sử dụng biểu đồ sự cố, đóng vai trò là ground truth (dữ liệu gốc để đối chiếu), hỗ trợ việc tạo ra các cặp hỏi-đáp có thể giải thích được và dựa trên dữ liệu bảo mật xác thực.
ExCyTIn-Bench đặt các agent AI vào một môi trường trung tâm điều hành an ninh (SOC) được kiểm soát trên Microsoft Azure, nơi agent có thể truy vấn các bảng log trực tiếp, chuyển đổi giữa các nguồn dữ liệu và lập kế hoạch điều tra đa bước. Kết quả là, benchmark này đánh giá toàn diện các quy trình suy luận, bao gồm phân rã mục tiêu, sử dụng công cụ và tổng hợp bằng chứng, trong các điều kiện mô phỏng quy trình làm việc của một nhà phân tích.
Những đột phá chiến lược của ExCyTIn-Bench
- Đánh giá bảo mật thực tế: Không giống như hầu hết các benchmark mã nguồn mở khác, ExCyTIn-Bench nắm bắt được sự phức tạp và mơ hồ của các cuộc điều tra mạng thực tế. Các agent AI phải phân tích dữ liệu bảo mật nhiễu, đa bảng, xây dựng các truy vấn nâng cao và phát hiện các indicators of compromise (IoCs) (chỉ số về hành vi xâm phạm) — mô phỏng công việc của các nhà phân tích SOC.
- Số liệu minh bạch và hữu ích: Benchmark cung cấp các tín hiệu thưởng chi tiết, từng bước cho mỗi hành động điều tra, thay vì chỉ đưa ra kết quả thành công/thất bại nhị phân. Sự minh bạch này giúp các tổ chức hiểu rõ không chỉ những gì một mô hình có thể làm, mà còn cách nó đi đến kết luận — yếu tố quan trọng để ra quyết định, xây dựng lòng tin và tuân thủ.
- Thúc đẩy đổi mới: ExCyTIn-Bench là mã nguồn mở và được thiết kế để cộng tác. Các nhà nghiên cứu và nhà cung cấp trên toàn thế giới có thể sử dụng nó để kiểm tra, so sánh và cải thiện các mô hình mới, thúc đẩy tiến bộ nhanh chóng trong lĩnh vực phòng thủ mạng tự động.
- Benchmark cá nhân hóa (sắp ra mắt): Microsoft cho biết sẽ sớm cho phép tạo các benchmark điều tra mối đe dọa mạng được tùy chỉnh riêng cho các mối đe dọa xảy ra trong môi trường của mỗi khách hàng.
Kết quả mới nhất: Các mô hình ngôn ngữ ngày càng thông minh hơn
Các đánh giá gần đây cho thấy các mô hình mới nhất đang có những bước tiến đáng kể:

- GPT-5 (Reasoning=High) dẫn đầu với điểm thưởng trung bình 56.2%, vượt trội so với các mô hình trước đó và chứng tỏ giá trị của khả năng suy luận nâng cao cho các tác vụ bảo mật.
- Các mô hình nhỏ hơn với khả năng suy luận chain-of-thought (CoT) hiệu quả — như GPT-5-mini — hiện đang cạnh tranh với các mô hình lớn hơn, mang lại hiệu suất mạnh mẽ với chi phí thấp hơn.
- Suy luận tường minh là yếu tố quan trọng: Việc cài đặt mức độ suy luận thấp hơn trong GPT-5 làm giảm hiệu suất gần 19%, nhấn mạnh rằng suy luận sâu, từng bước là cần thiết cho các cuộc điều tra phức tạp.
- Các mô hình mã nguồn mở đang thu hẹp khoảng cách với các giải pháp độc quyền, giúp tự động hóa bảo mật chất lượng cao trở nên dễ tiếp cận hơn.
Tham gia và tìm hiểu thêm
Các nhà phát triển mô hình và đội ngũ bảo mật có thể xem các sự kiện như Microsoft Secure theo yêu cầu. Sự kiện Microsoft Ignite cũng đã diễn ra từ ngày 17-21 tháng 11 năm 2025 tại San Francisco, CA và trực tuyến, giới thiệu nhiều cải tiến và phòng lab thực hành.

ExCyTIn-Bench là mã nguồn mở và được truy cập miễn phí. Các nhà phát triển mô hình và đội ngũ bảo mật được mời đóng góp, thực hiện benchmark và chia sẻ kết quả thông qua kho lưu trữ GitHub chính thức.


