Microsoft vừa ra mắt bản xem trước (Preview) của Mirrored Database Change Feed connector, một tính năng mới trong Microsoft Fabric. Công cụ này cho phép doanh nghiệp xây dựng các ứng dụng hướng sự kiện, xử lý dữ liệu theo thời gian thực bằng cách stream trực tiếp các thay đổi từ cơ sở dữ liệu được nhân bản (mirrored database) vào Fabric Eventstreams, mà không cần viết các job Spark phức tạp hay xây dựng pipeline thủ công.
Từ sao chép dữ liệu đến ứng dụng real-time
Đối với các doanh nghiệp đã sử dụng tính năng Mirroring trong Microsoft Fabric, việc sao chép liên tục dữ liệu vận hành vào OneLake dưới dạng bảng Delta đã mang lại nhiều giá trị cho việc phân tích, AI và báo cáo. Khi kết hợp với Delta Change Data Feed (CDF), doanh nghiệp có thể ghi nhận các thay đổi ở cấp độ hàng (insert, update, delete) một cách gia tăng, loại bỏ nhu cầu tải lại toàn bộ bảng.
Tuy nhiên, một thách thức lớn là làm thế nào để phản ứng với những thay đổi này ngay khi chúng xảy ra, thay vì chỉ xử lý theo lô (batch). Đây chính là bài toán mà Mirrored Database Change Feed connector giải quyết. Connector này cho phép stream các bản cập nhật Delta CDF từ Mirrored Databases thẳng vào Fabric Eventstreams, mở ra khả năng xây dựng các ứng dụng hướng sự kiện với độ trễ thấp và phân tích thông minh theo thời gian thực.

Giá trị kinh doanh cốt lõi
Nhiều đội ngũ triển khai Mirroring thường đi theo một lộ trình tự nhiên:
- Sao chép (Replicate): Tính năng Mirroring cốt lõi đưa dữ liệu vận hành vào OneLake một cách liên tục và miễn phí.
- Theo dõi thay đổi (Track changes): Các tính năng mở rộng như Delta CDF bổ sung khả năng theo dõi thay đổi ở cấp độ hàng để xử lý gia tăng.
- Phản ứng real-time (React in real time): Mirrored Database Change Feed connector stream các thay đổi này vào Eventstreams để có thể hành động ngay lập tức.
Trước đây, việc sử dụng các thay đổi từ CDF thường đòi hỏi phải viết notebook Spark để liên tục thăm dò (poll) các bản cập nhật. Phương pháp này hiệu quả cho phân tích theo lô, nhưng không lý tưởng khi cần độ trễ cực thấp (vài phút hoặc thậm chí vài giây). Connector mới này đã loại bỏ rào cản đó bằng cách cung cấp một luồng streaming được quản lý hoàn toàn từ nguồn dữ liệu nhân bản vào Eventstreams.
Quan trọng hơn, giải pháp này hoạt động với tất cả các nguồn được Fabric Mirrored Databases hỗ trợ, bao gồm Azure SQL, Snowflake, Cosmos DB, Oracle và các đối tác Open Mirroring khác. Điều này đồng nghĩa với việc, dù dữ liệu vận hành của doanh nghiệp nằm ở đâu, con đường đến với trí tuệ real-time vẫn không thay đổi.
Dễ dàng khám phá và sử dụng
Connector được tích hợp trực tiếp vào trải nghiệm Fabric. Người dùng có thể khám phá các mirrored database trong Real-Time Hub, chọn một cơ sở dữ liệu đã bật CDF và cấu hình đích đến là Eventstream mà không cần viết bất kỳ dòng code nào.
Ví dụ: Một công ty fintech nhân bản cơ sở dữ liệu Azure SQL Database của họ vào OneLake. Chỉ với vài cú nhấp chuột trong Real-Time Hub, kỹ sư dữ liệu có thể kết nối luồng thay đổi vào một Eventstream mới. Trong vòng vài phút, các cập nhật về trạng thái khoản vay sẽ được stream vào Fabric mà không cần job Spark, connector tùy chỉnh hay quản lý hạ tầng.
Stream sự kiện thay đổi với độ trung thực cao
Sau khi kết nối, connector liên tục đẩy các sự kiện thay đổi vào Eventstream. Mỗi sự kiện phản ánh chính xác hoạt động ở cấp độ hàng — insert, update, hoặc delete — cùng với các siêu dữ liệu như loại thay đổi và dấu thời gian. Cấu trúc của các sự kiện này tương ứng với bảng nguồn, giúp loại bỏ nhu cầu phân tích các bản ghi thay đổi phức tạp.
Ví dụ: Một nền tảng y tế nhân bản cơ sở dữ liệu bệnh nhân PostgreSQL vào Fabric. Khi một bác sĩ cập nhật thuốc hoặc trạng thái xuất viện của bệnh nhân, sự kiện thay đổi sẽ đến Eventstream với loại hoạt động (update), các cột bị ảnh hưởng và dấu thời gian chính xác, giúp các hệ thống phía sau phân biệt được đâu là một ca nhập viện mới, đâu là sự điều chỉnh liều lượng.
Xử lý, định tuyến và hành động với Eventstreams
Khi các luồng thay đổi đã vào Eventstreams, doanh nghiệp có thể tận dụng toàn bộ khả năng xử lý của nền tảng này — từ các toán tử SQL, chuyển đổi không cần code, lọc, tổng hợp — và định tuyến đầu ra đến nhiều đích cùng lúc:
- Eventhouse: Dành cho các dashboard real-time và phân tích bằng KQL.
- Activator: Để kích hoạt cảnh báo và các hành động tự động khi điều kiện được đáp ứng.
- Lakehouse hoặc các đích khác: Để lưu trữ dữ liệu thay đổi đã được xử lý và làm giàu.
Ví dụ thực tế: Từ Azure Cosmos DB đến dashboard vận hành real-time
Một startup giao đồ ăn vận hành hệ thống quản lý đơn hàng trên Azure Cosmos DB. Họ đã thiết lập Mirrored Azure Cosmos DB để sao chép dữ liệu đơn hàng vào OneLake cho mục đích phân tích và bật Delta CDF để xử lý báo cáo hàng ngày.
Tuy nhiên, đội vận hành cần một dashboard chỉ huy trực tiếp hiển thị khối lượng đơn hàng, thời gian giao hàng trung bình và tỷ lệ hủy đơn theo thời gian thực. Đây là cách Mirrored Database Change Feed connector giúp họ:
- Kích hoạt connector: Trong Real-Time Hub, họ chọn mirrored database của Cosmos DB và tạo một Eventstream với luồng thay đổi làm nguồn.
- Xử lý trong Eventstreams: Họ sử dụng các toán tử để phân loại sự kiện theo trạng thái đơn hàng, tính toán các chỉ số như tỷ lệ hủy đơn trên mỗi thành phố trong cửa sổ 10 phút.
- Định tuyến đến Eventhouse: Luồng dữ liệu đã xử lý được đưa vào một bảng Eventhouse, cung cấp năng lượng cho một dashboard KQL real-time, cập nhật trong vòng vài giây.
- Kích hoạt cảnh báo với Activator: Một nhánh stream song song giám sát tỷ lệ hủy đơn. Khi bất kỳ thành phố nào vượt quá 15%, Activator sẽ gửi cảnh báo đến kênh Teams của đội vận hành.
Kết quả là, cùng một nguồn dữ liệu nhân bản từ Cosmos DB nay vừa phục vụ báo cáo theo lô, vừa cung cấp năng lượng cho dashboard vận hành real-time và cảnh báo tự động — tất cả mà không cần nhân đôi hạ tầng hay viết code streaming phức tạp.
Bắt đầu ngay hôm nay
Để sử dụng Mirrored Database Change Feed connector, doanh nghiệp có thể thực hiện các bước sau:
- Thiết lập Mirroring: Tạo một Mirrored Database cho nguồn dữ liệu vận hành của bạn.
- Bật Delta CDF: Kích hoạt Delta Change Data Feed thông qua Extended Capabilities trong trang cấu hình.
- Kết nối với Eventstreams: Khám phá mirrored database đã bật CDF trong Real-Time Hub và tạo một Eventstream với change feed connector.
- Xây dựng ứng dụng: Thêm logic xử lý, định tuyến đến các đích như Eventhouse và thiết lập cảnh báo với Activator khi cần.


