홈페이지 / 기술 업데이트

Microsoft Fabric Warehouse: Tùy chỉnh lưu trữ dữ liệu, tối ưu chi phí và tuân thủ

Khi một pipeline ETL bị lỗi và âm thầm làm hỏng dữ liệu trong nhiều ngày, việc phục hồi có thể trở thành một cuộc khủng hoảng, tiêu tốn hàng giờ xây dựng và nạp lại dữ liệu. Để giải quyết thách thức này, ngày 12/5/2026, Microsoft đã ra mắt tính năng Configurable Data Retention (Preview) cho Fabric Warehouse. Tính năng này cho phép doanh nghiệp toàn quyền kiểm soát thời gian lưu trữ lịch sử dữ liệu, từ đó tối ưu chi phí và đáp ứng các yêu cầu tuân thủ nghiêm ngặt.

Vấn đề của chính sách “một kích cỡ cho tất cả”

Trước đây, Fabric Warehouse âm thầm bảo vệ dữ liệu của doanh nghiệp bằng cách lưu giữ các phiên bản lịch sử thông qua công nghệ Delta. Mọi thay đổi (insert, update, delete) đều được ghi lại, tạo nên một “bộ nhớ sống” cho dữ liệu. Tuy nhiên, cửa sổ lịch sử này được cố định ở mức 30 ngày cho tất cả các warehouse, không có ngoại lệ.

Chính sách “một kích cỡ cho tất cả” này đã gây ra nhiều vấn đề:

  • Đội ngũ phát triển và thử nghiệm (dev/test): Buộc phải trả chi phí cho lịch sử dữ liệu mà họ không bao giờ cần đến.
  • Đội ngũ tuân thủ: Không thể có được lịch sử kiểm toán dài hơn theo yêu cầu của các quy định ngành.
  • Đội ngũ kỹ thuật: Thiếu sự linh hoạt để điều chỉnh cửa sổ phục hồi cho phù hợp với chu kỳ triển khai sản phẩm.

Configurable Retention: Linh hoạt theo từng workload

Để giải quyết những hạn chế trên, từ ngày 12/5/2026, Microsoft cho phép người dùng cấu hình thời gian lưu trữ lịch sử dữ liệu cho Fabric Warehouse với bất kỳ giá trị nào trong khoảng từ 1 đến 120 ngày. Việc này được thực hiện cho từng warehouse riêng lẻ chỉ bằng một lệnh T-SQL duy nhất.

Doanh nghiệp không cần khởi động lại, di chuyển dữ liệu hay yêu cầu hỗ trợ. Ngay sau khi lệnh được thực thi, warehouse sẽ tự động cập nhật chính sách lưu trữ mới.

Cấu hình thời gian lưu trữ dữ liệu trong Microsoft Fabric Warehouse bằng lệnh T-SQL

Các ứng dụng thực tiễn cho doanh nghiệp

Thời gian lưu trữ được cấu hình không chỉ là một con số. Nó xác định ranh giới cho mọi khả năng mà Fabric Warehouse có thể hỗ trợ khi có sự cố xảy ra.

  • Time travel: Cho phép truy vấn dữ liệu tại bất kỳ thời điểm nào trong quá khứ (trong phạm vi lưu trữ). Điều này rất hữu ích để có các báo cáo ổn định trong khi các pipeline ETL vẫn đang chạy ngầm.
  • Point-in-time clones: Cho phép nhân bản (clone) ngay lập tức một bảng tại một thời điểm bất kỳ trong quá khứ. Đây là một hoạt động metadata gọn nhẹ, không nhân đôi dữ liệu. Doanh nghiệp có thể dùng tính năng này để khắc phục sự cố pipeline, thử nghiệm các biến đổi dữ liệu mới một cách an toàn mà không ảnh hưởng đến môi trường production, hoặc lưu trữ một snapshot lịch sử để lưu trữ dài hạn với chi phí gần như bằng không.
  • Restore points: Được hệ thống tự động tạo ra mỗi 8 giờ và được điều chỉnh tỷ lệ thuận với thời gian lưu trữ của bạn, đảm bảo luôn có đủ tùy chọn để phục hồi.
  • Warehouse snapshots: Ghi lại một chế độ xem nhất quán, chỉ đọc (read-only) của warehouse. Thời gian lưu trữ càng dài, bạn càng có nhiều lịch sử snapshot để làm việc.

Tối ưu cho từng bộ phận

Tính năng mới này mang lại lợi ích trực tiếp cho nhiều nhóm khác nhau trong doanh nghiệp:

  • Môi trường dev/test: Các doanh nghiệp có thể giảm thời gian lưu trữ xuống mức thấp (ví dụ: vài ngày) để tiết kiệm chi phí, vì không cần lịch sử thay đổi cả tháng cho một môi trường được reset sau mỗi sprint.
  • Các ngành được quản lý chặt chẽ (tài chính, y tế, bảo hiểm): Có thể kéo dài thời gian lưu trữ lên đến 120 ngày để truy vấn dữ liệu lịch sử, truy vết nguồn gốc (lineage) và đáp ứng yêu cầu của kiểm toán viên, tất cả đều thực hiện ngay trong Fabric mà không cần công cụ lưu trữ bên ngoài.
  • Đội ngũ phát triển dữ liệu: Có thể điều chỉnh thời gian lưu trữ khớp với chu kỳ phát hành của mình. Nếu một bản cập nhật lỗi được triển khai vào cuối tuần, họ biết chắc rằng mình có chính xác khoảng thời gian cần thiết để rollback.

Lưu ý quan trọng và phân biệt các loại hình lưu trữ

Microsoft nhấn mạnh một điểm quan trọng: việc giảm thời gian lưu trữ là một hành động không thể đảo ngược.

Khi bạn giảm thời gian lưu trữ, dữ liệu lịch sử nằm ngoài cửa sổ mới sẽ bị xóa vĩnh viễn bởi công cụ Garbage Collector do Fabric quản lý. Việc tăng lại thời gian lưu trữ sau đó sẽ không khôi phục được những gì đã bị xóa.

Ngoài ra, cần phân biệt giữa Data RetentionDropped Retention.

  • Data Retention: Quản lý thời gian lưu trữ các phiên bản lịch sử của dữ liệu khi warehouse đang hoạt động.
  • Dropped Retention: Là “lưới an toàn” được kích hoạt khi một warehouse bị xóa nhầm. Nó bảo vệ toàn bộ warehouse trong một khoảng thời gian (mặc định 7 ngày, có thể cấu hình từ 7-90 ngày) trước khi bị xóa vĩnh viễn.

Cả hai tính năng này cùng nhau tạo nên một giải pháp toàn diện về khả năng phục hồi dữ liệu cho doanh nghiệp.

Tương lai của khả năng phục hồi dữ liệu

Tính năng Configurable Retention trong Microsoft Fabric Warehouse không chỉ là một con số. Nó trao cho doanh nghiệp quyền kiểm soát để cân bằng giữa chi phí, tuân thủ và an toàn vận hành. Dù là cắt giảm chi phí trong môi trường dev, đáp ứng yêu cầu kiểm toán hay nhanh chóng phục hồi sau sự cố, doanh nghiệp giờ đây đã nắm trong tay quyền chủ động.

👋 Hi! Bạn cần tư vấn gì về dịch vụ Microsoft?