ホームページ / テクノロジーの最新情報

Dataflow Gen2 trên Microsoft Fabric: Xử lý dữ liệu nhanh hơn, chi phí thấp hơn

Dataflow Gen2 trong Microsoft Fabric đã tạo ra một bước tiến vượt bậc trong lĩnh vực biến đổi dữ liệu. Các benchmark gần đây của Microsoft cho thấy những cải tiến đáng kể về cả hiệu năng và chi phí so với các thế hệ trước. Đối với các nhà lãnh đạo doanh nghiệp, điều này đồng nghĩa với việc xử lý dữ liệu quy mô lớn không chỉ nhanh hơn mà còn hiệu quả hơn về mặt tài chính, mở ra cơ hội cho phân tích real-time và ra quyết định dựa trên dữ liệu.

Các tính năng tối ưu hiệu năng của Dataflow Gen2

Hiệu năng của Dataflow Gen2 không đến từ một “engine” duy nhất mà là sự kết hợp của nhiều tính năng bổ trợ, cho phép doanh nghiệp lựa chọn phương án tối ưu cho từng loại workload cụ thể. Thay vì phải áp dụng tất cả, các đội ngũ có thể bắt đầu với cài đặt mặc định và bổ sung các tối ưu hóa khi cần thiết.

Các tính năng chính bao gồm:

  • Staging: Lưu trữ dữ liệu trung gian một lần để các truy vấn sau có thể tái sử dụng mà không cần đọc lại từ nguồn. Tính năng này rất lý tưởng cho các mô hình ELT, nơi doanh nghiệp muốn tách biệt quá trình nhập liệu (ingestion) và biến đổi (transformation).
  • Fast Copy: Tối ưu hóa cho việc nhập một lượng dữ liệu cực lớn vào OneLake (Lakehouse) bằng một backend sao chép thông lượng cao. Đây là lựa chọn tốt nhất cho các workload cần đưa dữ liệu vào hệ thống nhanh chóng và thực hiện biến đổi sau đó.
  • Modern Query Evaluator: Một engine thực thi Power Query (M) mới, được thiết kế để giảm đáng kể thời gian đánh giá, đặc biệt với các logic biến đổi phức tạp và các thao tác trên từng dòng (row-by-row).
  • Partitioned Compute: Cho phép xử lý song song các phần của logic khi engine có thể phân vùng nguồn dữ liệu (thường là các nguồn dựa trên file). Việc này giúp giảm thời gian làm mới tổng thể thông qua xử lý đồng thời.

So sánh hiệu năng qua các kịch bản thực tế

Các benchmark của Microsoft đã chứng minh sự vượt trội của Dataflow Gen2 so với Gen1 trong các kịch bản phổ biến.

Kịch bản 1: Sao chép dữ liệu (Copy Data)

  • Tác vụ: Tải hàng loạt file Parquet từ ADLS Gen2 vào Lakehouse mà không có biến đổi.
  • Tính năng sử dụng: Fast Copy
  • Kết quả (thời gian thực thi):
    • Dataflow Gen1: 01:42:18
    • Dataflow Gen2: 00:07:43 (Nhanh hơn 13 lần)

Kịch bản 2: Định hình dữ liệu phức tạp (Heavy data shaping)

  • Tác vụ: Áp dụng các biến đổi không thể folding (đẩy về nguồn) như lọc, tạo cột mới, và làm sạch dữ liệu.
  • Tính năng sử dụng: Modern Evaluator
  • Kết quả (thời gian thực thi):
    • Dataflow Gen1: 01:13:44
    • Dataflow Gen2: 00:46:15 (Nhanh hơn 1.6 lần)

Kịch bản 3: Kết hợp file (Combine files)

  • Tác vụ: Kết hợp và biến đổi song song các file Parquet đã được phân vùng.
  • Tính năng sử dụng: Partitioned Compute (hiện đang trong giai đoạn Preview)
  • Kết quả (thời gian thực thi):
    • Dataflow Gen1: 01:40:57
    • Dataflow Gen2: 00:04:48 (Nhanh hơn 21 lần)

Kịch bản 4: Mô hình ELT (ELT patterns)

  • Tác vụ: Dùng Staging để lưu dữ liệu một lần, sau đó chạy các biến đổi tham chiếu từ kết quả đã lưu.
  • Tính năng sử dụng: Staging + Fast Copy
  • Kết quả (thời gian thực thi):
    • Dataflow Gen1: 02:42:44
    • Dataflow Gen2: 00:05:53 (Nhanh hơn 27 lần)

Thời gian xử lý ngắn hơn đồng nghĩa với chi phí thấp hơn

Đối với doanh nghiệp, giá trị của các kết quả benchmark này rất rõ ràng: thời gian thực thi nhanh hơn cũng có nghĩa là tổng chi phí thấp hơn. Theo các cải tiến về giá của Dataflow Gen2 được Microsoft công bố vào tháng 9 năm 2025, việc giảm thời gian làm mới cũng giúp giảm đáng kể mức tiêu thụ CU (Capacity Unit) cho workload.

Nói cách khác, khi Dataflow Gen2 giúp hoàn thành cùng một tác vụ biến đổi nhanh hơn, doanh nghiệp cũng được hưởng lợi từ hiệu quả chi phí tốt hơn so với Dataflow Gen1.

Biểu đồ cải tiến về giá của Dataflow Gen2, cho thấy chi phí giảm tới 90% cho các tác vụ chạy trên 10 phút.

Việc kết hợp Dataflow Gen2 với đích đến là Lakehouse sẽ mở khóa khả năng sử dụng liền mạch trong Power BI Direct Lake. Thiết lập này cho phép phân tích gần như real-time, truy cập dữ liệu trực tiếp và loại bỏ các bước ETL trung gian. Doanh nghiệp có thể biến đổi dữ liệu ở quy mô lớn, đưa vào Fabric Lakehouse và ngay lập tức tận dụng chế độ Direct Lake của Power BI để có được thông tin chi tiết với tốc độ cực nhanh.

Kết luận

Dataflow Gen2 mang lại những cải tiến vượt trội về cả hiệu năng và chi phí, cung cấp nhiều công cụ linh hoạt để doanh nghiệp tối ưu hóa cho từng nhu cầu cụ thể. Đối với các khách hàng vẫn đang sử dụng Dataflow Gen1, đây là thời điểm thích hợp để nâng cấp. Việc chuyển đổi sang Dataflow Gen2 kết hợp với Lakehouse và Power BI Direct Lake không chỉ là một bước cải tiến nhỏ, mà là một bước nhảy vọt vào tương lai của ngành phân tích dữ liệu quy mô doanh nghiệp.

👋 Hi! Bạn cần tư vấn gì về dịch vụ Microsoft?