Trang chủ / Cập nhật công nghệ

Microsoft Fabric: Pipeline dữ liệu tiến hóa, tích hợp phê duyệt thủ công

Các pipeline dữ liệu không còn chỉ giới hạn trong vai trò ETL (Trích xuất, Chuyển đổi, Tải) truyền thống. Microsoft đang định hình lại chúng thành các công cụ điều phối quy trình nghiệp vụ toàn diện, có khả năng tương tác với con người. Với bản cập nhật cho Microsoft Fabric, doanh nghiệp có thể tích hợp các điểm phê duyệt thủ công trực tiếp vào luồng dữ liệu, tăng cường tính minh bạch và kiểm soát.

Trong nhiều năm, pipeline dữ liệu đồng nghĩa với ETL: trích xuất dữ liệu từ một nơi, chuyển đổi và tải nó đến một nơi khác. Mô hình này hoạt động tốt khi các quy trình phân tích chủ yếu chạy theo lô (batch) và tách biệt với phần còn lại của doanh nghiệp. Nhưng thế giới đó đã thay đổi. Giờ đây, các tổ chức sử dụng nền tảng dữ liệu để hỗ trợ các quyết định vận hành, quy trình kinh doanh và các hành động thời gian thực, chứ không chỉ cho các dashboard phân tích.

Từ di chuyển dữ liệu đến quy trình công việc đầu cuối

Các pipeline hiện đại không chỉ di chuyển dữ liệu mà còn điều phối công việc. Khách hàng của Microsoft ngày càng sử dụng pipeline để:

  • Kích hoạt các notebook và các tác vụ chuẩn bị dữ liệu.
  • Làm mới các semantic model và các tài sản ở các bước sau.
  • Gọi các hệ thống và API bên ngoài.
  • Thông báo cho các bên liên quan khi có điều gì đó hoàn thành—hoặc thất bại.
  • Chờ một quyết định trước khi tiếp tục.

Nói cách khác, pipeline đang trở thành các quy trình công việc đầu cuối, trải dài trên nhiều hệ thống, đội nhóm và quyết định. Sự thay đổi này phản ánh một xu hướng rộng lớn hơn: các quy trình kỹ thuật dữ liệu không còn bị cô lập khỏi hoạt động kinh doanh. Chúng được kết nối sâu sắc với cách các tổ chức vận hành hàng ngày.

Tại sao chỉ ETL là không đủ?

Các pipeline ETL truyền thống giả định một mô hình đơn giản:

  • Mọi thứ đều được tự động hóa.
  • Mọi thứ chạy nhanh chóng.
  • Lỗi được xử lý bởi các kỹ sư xem xét log.

Trong thực tế, nhiều quy trình công việc không phù hợp với khuôn mẫu đó. Một số bước đòi hỏi sự can thiệp của con người—ví dụ, phê duyệt việc làm mới dữ liệu, xác thực một quy tắc kinh doanh, hoặc xác nhận một hành động ở các bước sau. Các quy trình khác lại chạy trong thời gian dài, kéo dài hàng giờ hoặc hàng ngày, và cần được hiển thị cho những người không phải là kỹ sư dữ liệu.

Khi các pipeline thiếu những khả năng này, các đội nhóm thường phải kết hợp các công cụ, script và hệ thống thông báo bên ngoài. Cách tiếp cận đó hoạt động—nhưng đi kèm với những đánh đổi:

  • Giám sát bị phân mảnh.
  • Mất dấu vết dòng dữ liệu (lineage).
  • Khó gỡ lỗi hơn.
  • Tăng chi phí vận hành.

Việc đưa các quy trình công việc này vào bên trong pipeline giúp các đội nhóm giữ việc điều phối, khả năng quan sát và quản trị ở một nơi duy nhất.

Pipeline có thể tạm dừng để chờ quyết định từ con người

Một dấu hiệu rõ ràng của sự thay đổi này là nhu cầu ngày càng tăng đối với các quy trình có sự tham gia của con người (human-in-the-loop). Các ví dụ Microsoft ghi nhận từ khách hàng bao gồm:

  • “Tạm dừng pipeline cho đến khi chủ sở hữu dữ liệu phê duyệt bước này.”
  • “Chờ xác nhận trước khi làm mới một model trong môi trường production.”
  • “Thông báo cho đội ngũ kinh doanh và chỉ tiếp tục sau khi có xác nhận.”

Đây không phải là những trường hợp cá biệt—chúng là các mẫu phổ biến trong các môi trường được quản lý chặt chẽ và quan trọng đối với hoạt động kinh doanh. Hỗ trợ điều này trực tiếp trong pipeline cho phép các đội nhóm:

  • Kiểm soát việc thực thi một cách an toàn.
  • Theo dõi trạng thái phê duyệt cùng với các bước kỹ thuật.
  • Tránh các quy trình chuyển giao bên ngoài mong manh.
  • Duy trì khả năng quan sát (observability) đầu cuối.

Thay vì là những dây chuyền lắp ráp hoàn toàn tự động, pipeline trở thành các quy trình công việc cộng tác, kết hợp tự động hóa với trách nhiệm giải trình.

Giới thiệu tính năng Approval activity (Preview)

Để hỗ trợ các kịch bản này một cách tự nhiên, Fabric Data Factory đã giới thiệu một hoạt động Approval (Phê duyệt) đưa các điểm quyết định của con người trực tiếp vào quá trình thực thi pipeline.

Hoạt động Phê duyệt (Approval) với các cài đặt cho yêu cầu phê duyệt qua email Outlook 365.

Các khả năng của pipeline với hoạt động này bao gồm:

  • Tạm dừng thực thi và chờ quyết định phê duyệt hoặc từ chối rõ ràng.
  • Định tuyến thực thi một cách linh hoạt dựa trên kết quả (được phê duyệt, bị từ chối hoặc hết thời gian chờ).
  • Gửi yêu cầu phê duyệt qua các kênh quen thuộc như Outlook hoặc Teams.
  • Cho phép người đánh giá thực hiện hành động trực tiếp từ giao diện giám sát.

Điều này biến đổi pipeline từ việc điều phối kỹ thuật đơn thuần thành các quy trình kinh doanh hoàn chỉnh—nơi việc di chuyển dữ liệu, xác thực và quyết định của con người được mô hình hóa cùng nhau trong một quy trình duy nhất, có thể kiểm toán được. Để tìm hiểu thêm, doanh nghiệp có thể tham khảo tài liệu về Approval activity.

Đơn giản hóa việc thực thi các hành động nghiệp vụ

Một sự tiến hóa quan trọng khác là việc mở rộng đối tượng có thể xây dựng và hiểu các pipeline. Khi pipeline đảm nhận nhiều trách nhiệm kinh doanh hơn, chúng cần phải dễ tiếp cận hơn chứ không chỉ dành cho các chuyên gia về API. Nhiều quy trình công việc liên quan đến việc gọi các hệ thống bên ngoài—đặt hàng, gửi yêu cầu, kích hoạt một hành động vận hành—nhưng việc viết và duy trì các lệnh gọi REST thô có thể phức tạp và dễ gây lỗi.

Microsoft nhận thấy nhu cầu mạnh mẽ đối với các giải pháp trừu tượng hóa low-code giúp:

  • Tập trung vào hành động, không phải endpoint.
  • Tự động hiển thị các tham số cần thiết.
  • Giảm nhu cầu phải hiểu các schema của API.
  • Làm cho các quy trình công việc dễ đọc và bảo trì hơn.

Sự thay đổi này giúp pipeline phục vụ cả người dùng kỹ thuật và người dùng nghiệp vụ, mà không làm mất đi khả năng kiểm soát hay tính minh bạch.

Khả năng quan sát cho các quy trình chạy dài

Khi pipeline phát triển vượt ra ngoài các công việc ETL ngắn hạn, khả năng quan sát (observability) trở nên quan trọng hơn bao giờ hết. Khi một pipeline chạy trong vài phút hoặc vài giờ—hoặc chờ đợi nhiều ngày để được phê duyệt—người dùng cần câu trả lời rõ ràng cho các câu hỏi đơn giản:

  • Trạng thái hiện tại là gì?
  • Điều gì đang cản trở tiến độ?
  • Ai cần phải hành động?
  • Điều gì sẽ xảy ra tiếp theo?

Các chế độ xem tập trung vào log truyền thống là không đủ, đặc biệt đối với các bên liên quan không tập trung vào code hay cơ sở hạ tầng. Trải nghiệm giám sát cần phải làm nổi bật trạng thái của quy trình công việc, chứ không chỉ các chi tiết thực thi.

Tương lai của Pipeline dữ liệu

Sự tiến hóa vượt ra ngoài ETL không phải là để thay thế kỹ thuật dữ liệu—mà là để mở rộng những gì pipeline có thể làm. Pipeline đang trở thành:

  • Công cụ điều phối, không chỉ di chuyển dữ liệu.
  • Cầu nối giữa các hệ thống, đội nhóm và quyết định.
  • Engine quy trình công việc hạng nhất cho các hoạt động dựa trên phân tích.

Trong Microsoft Fabric, sự tiến hóa này đang định hình cách Microsoft suy nghĩ về việc điều phối, các hoạt động và giám sát—để pipeline có thể hỗ trợ toàn bộ vòng đời của các quy trình dữ liệu và kinh doanh hiện đại. Khi khách hàng tiếp tục đẩy pipeline vào các kịch bản mới, một điều rõ ràng là: tương lai của pipeline không chỉ tự động—mà còn mang tính cộng tác, có thể quan sát và kết nối sâu sắc với cách doanh nghiệp vận hành.

👋 Hi! Bạn cần tư vấn gì về dịch vụ Microsoft?