홈페이지 / 기술 업데이트

Microsoft Fabric: Tự động chuyển dữ liệu Excel sang Delta Table không cần code

Ngày 27/5/2026, Microsoft đã công bố một tính năng mới trong Microsoft Fabric giúp giải quyết thách thức lớn cho nhiều doanh nghiệp: tự động hóa việc đưa dữ liệu từ các file Excel vào nền tảng data lakehouse. Tính năng chuyển đổi Excel sang Delta Table (hiện ở bản Preview) trong Shortcut Transformations cho phép các đội ngũ dữ liệu nạp và chuẩn hóa dữ liệu từ Excel mà không cần viết một dòng code nào, giúp đẩy nhanh quá trình phân tích và ra quyết định.

Thách thức cố hữu của dữ liệu Excel

Excel vẫn là ngôn ngữ chung của dữ liệu kinh doanh. Từ báo cáo tài chính, dự báo bán hàng đến danh sách nhân sự, các doanh nghiệp đang lưu trữ hàng tỷ file Excel chứa dữ liệu quan trọng cần được đưa vào các nền tảng phân tích. Tuy nhiên, việc đưa dữ liệu Excel vào lakehouse ở quy mô lớn vốn rất phức tạp do các đặc thù:

  • Cấu trúc đa sheet: Một file Excel có thể chứa hàng chục bảng dữ liệu liên quan (hoặc không liên quan) trên các sheet khác nhau.
  • Schema không nhất quán: Các sheet thường khác nhau về cột, kiểu dữ liệu và layout.
  • Định dạng thủ công: Các dòng tiêu đề, banner, chân trang tóm tắt, ô gộp và các dòng trống xen kẽ là rất phổ biến.
  • Thiếu trình phân tích gốc: Không giống các định dạng như Parquet hay JSON, Excel đòi hỏi các trình đọc chuyên dụng.

Trước đây, điều này đồng nghĩa với việc phải xây dựng và bảo trì các notebook Spark tùy chỉnh, xử lý lặp qua từng sheet một cách thủ công, và duy trì các pipeline ETL phức tạp. Tính năng Shortcut Transformations mới của Microsoft Fabric đã thay đổi điều đó.

Tính năng mới: Excel to Delta với Shortcut Transformations

Với tính năng Excel to Delta trong Shortcut Transformations, doanh nghiệp có thể nạp các file Excel đa sheet vào Delta table mà không cần viết code. Trải nghiệm low-code tương tự như khi xử lý file CSV, Parquet và JSON nay đã được mở rộng cho các file .xlsx.xls.

Các khả năng chính bao gồm:

  • Tự động phát hiện sheet: Shortcut Transformations tự động đọc metadata của file Excel và khám phá tất cả tên sheet.
  • Xử lý đa sheet linh hoạt: Xử lý tất cả các sheet, các sheet cụ thể theo tên, theo chỉ mục, hoặc sử dụng các mẫu ký tự đại diện (ví dụ: Sales_*) để khớp các sheet một cách linh hoạt.
  • Hai chế độ output:
    • Combined Table: Gộp tất cả các sheet vào một Delta table duy nhất, kèm theo các cột metadata để truy vết nguồn gốc.
    • Table per Sheet: Mỗi sheet trở thành một Delta table riêng (ví dụ: sales/January, sales/February). Các sheet cùng tên từ các file khác nhau sẽ tự động được hợp nhất.
  • Tự động suy luận và xử lý schema: Tên cột và kiểu dữ liệu được suy luận từ mỗi sheet. Schema được xác thực chéo giữa các sheet, các điểm không khớp được phát hiện, ghi log và xử lý một cách linh hoạt.
  • Đồng bộ hóa liên tục (Continuous sync): Các file Excel mới hoặc được sửa đổi sẽ được tự động phát hiện. Khi một file trong thư mục nguồn thay đổi, Delta table sẽ được làm mới mà không cần chạy lại thủ công.
  • Xử lý lỗi thông minh: Tự động bỏ qua các thành phần không phải dữ liệu như banner tiêu đề, các dòng metadata, cột và dòng trống để nhận diện chính xác bảng dữ liệu. Chi tiết lỗi được ghi lại cho từng file và từng sheet.
Giao diện nạp dữ liệu từ Excel vào Fabric Lakehouse bằng Shortcut Transformations.

Bắt đầu đơn giản

Để sử dụng tính năng này, người dùng chỉ cần:

  1. Chọn hoặc tạo một Fabric Lakehouse mới.
  2. Chọn “New Table Shortcut” hoặc “New Schema Shortcut” và chọn nguồn dữ liệu (Azure Data Lake, Amazon S3, SharePoint, OneDrive, v.v.).
  3. Chọn thư mục chứa các file Excel, xác minh các chuyển đổi trong trình hướng dẫn và lưu Shortcut.
  4. Theo dõi quá trình làm mới trong trung tâm quản lý và xem log chi tiết trong monitoring view.

Ứng dụng thực tiễn cho các phòng ban

Tính năng này mang lại tác động trực tiếp đến hiệu suất của nhiều bộ phận trong doanh nghiệp.

Phân tích tài chính

Một đội tài chính toàn cầu hợp nhất báo cáo lãi lỗ hàng tháng từ 12 văn phòng khu vực. Mỗi văn phòng gửi một file Excel với các sheet được đặt tên theo tháng. Với Shortcut Transformations, chuyên viên phân tích chỉ cần thiết lập một shortcut duy nhất với chế độ Combined Table. Toàn bộ dữ liệu sẽ tự động chảy vào một Delta table chung, giúp các dashboard luôn được cập nhật khi có file mới.

Vận hành nhân sự

Đội ngũ nhân sự quản lý dữ liệu tuyển dụng qua nhiều mẫu Excel khác nhau. Mỗi mẫu có một sheet “New Hires” và nhiều sheet tham chiếu khác. Bằng cách lọc theo tên sheet (sheet_names = "New Hires"), chỉ dữ liệu liên quan được nạp vào, các sheet tham chiếu và hướng dẫn sẽ tự động được bỏ qua.

Kỹ sư dữ liệu chuỗi cung ứng

Một công ty sản xuất nhận ảnh chụp nhanh hàng tồn kho hàng ngày dưới dạng file Excel đa sheet từ 50 kho hàng. Mỗi file có các sheet cho “Nguyên vật liệu thô”, “Thành phẩm”, và “Bán thành phẩm”. Sử dụng chế độ Table per Sheet, ba Delta table riêng biệt được tạo tự động, hợp nhất dữ liệu từ tất cả 50 kho.

Phân tích bán lẻ

Một chuỗi bán lẻ nhận dữ liệu bán hàng hàng tuần từ các đối tác nhượng quyền. Các đối tác sử dụng tên sheet khác nhau (“Weekly Sales”, “SalesData”). Bằng cách sử dụng mẫu ký tự đại diện (sheet_names = "*Sales*"), tất cả các biến thể đều được thu thập tự động mà không cần duy trì một danh sách tường minh.

Với tính năng chuyển đổi Excel sang Delta, các đội ngũ có thể chuyển từ quy trình nạp dữ liệu thủ công sang các data pipeline low-code có khả năng mở rộng, đưa các luồng công việc quen thuộc với Excel vào một lakehouse hiện đại mà không làm tăng thêm độ phức tạp.

👋 Hi! Bạn cần tư vấn gì về dịch vụ Microsoft?