• Thứ Hai, 31/10/2005 15:21 (GMT+7)

    Metadata - Siêu dữ liệu

    Định nghĩa: Metadata - siêu dữ liệu (SDL) - là thông tin mô tả nội dung của cơ sở dữ liệu (CSDL). Metadata báo cho người dùng biết thời gian cập nhật sau cùng của dữ liệu, định dạng và mục đích sử dụng của nó. Những thông tin này có thể hướng dẫn người dùng duyệt qua CSDL và giúp họ hiểu được ý nghĩa và ngữ cảnh của dữ liệu tài chính, các bản ghi về khách hàng và các giao dịch kinh doanh.

    Nếu hỏi các chuyên gia về SDL, chắc chắn bạn sẽ được bảo rằng nó cũng giống như thẻ thư mục sách của thư viện, tuy SDL chẳng có liên quan gì đến sách. Đó là loại dữ liệu về dữ liệu của công ty bạn được lưu trong các hệ thống giao dịch và kho chứa dữ liệu.

    Siêu dữ liệu là "bể chứa" thông tin về dữ liệu, từ những chi tiết kỹ thuật như kích thước cơ bản của CSDL cho đến danh mục nghiệp vụ của những loại dữ liệu khác nhau. Những mô tả này hướng dẫn người dùng cuối tìm đúng loại dữ liệu nghiệp vụ, sau đó giúp họ hiểu được ý nghĩa của dữ liệu và cách thức để cập nhật chúng.

    Đây không phải là khái niệm mới. Từ lâu, các lập trình viên phần mềm đã phải cất giữ các kho SDL về mã chương trình mà họ phát triển và các CSDL catalog được thiết kế sẵn về chi tiết căn bản của những bảng dữ liệu do người điều hành hệ thống thiết lập.

    Tuy nhiên, sự phát triển mạnh mẽ của công nghệ kho chứa dữ liệu đã đẩy mạnh sự phát triển của siêu dữ liệu. Một tập hợp siêu dữ liệu tốt sẽ tạo khả năng ra quyết định nhanh chóng hơn và hiệu quả hơn vì người dùng không phải tìm kiếm dữ liệu cần thiết một cách thủ công.

    Tuy nhiên, bản thân dữ liệu nghiệp vụ là "vô dụng" vì nếu bạn đưa cho ai đó một con số riêng lẻ về lợi nhuận ròng chẳng hạn thì đối với người đó nó không có ý nghĩa gì lắm mà cần có ngữ cảnh tương ứng với con số này.

    Những công cụ truy vấn và phát sinh báo cáo có thể truy cập trực tiếp vào kho chứa SDL và đưa ra cho người dùng cuối một danh sách các trường trong CSDL để họ có thể chọn lựa, giúp cho họ không phải lướt qua rất nhiều định nghĩa dữ liệu một cách thủ công.

    Tuy nó có vẻ đơn giản đối với người dùng nhưng lại không dễ dàng chút nào đối với những người chịu trách nhiệm về dữ liệu này.

    Việc tạo SDL thường là công việc thủ công mà bộ phận công nghệ thông tin phải làm. Những công cụ tự động thường có khả năng hạn chế và thiếu các tính năng quan trọng như kiểm tra tính hợp lệ. Đa số các công ty phải xây dựng hầu hết tập hợp SDL của họ bằng tay.

    Việc bảo trì SDL cũng không phải là chuyện dễ dàng. Những thay đổi trong hệ thống nghiệp vụ gây nên thay đổi trong dữ liệu giao dịch mà chúng tạo ra, nghĩa là SDL cũng phải được điều chỉnh tương ứng.

    Một trong những vấn đề mà hầu hết các công ty đều gặp phải là họ hết sức hăng hái lúc ban đầu, nhưng sau đó lại không lưu ý cập nhật SDL; điều đó làm cho nó không còn đúng.

    Một vấn đề khác là thiếu các tiêu chuẩn để trao đổi SDL giữa những hệ thống khác nhau. Hầu hết các nhà sản xuất kho chứa dữ liệu và các nhà phát triển công cụ chuyển dữ liệu từ các hệ thống giao dịch sang CSDL có hỗ trợ khả năng ra quyết định hiện đang dùng những định dạng SDL riêng biệt.

    Hiện có hai nhóm lớn đang tiến hành những đề xuất về chuẩn cho SDL. Một xuất phát từ Microsoft và được sự hậu thuẫn của Liên Minh Meta Data Coalition, một nhóm lớn gồm 50 nhà sản xuất và người dùng. Đặc tả cạnh tranh do IBM, Oracle, Unisys và những nhà sản xuất khác đề xuất.

    Cả hai đề xuất này đều dựa trên công nghệ ngôn ngữ đánh dấu mở rộng XML (Extensible Markup Language) để trao đổi dữ liệu. Các nhà sản xuất phần mềm độc lập cũng đang thực hiện những mở rộng SDL cho XML. Một số nhà sản xuất hỗ trợ cho cả đề xuất của Meta Data Coalition và IBM/Oracle.

    Tuy nhiên, giới phân tích cho biết hiện thời toàn bộ quá trình chuẩn hoá SDL vẫn đang trong quá trình thực hiện.

    SIÊU DỮ LIỆU KHI LÀM VIỆC

    Craig Bell, giám đốc quản lý tài nguyên SDL của Bank of America, lãnh đạo một nhóm chuyên bảo trì SDL cho kho chứa dữ liệu chạy trên máy tính lớn của công ty Charlotte đã có cuộc trò chuyện với tạp chí Computerworld.

    SDL có vai trò như thế nào tại Bank of America?

    Khi người dùng xem xét báo cáo, SDL giúp họ hiểu được ý nghĩa thực sự của mỗi loại dữ liệu. Theo quan điểm của người lập trình, nó lưu giữ mọi thông tin kỹ thuật về dữ liệu. Trong trường hợp các trường dữ liệu có thay đổi, họ sẽ sử dụng SDL để biết được những gì sẽ bị ảnh hưởng.

    Mức độ khó khăn để tạo ra SDL?

    Điều đó còn tuỳ thuộc vào loại SDL mà chúng ta muốn tập hợp. Một số trong đó sẽ được tạo tự động và một số phải được làm bằng tay.

    Độ lớn của công việc bảo trì thông tin?

    Một nhóm gồm 6 người. Chúng tôi không phải là những nhà quản trị CSDL và cũng không phải là các lập trình viên. Chúng tôi là những nhà quản lý chuyên về SDL. Mỗi dự án liên quan đến việc đưa thêm dữ liệu vào hay lấy dữ liệu ra khỏi kho chứa dữ liệu, chúng tôi đều phải phân tích tác động của chúng và sau đó làm việc với các lập trình viên để thực hiện những thay đổi kỹ thuật.

    Thách thức lớn nhất đối với nhóm?

    Mục đích của chúng tôi là làm cho những gì có trong kho chứa dữ liệu chỉ là duy nhất, mọi người làm việc bên ngoài tập dữ liệu dùng chung. Chúng tôi dành phần lớn thời gian để bảo đảm thông tin thực sự mới và không để trùng lắp dữ liệu dưới bất cứ hình thức nào.

    Computerworld 18/10/1999

    ID: A0103_57