Kho lưu trữ AI-ready: Chuẩn bị dữ liệu cho Kỷ nguyên AI

Trong bối cảnh Trí tuệ nhân tạo (AI) ngày càng được nhắc đến trong lĩnh vực lưu trữ, câu hỏi đặt ra không còn là “có nên dùng AI hay không?” mà là “chuẩn bị dữ liệu lưu trữ như thế nào để AI không làm tổn hại đến các nguyên tắc nền tảng của ngành lưu trữ?”
Tháng 2 năm 2026, Prof. Giovanni Colavizza và Prof. Lise Jaillant đã công bố tài liệu AI Preparedness Guidelines for Archivists, do Archives & Records Association (UK & Ireland) phát hành dưới giấy phép CC BY. Trong tài liệu này, các tác giả nhấn mạnh một điểm cốt lõi: AI chỉ thực sự hữu ích khi kho tư liệu được chuẩn bị kỹ lưỡng về dữ liệu, metadata, cấu trúc và cơ chế đánh giá.
Dưới đây là những nội dung chính trong bộ hướng dẫn mà cộng đồng lưu trữ tại Việt Nam có thể quan tâm.
Tài liệu phân biệt hai nhóm mô hình AI chính thường được áp dụng trong lưu trữ:
1. Task-specific AI
Đây là các mô hình được huấn luyện để thực hiện một tác vụ cụ thể, chẳng hạn như:
2. Generative AI
Đây là các mô hình sinh ngôn ngữ, có khả năng:
Một phương pháp quan trọng được nhấn mạnh là RAG (Retrieval-Augmented Generation). Theo đó, hệ thống AI trước tiên truy xuất dữ liệu từ kho tư liệu đã được chuẩn bị tốt, sau đó mới sinh nội dung dựa trên phần dữ liệu đã truy xuất. Cách tiếp cận này giúp giảm thiểu hiện tượng “hallucination” (AI tạo ra thông tin không có trong nguồn) và tăng độ chính xác của kết quả.
1. Tính đầy đủ và dữ liệu bị loại bỏ
Không nhất thiết phải số hóa 100% tư liệu mới có thể ứng dụng AI. Tuy nhiên, cần:
Điều này đặc biệt quan trọng đối với Generative AI, bởi AI chỉ có thể phản ánh những gì hiện diện trong dữ liệu.
2. Metadata và quyền truy cập
AI không thể hoạt động hiệu quả nếu metadata thiếu sót hoặc rời rạc.
Cần đảm bảo:
Đặc biệt, tài liệu nhấn mạnh vai trò của metadata dạng tường thuật (narrative metadata) như ghi chú giám tuyển, bối cảnh lịch sử, phân tích phê bình. Những yếu tố này giúp AI hiểu được chiều sâu văn hóa, bối cảnh quyền lực và các lớp nghĩa trong tư liệu.
3. Định dạng và cấu trúc dữ liệu
Việc chuẩn bị dữ liệu cho AI không đồng nghĩa với việc “làm sạch” theo cách phá vỡ cấu trúc lưu trữ gốc.
Cần lưu ý:
Điều này đặc biệt quan trọng trong các hệ thống sử dụng IIIF, OCR, hoặc cơ sở dữ liệu kết hợp vector search.
4. Đánh giá theo mục tiêu cụ thể
Mỗi ứng dụng AI cần có bộ chỉ số (metric) riêng, thay vì sử dụng các tiêu chí chung chung. Ví dụ:
Việc xác định rõ cách đánh giá từ đầu giúp đảm bảo AI mang lại giá trị thực tiễn thay vì chỉ là thử nghiệm công nghệ.
Trước khi bắt đầu một dự án AI, cần có câu trả lời “có” cho phần lớn các câu hỏi sau:
Điều quan trọng nhất không phải là triển khai thêm công cụ mới, mà là đầu tư vào sự sẵn sàng của dữ liệu cho AI (AI data preparedness).