Digitizing Việt Nam: Những định hướng mới trong Nhân văn số và Trí tuệ nhân tạo

Viện Đông Á Weatherhead · 28 tháng 4, 2026
Digitizing Việt Nam: Những định hướng mới trong Nhân văn số và Trí tuệ nhân tạo

Vào ngày 18 tháng 4 năm 2026, các học giả, thủ thư, chuyên gia công nghệ và sinh viên đã tụ họp tại Thư viện Butler trong một hội thảo kéo dài cả ngày nhằm khám phá cách mà nhân văn số (DH) và trí tuệ nhân tạo (AI) đang tái định hình lĩnh vực Nghiên cứu Việt Nam. Không chỉ dừng lại ở việc giới thiệu các công cụ, hội thảo đã trở thành một quá trình truy vấn sâu sắc về một câu hỏi cốt lõi: điều gì xảy ra với một lĩnh vực được xây dựng trên ngôn ngữ, lịch sử và diễn giải, khi các hệ thống tính toán ngày càng đóng vai trò trung gian đối với tư liệu của nó?

 

Digitizing Vietnam và Khái niệm "Mạng lưới Indra"

 

Ngay từ đầu, cuộc thảo luận không chỉ xoay quanh công nghệ mà còn xoay quanh các mối quan hệ.

 

DSC06372 (2).JPG

GS. John Phan chia sẻ về một khái niệm tổng kết tầm nhìn chiến lược cho Digitizing Việt Nam đến từ triết học Phật giáo, với tên gọi là "Mạng lưới Indra".

 

GS. John Phan đã đưa ra một lăng kính khái niệm vang vọng xuyên suốt cả ngày, khi ông mô tả hệ sinh thái các bộ sưu tập số đang hình thành giống như “Mạng lưới Indra”: một cấu trúc trong đó mỗi nút phản chiếu tất cả các nút khác, và ý nghĩa nảy sinh thông qua sự kết nối. Vấn đề, như ông nhấn mạnh, không chỉ là truy cập, mà là việc các tư liệu, dù đã được số hóa, vẫn chưa thực sự “trò chuyện với nhau.” Điều cần thiết không chỉ là tập hợp, mà là một hạ tầng mang tính quan hệ.

 

Chính trong khuôn khổ này, Digitizing Việt Nam được giới thiệu không chỉ như một nền tảng, mà như một mạng lưới được xây dựng thông qua hợp tác.

 

vu minh hoang.jpg

TS. Vũ Minh Hoàng chia sẻ về hợp tác giữa Columbia và Fulbright trong dự án.

 

Trong phần phát biểu khai mạc, TS. Vũ Minh Hoàng nhấn mạnh rằng dự án được duy trì một cách căn bản thông qua các quan hệ đối tác giữa các tổ chức, cơ quan và cá nhân hoạt động ở nhiều cấp độ khác nhau của công tác bảo tồn và nghiên cứu. Các đối tác này bao gồm các cơ quan tại Việt Nam như Viện Hán Nôm và Đại học Khoa học Tự nhiên (Đại học Quốc gia TP.HCM), cũng như các đối tác quốc tế như Thư viện Số Đông Nam Á (SEADL), Thư viện Số Vatican và Đại học Washington. Bên cạnh đó, ông cũng nhấn mạnh vai trò của các học giả, lưu trữ viên và cá nhân đóng góp, những người giúp số hóa, diễn giải và chia sẻ các bộ sưu tập. Tất cả những mối quan hệ này hợp thành nền tảng hạ tầng của dự án, vượt ra ngoài bất kỳ một tổ chức đơn lẻ nào.

 

Phiên buổi sáng tiếp tục triển khai nền tảng Digitizing Việt Nam qua bốn chiều liên kết chặt chẽ: đó là bộ sưu tập, nghiên cứu, giảng dạy và kết nối. Đây không phải là bốn mảng tách biệt, mà là một hệ thống gắn kết. Các bộ sưu tập neo giữ công việc trong các kho dữ liệu số hóa quy mô lớn, đó là văn bản Hán-Nôm, báo chí, và lưu trữ đa phương tiện. Giảng dạy và lan tỏa đưa các tư liệu này vào lớp học và công chúng. Nghiên cứu bao gồm các công cụ số từ OCR, hệ thống tìm kiếm đến các giao diện AI thử nghiệm, đóng vai trò trung gian, tạo ra các hình thức tương tác mới.

 

Tuy nhiên, có một điểm nhấn quan trọng đã được nhắc đến trong cuộc thảo luận buổi sáng, đó là số hóa không đơn thuần là trích xuất.

 

Nguyen Phuong Tram.jpg

TS. Nguyễn Phương Trâm giải thích về nguyên tắc và sứ mệnh vị cộng đồng của dự án.

 

Như TS. Nguyễn Phương Trâm nhấn mạnh, dự án không chỉ nhằm bảo tồn di sản văn hóa, mà còn “đưa kho lưu trữ sống lại.” Điều này có nghĩa là biến các tư liệu tĩnh thành những không gian tương tác, nơi văn bản lịch sử bước vào đối thoại với người dùng đương đại, lớp học và các thực hành sáng tạo.

 

Van Le.jpg

Lê Nguyễn Tường Vân kể chuyện về hành trình đi từ trích xuất dữ liệu đến tạo sinh dữ liệu và xây dựng trải nghiệm cho cộng đồng.

 

Lê Nguyễn Tường Vân phát triển ý tưởng này bằng cách tái định nghĩa hoạt động lan tỏa như một không gian của “tái sinh” (regeneration). Nếu Bộ sưu tập là nơi dữ liệu được tập hợp và xác thực, thì Kết nối là nơi dữ liệu được chuyển hóa, được tái cấu trúc thành câu chuyện, kết hợp lại thành những hình thức mới và tạo ra ý nghĩa. Trải nghiệm con người, trong cách nhìn này, không chỉ được cấu trúc bởi dữ liệu, mà bởi tự sự và thi ca. Vì vậy, AI không phải là điểm kết thúc của diễn giải, mà là một công cụ mở ra những con đường diễn giải mới.

 

Screenshot 2026-04-28 at 15.47.22.png

Lê Hoàng Phúc giới thiệu tầm nhìn về một AI ngoại giao và hạ tầng liên lạc giữa các AI chuyên biệt.

 

Phần trình bày của Lê Hoàng Phúc tiếp tục mở rộng lập luận: nếu dữ liệu có thể được tái sinh trong một hệ thống, thì điều gì xảy ra khi chính các hệ thống bắt đầu “trò chuyện” với nhau? Ý tưởng về một “AI ngoại giao” được đưa ra như một mạng lưới các hệ thống AI chuyên biệt, có khả năng truy vấn và hợp tác liên thông, cho phép nghiên cứu vượt qua các ranh giới về lĩnh vực và địa lý.

 

albert errickson.jpg

Albert Errickson giới thiệu các dự án code cá nhân phục vụ cho mục đích học tập và nghiên cứu, trong đó có ứng dụng Nôm Flow giúp người dùng tự học chữ Nôm.

 

Albert Errickson đã trình bày cách AI đang tái định hình “sân chơi” cho các học giả nhân văn. Anh giới thiệu một số dự án mà mình phát triển với sự hỗ trợ của AI, trong đó có Hán Nôm Research Hubs—nơi tích hợp nhiều bộ sưu tập Hán Nôm cùng các công cụ làm việc trực tiếp với văn bản như OCR và so sánh tài liệu. Anh cũng thu hút sự quan tâm của khán giả với ứng dụng Nôm Flow (nomflow.app), một công cụ học chữ Nôm sử dụng phương pháp lặp lại ngắt quãng (spaced repetition), giúp người học tiếp cận các tác phẩm Nôm kinh điển trong bối cảnh từng dòng, đồng thời hiển thị thứ tự nét cho mỗi chữ.

 

Giới hạn và những "căng thẳng": Dữ liệu, Thiên kiến, và Diễn giải

 

Các thảo luận buổi chiều làm rõ hơn sự “căng thẳng” giữa quy mô và ý nghĩa. Phân tích dữ liệu lớn mở ra những khả năng nhận diện mẫu mới, nhưng đồng thời cũng bị phụ thuộc vào dữ liệu không đầy đủ và bối cảnh ngôn ngữ phức tạp. GS. Cindy Nguyen nhấn mạnh rằng không gian truy vấn của con người, mang tính đối thoại, chậm rãi và gắn với bối cảnh, vẫn giữ vai trò trung tâm.

 

cindy nguyen.jpgGS. Cindy Nguyen nhấn mạnh rằng không gian truy vấn của con người, mang tính đối thoại, chậm rãi và gắn với bối cảnh, vẫn giữ vai trò trung tâm.

 

Screenshot 2026-04-28 at 16.27.14.png

Ở cấp độ hạ tầng, các diễn giả chỉ ra rằng AI chỉ mạnh ở dữ liệu mà nó dựa vào. Emily Zinger đề cập đến khái niệm “đa dạng dữ liệu gốc,” cho thấy sự thiếu vắng của tư liệu Đông Nam Á trong nhiều mô hình hiện nay. 

 

Screenshot 2026-04-28 at 16.26.10.png

TS. Judith Henchy đặt số hóa trong một lịch sử dài của các công nghệ bảo tồn, nhấn mạnh rằng “số hóa không phải là giải pháp, mà là một phần của vấn đề,” qua đó kêu gọi một cách tiếp cận phê phán hơn.

 

shimizu .jpg

Trong bối cảnh chữ Nôm, GS. Shimizu Masaaki chỉ ra rằng dù OCR còn hạn chế, số hóa vẫn mở ra những phương pháp giảng dạy mới, nơi sinh viên có thể trực tiếp phân tích cấu trúc văn bản và nhận diện mẫu. AI, trong trường hợp này, đóng vai trò hỗ trợ hơn là thay thế chuyên môn.

 

Các thảo luận cuối cùng quay trở lại những câu hỏi nền tảng: tri thức có ý nghĩa là gì trong một môi trường do AI trung gian? Làm thế nào cân bằng giữa quy mô và chiều sâu diễn giải? Và những hình thức hợp tác nào sẽ định hình tương lai của lĩnh vực?

 

peter bol.jpg

Như GS. Peter Bol nhận định, ý nghĩa của AI có thể nằm ở một sự chuyển dịch tinh tế nhưng quan trọng. Nếu như trước đây, nhân văn số nhấn mạnh vào việc định lượng, thì AI lại đưa lĩnh vực này trở về với ngôn ngữ—với diễn giải, tính mơ hồ và đối thoại.

 

Theo nghĩa đó, Digitizing Việt Nam vừa là một nền tảng, vừa là một đề xuất: đó là, các kho lưu trữ có thể trở thành những không gian tương tác năng động, nơi dữ liệu không phải là điểm kết thúc của tri thức, mà là điểm khởi đầu cho những hình thức hiểu biết mới.