Transformers là mạng nơ-ron đồ thị
Ngày đăng: 11/07/2025 09:29
Hôm nay: 0
Hôm qua: 0
Trong tuần: 0
Tất cả: 0
Ngày đăng: 11/07/2025 09:29
Hiểu rằng Transformer thực chất là một dạng đặc biệt của GNN có thể phá vỡ ranh giới giữa các mô hình AI, mở đường cho những hệ thống linh hoạt hơn. Phát hiện này được kỳ vọng sẽ định hình lại tư duy nghiên cứu, tạo tiền đề cho những đột phá AI trong tương lai.
![]() |
Các nút trong một mạng lưới truyền tin của AI. Ảnh minh họa: Shutterstock |
Từ đọc lần lượt đến cơ chế chú ý
Để hiểu được tầm quan trọng của phát hiện này, ta phải nhìn lại quá trình phát triển của trí tuệ nhân tạo (AI). Công nghệ AI đã trải qua vài mùa đông khắc nghiệt. Mùa đông đầu tiên là từ 1974-1980, khi khái niệm AI bắt đầu hình thành nhưng chẳng bao lâu sau, niềm tin về nó sụp đổ vì máy tính khi đó quá yếu, các công cụ dịch tự động và xử lý ngôn ngữ kém hiệu quả, ngân sách nghiên cứu bị cắt mạnh. Mùa đông thứ hai diễn ra vào khoảng 1987–1993, khi các mô hình thuật toán dạng hệ chuyên gia - niềm hy vọng lớn của AI - bộc lộ nhiều hạn chế, trở nên đắt đỏ, và khó duy trì. Các công ty và chính phủ dần rút vốn khỏi lĩnh vực này.
Khủng hoảng niềm tin kéo dài suốt giai đoạn 2001-2010, có nơi gọi đó là mùa đông AI thứ ba. Lúc này, học máy dù đã tốt hơn nhưng chưa có đủ dữ liệu và sức mạnh tính toán, giới đầu tư chuyển hướng sang internet và dotcom. Với xã hội nói chung, thật ra cũng chẳng ai quan tâm nhiều đến AI. Họ nhìn AI như một thứ gì trên trời, chẳng có giá trị thực tiễn nào cả.
Tất cả đều ảm đạm cho đến khi có đột phá xảy ra. Mùa xuân AI thực sự khởi sắc với giới nghiên cứu từ năm 2012, khi có những hướng nghiên cứu mới đầy hứa hẹn, kinh phí đổ vào mạnh mẽ, tạo đà cho hàng loạt dự án và công trình nghiên cứu nối tiếp ra đời, liên tục mang đến các phát hiện quan trọng.
Và cuối cùng thì mùa xuân này đã lan sang cả xã hội. Đó là lúc ChatGPT ra mắt phiên bản GPT3.5 vào năm 2022 - một phiên bản AI có thể giao tiếp tự nhiên như con người, đem đến chất lượng trải nghiệm tuyệt vời và xóa tan mọi nghi ngờ về ứng dụng AI trong cuộc sống.
Tuy nhiên phần lõi tạo nên sức mạnh của ChatGPT lại nằm ở kiến trúc Trasnformer, được phát minh bởi các nhà nghiên cứu làm việc tại Google từ 2017. Trước năm 2017, nếu muốn dạy AI hiểu ngôn ngữ, ta phải dùng những mô hình như Mạng nơ-ron hồi quy (RNN) hoặc Mạng bộ nhớ dài-ngắn (LSTM). Chúng hoạt động theo cách “đọc từng từ một” từ trái sang phải, kiểu như ta đọc báo mà chỉ được nhìn mỗi lần một từ. Mô hình dạng này có khuyết điểm là chậm và dễ “quên” thông tin khi đi đến cuối câu. Hơn nữa, nó không xử lý tốt các mối quan hệ xa trong câu.
Cuộc cách mạng đến vào tháng 6/2017, khi một nhóm các nhà nghiên cứu của Google công bố bài báo mang tên Attention is All You Need (Tạm dịch: Tất cả những gì cần là Cơ chế chú ý). Và đúng như tiêu đề, họ tuyên bố bạn không cần cấu trúc RNN, không cần LSTM, chỉ cần cơ chế chú ý (attention) là đủ! Các nhà nghiên cứu giới thiệu một kiến trúc hoàn toàn mới với tên gọi Transformer.
Transformer giúp mô hình hiểu được ngữ cảnh toàn cục trong một chuỗi dữ liệu như câu chữ, đoạn văn, hoặc cả mã lập trình. Nó không đọc từng từ theo thứ tự, mà so sánh một từ với mọi từ khác trong cùng chuỗi để hiểu ai liên quan đến ai.
Vậy cơ chế chú ý của Transformer là gì? Tưởng tượng khi bạn đọc một câu như: “Teddy ăn phở vì anh ấy đói.” Để hiểu “anh ấy” là ai, AI cần phải nhớ về cụm từ “Teddy” ở đầu câu. Cơ chế chú ý chính là điều giúp AI làm được điều đó: Nó cho phép mỗi từ chú ý tới các từ khác trong câu, thay vì chỉ nhìn từ ngay trước đó.
Sức mạnh của mô hình Transformer nằm ở nhiều khía cạnh. Thứ nhất, nó cho phép xử lý song song toàn bộ câu cùng lúc, thay vì đọc từng từ. Thứ hai, nó cũng hiểu được quan hệ xa: ngay khi đọc từ đầu câu, nó đã có thể kết nối trực tiếp với từ cuối câu. Ngoài ra, mạng Transformer cũng dễ mở rộng, có thể dùng cho nhiều dạng đầu vào dữ liệu khác nhau.
Từ năm 2018 đến nay, mọi mô hình AI ngôn ngữ lớn đều sử dụng mô hình Transformer. Có thể kể đến một vài cái tên nổi bật như GPT, BERT, T5, ViT (cho hình ảnh), AlphaFold (dự đoán protein), Codex, Gemini.v.v Hệ quả là Transformer trở thành kiến trúc trung tâm của trí tuệ nhân tạo hiện đại. Nó đưa AI từ mức “hiểu theo từ khoá” sang “hiểu ngữ cảnh như con người”. Mạng Transformer đặt nền móng cho khái niệm mô hình nền tảng, tức các mô hình học một lần và có thể dễ dàng chuyển sang dùng cho những thứ khác.
Transformers: Một dạng đặc biệt của GNN
Có một nghịch lý thú vị là dù Transformer rất hiệu quả, người ta từng không hiểu rõ vì sao nó hoạt động tốt đến vậy. Họ coi nó như một hộp đen đầy bí ẩn. Nhưng đến hôm nay, chúng ta bắt đầu hiểu được cơ chế của mô hình này, chính nhờ vào bài báo Transformers are Graph Neural Networks (Tạm dịch: Transformers là Mạng nơ-ron đồ thị) do nghiên cứu sinh tiến sĩ Chaitanya K. Joshi thực hiện. Bài báo mới được đăng tải trên Arxiv hồi tháng 6/2025, nhưng các ý tưởng manh nha đã được Joshi viết trên nhiều blog từ năm 2020.
Để hình dung Graph Neural Networks (GNN), có thể xem nó là một kiểu mô hình “học theo cách con người giao tiếp”. Hãy tưởng tượng bạn là một nút trong mạng xã hội. Bạn kết nối với bạn bè, họ lại kết nối với người khác. Mỗi mối quan hệ là một liên kết. GNN mô phỏng cách những điểm kết nối này ảnh hưởng lẫn nhau. Mỗi nút dữ liệu trên mạng GNN có thể “trò chuyện” với các nút hàng xóm, trao đổi thông tin với nhau. Qua nhiều vòng, cả mạng GNN cùng trở nên “hiểu biết hơn”, giống như con người học hỏi từ cộng đồng. Những nút càng tương tác nhiều với nhau sẽ càng ảnh hưởng đến nhau, và GNN mô phỏng tất cả điều đó. Nói đơn giản, AI cũng học bằng cách “buôn chuyện” qua mạng lưới.
Và khi xem xét đánh giá, các nhà nghiên cứu như Chaitanya K. Joshi nhận ra rằng Transformer cũng hoạt động giống hệt như vậy. Cơ chế tự chú ý (self-attention), yếu tố cốt lõi tạo nên sức mạnh của Transformer, thực chất cũng hoạt động y như cách các nút trong đồ thị GNN trao đổi thông tin với nhau.
Khác biệt duy nhất là trong mạng GNN, mỗi nút chỉ giao tiếp với nút hàng xóm, còn trong mạng Transformer, mọi nút đều giao tiếp với tất cả những nút còn lại. Điều này biến Transformer thành một “mạng xã hội siêu kết nối”, nơi mọi phần tử đều có thể tác động đến nhau.
Tóm lại, hiểu rằng Transformer thực chất là một dạng đặc biệt của GNN sẽ giúp các nhà nghiên cứu phá vỡ ranh giới giữa các mô hình AI – hướng đến kiến trúc thống nhất có khả năng xử lý mọi loại dữ liệu và giúp thiết kế mô hình hiệu quả hơn, kết hợp linh hoạt giữa biểu diễn toàn cục và cấu trúc địa cục bộ.
Bài báo của Joshi chỉ ra một tương đồng quan trọng: Transformer thực chất là GNN đang hoạt động trên một đồ thị đầy đủ (fully connected graph), trong đó mọi token trong chuỗi đầu vào đều được kết nối với mọi token khác thông qua cơ chế tự chú ý (self-attention). Khác biệt duy nhất giữa Transformer và GNN truyền thống là phạm vi truyền tin (message passing):
Điều này biến Transformer thành một “mạng xã hội siêu kết nối”, nơi mọi phần tử đều có thể ảnh hưởng lẫn nhau, dẫn đến khả năng học biểu diễn rất mạnh mẽ. |
Tại sao trước đây GNN không chiếm ưu thế?
Mặc dù ra đời trước nhưng GNN lại không quá phổ biến. Tuy GNN có khả năng biểu diễn tốt các quan hệ, nhưng việc xử lý các liên kết rời rạc khiến chúng khó tối ưu hoá trên phần cứng hiện đại.
Ngược lại, Transformer sử dụng các phép toán ma trận dày đặc – rất phù hợp với GPU/TPU hiện nay. Điều này tạo ra hiện tượng gọi là “trúng số phần cứng”, ám chỉ một mô hình thắng thế không nhất thiết bởi vì nó tốt nhất về lý thuyết, mà vì nó phù hợp với phần cứng đang phổ biến mạnh mẽ vào thời điểm đó, dẫn đến việc nó trở nên dễ huấn luyện, mở rộng và triển khai hơn.
Thực tế, cơ chế tự chú ý của mạng Transformer cũng không phải là không có hạn chế. Với độ phức tạp O(n²), cơ chế này sẽ so sánh mọi cặp từ trong câu với nhau. Nếu câu có n từ, thì nó cần tính toán khoảng n × n phép so sánh. Tức là khi chuỗi đầu vào của dữ liệu càng dài thì chi phí tài nguyên và năng lượng để chạy Transformer càng tăng nhanh. Chẳng hạn, nếu ta gấp ba lần độ dài câu thì khối lượng tính toán sẽ tăng gấp chín lần. Do vậy, AI sẽ trở nên cực kỳ tốn kém so với các công cụ cùng tính năng trong những trường hợp xử lý tác vụ đơn giản (ví dụ như tìm kiếm).
Ngoài ra, Transformer cũng không sở hữu trí nhớ thực sự, vì nó dựa vào cơ chế tái tạo thay vì truy xuất dữ liệu nên kết quả tạo ra thường thiếu tính nhất quán. Rõ ràng, thế giới cần một loại kiến trúc khác nhanh hơn, rẻ hơn, chính xác hơn. Dù vây kiến trúc hiện tại của Transformer và GNN là những gì tốt nhất mà chúng ta đang có để xây dựng những mô hình AI hiệu quả.
Hợp nhất hai thế giới: Kỷ nguyên của Graph Transformer
Từ mối liên hệ trên, các nhà nghiên cứu đang phát triển một nhánh kiến trúc mới: Graph Transformer – kết hợp giữa khả năng truyền thông tin toàn cục của Transformer và khả năng mô hình hóa cấu trúc đồ thị của GNN.
Các ứng dụng tiềm năng bao gồm:
Trong khi GNN giỏi ở chỗ hiểu và khai thác các mối liên kết giữa các nút trong mạng thì Transformer lại giỏi ở việc phát hiện ra các mẫu (pattern) tiềm ẩn trong dữ liệu lớn nhờ cơ chế tự chú ý. Khi hòa trộn hai thế mạnh này, các nhà nghiên cứu sẽ có một công cụ mạnh cho những bài toán cần cả việc hiểu cấu trúc lẫn phát hiện quy luật ẩn sâu trong dữ liệu.
Bài đăng KH&PT số 1351 (số 27/2025)
Khoahocphattrien