Trong kỷ nguyên Generative AI, phần lớn sự chú ý đổ dồn vào mô hình: Transformer, Attention, LLM, fine-tuning. Nhưng có một sự thật ít được nhắc tới: Không có High Performance Computing (HPC), sẽ không có LLM quy mô lớn.
Một mô hình như GPT không chỉ là bài toán thuật toán. Nó là bài toán của hạ tầng tính toán hiệu năng cao, của cụm GPU, của kiến trúc HPC được tối ưu cho tính toán song song. Để hiểu vì sao LLM cần HPC, chúng ta phải bắt đầu từ nền tảng: sự khác biệt giữa CPU và GPU.
CPU vs GPU: Hai triết lý kiến trúc khác nhau
Trong mọi hệ thống High Performance Computing, việc hiểu rõ sự khác biệt giữa CPU và GPU là điều bắt buộc. Không phải vì một trong hai tốt hơn, mà vì chúng được thiết kế theo hai triết lý kiến trúc hoàn toàn khác nhau. Một bên tối ưu cho độ trễ thấp và điều phối hệ thống. Bên còn lại tối ưu cho thông lượng cao và tính toán song song quy mô lớn. Chính sự khác biệt này quyết định cách xây dựng kiến trúc HPC, cách phân bổ tài nguyên trong compute node và cách thiết kế hạ tầng AI phục vụ LLM training.
Dưới đây là phân tích chi tiết theo logic kiến trúc hệ thống.
CPU – Tối ưu cho độ trễ thấp và điều phối hệ thống
Kiến trúc CPU và vai trò trong hệ thống tính toán
CPU được thiết kế để thực hiện chu trình fetch decode execute một cách chính xác và linh hoạt. Trong một hệ thống HPC, CPU đóng vai trò trung tâm điều phối. Nó xử lý lệnh tuần tự, quản lý bộ nhớ và điều khiển luồng dữ liệu giữa RAM, cache và storage.
Số lượng core trong CPU thường dao động từ vài core đến vài chục core. Mỗi core có khả năng xử lý mạnh, có pipeline phức tạp và có cơ chế dự đoán nhánh để tối ưu luồng thực thi. Clock speed của CPU cao nhằm đảm bảo độ trễ thấp khi xử lý một tác vụ đơn lẻ.
Trong hệ thống tính toán hiệu năng cao, CPU đảm nhiệm việc chạy hệ điều hành Linux, thực thi job scheduler như SLURM hoặc PBS và điều phối tài nguyên giữa các compute node. Khi người dùng submit job vào hệ thống High Performance Computing, CPU ở login node tiếp nhận yêu cầu, phân tích tài nguyên cần thiết và chuyển tác vụ đến các node phù hợp.
Điểm mạnh của CPU nằm ở khả năng xử lý logic điều kiện, tác vụ I O và quản lý bộ nhớ. Nó phù hợp với các tác vụ có cấu trúc phức tạp và cần phản hồi nhanh. Tuy nhiên khi chuyển sang xử lý ma trận lớn với hàng tỷ phép nhân và cộng, cấu trúc ít core mạnh của CPU trở thành giới hạn về throughput. Đây là điểm bắt đầu của sự khác biệt giữa CPU và GPU trong kiến trúc HPC.
CPU trong bối cảnh tính toán song song và giới hạn hiệu năng
CPU có khả năng xử lý song song ở mức độ nhất định thông qua multi core và hyper threading. Tuy nhiên mức độ song song này vẫn ở quy mô nhỏ nếu so với nhu cầu của tính toán song song trong AI hoặc mô phỏng khoa học.
Trong một hệ thống High Performance Computing, CPU thường đảm nhận phần tiền xử lý và hậu xử lý dữ liệu. Ví dụ trong xử lý ảnh được chia thành nhiều block, CPU có thể chuẩn bị dữ liệu và phân phối sang các core hoặc GPU. Nó cũng chịu trách nhiệm đồng bộ kết quả và ghi dữ liệu vào parallel storage.
Vấn đề xuất hiện khi khối lượng phép toán tăng theo cấp số nhân. Với LLM training, mỗi bước cập nhật trọng số yêu cầu thực hiện lượng lớn phép nhân ma trận. Nếu chỉ dựa vào CPU, số core hạn chế khiến throughput không đủ cao để đáp ứng yêu cầu thời gian huấn luyện.
Trong hệ thống HPC, CPU vẫn cần thiết để điều phối và quản lý batch system, nhưng phần tính toán nặng được chuyển sang GPU. Điều này không làm CPU trở nên kém quan trọng. Ngược lại, nó cho thấy vai trò chuyên biệt của CPU trong toàn bộ hệ sinh thái hạ tầng tính toán.
GPU – Tối ưu cho thông lượng cao và xử lý song song quy mô lớn
Kiến trúc GPU và cơ chế thực thi song song
GPU được thiết kế với hàng nghìn core đơn giản thay vì ít core phức tạp như CPU. Mỗi core trong GPU có cấu trúc gọn nhẹ và được tổ chức theo mô hình SIMD. Điều này cho phép cùng một lệnh được áp dụng đồng thời lên nhiều phần tử dữ liệu.
Trong hệ thống High Performance Computing, GPU trở thành thành phần trung tâm của compute node khi xử lý workload AI. Với kiến trúc tập trung vào throughput, GPU có thể thực hiện số lượng lớn phép toán trên ma trận và vector trong cùng một chu kỳ xử lý.
Clock speed của GPU thường thấp hơn CPU, nhưng tổng số phép toán thực hiện trong một đơn vị thời gian cao hơn nhiều. Đây là bản chất của throughput. GPU không rút ngắn đáng kể thời gian cho một phép toán đơn lẻ. Thay vào đó, nó thực hiện hàng nghìn phép toán cùng lúc.
Trong bối cảnh kiến trúc HPC, GPU thường được kết nối qua high speed interconnect như InfiniBand để đồng bộ dữ liệu giữa các node. Khi training LLM, dữ liệu được chia thành nhiều batch và phân phối lên nhiều GPU song song. Đây chính là mô hình parallel computing ở quy mô cụm.
GPU trong AI training cluster và LLM training
Trong cụm AI training cluster thuộc hệ thống High Performance Computing, GPU đảm nhiệm gần như toàn bộ phần compute chính. CPU chỉ điều phối và xử lý các tác vụ phụ trợ. Tỷ lệ CPU GPU thường dao động từ 4 trên 1 đến 8 trên 1 trong môi trường đào tạo AI, phản ánh sự phụ thuộc mạnh vào GPU.
Một GPU như NVIDIA H100 được thiết kế chuyên biệt cho deep learning. Nó tích hợp tensor core và bộ nhớ băng thông cao nhằm tối ưu xử lý ma trận. Tuy nhiên một GPU đơn lẻ không đủ để huấn luyện LLM quy mô lớn. Hệ thống cần cụm GPU được kết nối bằng high speed interconnect và quản lý bởi job scheduler trong kiến trúc HPC.
Quá trình LLM training bao gồm chia batch dữ liệu, phân phối lên nhiều GPU, tính gradient song song và đồng bộ trọng số giữa các node. Nếu không có High Performance Computing, độ trễ mạng và nghẽn băng thông storage sẽ khiến toàn bộ quá trình huấn luyện trở nên kém hiệu quả.
Vì vậy GPU không chỉ là phần cứng tăng tốc. Nó là trung tâm của hạ tầng AI trong hệ thống tính toán hiệu năng cao. Khi kết hợp với CPU điều phối và mạng tốc độ cao, GPU tạo thành nền tảng vật lý cho Generative AI.
CPU và GPU đại diện cho hai triết lý thiết kế khác nhau trong High Performance Computing. CPU tối ưu cho độ trễ thấp và quản lý hệ thống. GPU tối ưu cho throughput và tính toán song song quy mô lớn. Trong kiến trúc HPC, cả hai không thay thế nhau mà bổ sung cho nhau.
Khi bước vào kỷ nguyên LLM training và AI quy mô lớn, GPU trở thành trung tâm của compute node. CPU giữ vai trò điều phối, còn toàn bộ hệ thống được kết nối qua high speed interconnect và quản lý bằng batch system.
Sự kết hợp này tạo nên nền móng cho hệ thống HPC hiện đại và mở ra khả năng xây dựng các mô hình AI mà trước đây không thể thực hiện trên hạ tầng truyền thống.
[C1.S7.Ep6] CPU vs GPU trong kỷ nguyên AI – Vì sao LLM cần High Performance Computing (HPC)?
Throughput vs Latency – Tư duy khác biệt
Latency và vai trò của CPU trong hệ thống tính toán hiệu năng cao
Latency là gì trong kiến trúc xử lý
Latency là thời gian cần thiết để hoàn thành một tác vụ đơn lẻ kể từ thời điểm lệnh được gửi đến khi kết quả được trả về. Trong một hệ thống tính toán truyền thống, quá trình này diễn ra theo chu trình fetch, decode và execute. Bộ xử lý trung tâm kiểm tra cache, nếu không có dữ liệu thì truy xuất từ RAM, nếu RAM chưa chứa dữ liệu thì hệ điều hành sẽ yêu cầu bộ lưu trữ truyền dữ liệu qua bus như PCIe hoặc SATA vào bộ nhớ chính. Toàn bộ quá trình này được tối ưu để rút ngắn độ trễ từng bước một.
Trong bối cảnh High Performance Computing, latency vẫn giữ vai trò quan trọng ở tầng điều phối. Các login node và head node cần phản hồi nhanh khi người dùng gửi job. Bộ lập lịch phải ra quyết định phân bổ tài nguyên kịp thời. Những thao tác này không đòi hỏi xử lý song song khối lượng lớn mà đòi hỏi độ chính xác và phản hồi nhanh. Đây chính là môi trường mà CPU phát huy thế mạnh.
CPU có số lượng core hạn chế nhưng mỗi core được thiết kế phức tạp với bộ nhớ cache nhiều tầng và khả năng xử lý tuần tự tốt. Nhờ vậy, CPU tối ưu cho các tác vụ logic, kiểm soát luồng, xác thực người dùng và quản lý tài nguyên trong hệ thống HPC. Latency thấp giúp hệ thống ổn định và đảm bảo các bước trong chu trình xử lý không bị tắc nghẽn ở tầng điều khiển.
Vì sao CPU tối ưu cho latency thay vì throughput
Kiến trúc CPU được xây dựng dựa trên nguyên tắc giảm độ trễ cho từng lệnh. Chu trình lệnh được pipeline hóa để nhiều giai đoạn có thể diễn ra đồng thời, nhưng mục tiêu vẫn là hoàn thành từng tác vụ một cách nhanh nhất có thể. Bộ nhớ cache L1, L2, L3 được đặt gần lõi xử lý để giảm thời gian truy cập dữ liệu. Clock speed cao giúp mỗi chu kỳ thực thi diễn ra nhanh.
Trong một kiến trúc HPC, CPU thường đảm nhiệm vai trò điều phối job scheduler và quản lý giao tiếp giữa các compute node. Khi một tác vụ được gửi vào batch system, CPU chịu trách nhiệm phân bổ tài nguyên và khởi tạo tiến trình. Các thao tác này yêu cầu độ trễ thấp để tránh làm chậm toàn bộ cụm.
Tuy nhiên, khi khối lượng tính toán tăng lên đến hàng triệu phép nhân ma trận, lợi thế latency không còn đủ. CPU không được thiết kế để thực hiện hàng nghìn phép tính giống nhau cùng lúc. Số lượng core ít và kiến trúc phức tạp khiến CPU phù hợp với xử lý điều khiển hơn là tính toán song song khối lượng lớn. Vì vậy, trong bài toán đào tạo mô hình lớn, CPU chỉ đóng vai trò hỗ trợ còn phần tính toán chính được chuyển sang GPU trong môi trường tính toán song song.
Throughput và vai trò của GPU trong đào tạo mô hình lớn
Throughput là gì trong hệ thống tính toán hiệu năng cao
Throughput là tổng số tác vụ có thể xử lý trong một khoảng thời gian nhất định. Nếu latency tập trung vào một yêu cầu đơn lẻ thì throughput quan tâm đến toàn bộ khối lượng công việc được hoàn thành. Trong môi trường High Performance Computing, mục tiêu chính thường là tối đa hóa throughput thay vì rút ngắn từng mili giây cho một lệnh riêng lẻ.
Khi một hệ thống xử lý hàng trăm block dữ liệu trong ví dụ phân chia ảnh thành nhiều ma trận con, mỗi block có thể được giao cho một core hoặc một node khác nhau. Càng nhiều block được xử lý đồng thời thì tổng sản lượng tính toán càng cao. Đây chính là bản chất của parallel computing và là nền tảng của kiến trúc HPC.
Throughput phụ thuộc vào số lượng lõi xử lý, băng thông bộ nhớ và tốc độ truyền dữ liệu giữa các node thông qua high speed interconnect. Nếu một node hoàn thành sớm, batch system sẽ phân phối block tiếp theo để tối ưu toàn bộ cụm. Cách tiếp cận này không nhằm giảm độ trễ cho một block duy nhất mà nhằm tăng tổng khối lượng xử lý của toàn hệ thống trong một chu kỳ.
Vì sao GPU tối ưu cho throughput
GPU được thiết kế với hàng nghìn lõi đơn giản có thể thực hiện cùng một lệnh trên nhiều dữ liệu khác nhau. Kiến trúc này phù hợp với các phép toán lặp lại như nhân ma trận và xử lý vector. Trong môi trường hệ thống HPC, GPU trở thành thành phần chính của compute node khi khối lượng tính toán có thể được chia nhỏ và phân phối.
Khác với CPU tập trung vào xử lý điều kiện và luồng logic, GPU tập trung vào khối lượng phép tính. Điều này làm tăng throughput tổng thể. Khi nhiều GPU được kết nối bằng InfiniBand hoặc mạng tốc độ cao, dữ liệu có thể được truyền nhanh giữa các node để đồng bộ kết quả. Song song với đó, parallel storage đảm bảo dữ liệu đọc ghi không trở thành điểm nghẽn.
Trong một cụm đào tạo mô hình lớn, GPU chiếm phần lớn tài nguyên tính toán còn CPU giữ vai trò điều phối. Tỷ lệ core giữa CPU và GPU trong cụm AI thường nghiêng về GPU để đảm bảo throughput tối đa. Chính sự kết hợp này tạo nên một hạ tầng AI có khả năng xử lý khối lượng tính toán vượt xa máy tính cá nhân.
LLM Training là bài toán throughput trong kiến trúc HPC
Khối lượng tính toán của mô hình lớn
Đào tạo một mô hình ngôn ngữ lớn đòi hỏi xử lý hàng tỷ tham số và lượng dữ liệu khổng lồ. Mỗi bước huấn luyện bao gồm việc nhân ma trận kích thước lớn và cập nhật trọng số. Các phép toán này có thể được chia thành nhiều phần độc lập, phù hợp với môi trường tính toán song song.
Trong một High Performance Computing cluster, batch system phân bổ dữ liệu thành các phần nhỏ và giao cho nhiều GPU xử lý đồng thời. Sau mỗi bước, các node phải đồng bộ gradient thông qua mạng tốc độ cao. Nếu băng thông mạng thấp hoặc storage không đủ nhanh, toàn bộ hệ thống sẽ bị chậm lại.
Do đó, đào tạo mô hình lớn không phải là bài toán phản hồi nhanh cho một yêu cầu duy nhất mà là bài toán xử lý khối lượng công việc khổng lồ trong thời gian hợp lý. Throughput trở thành chỉ số quan trọng hơn latency. Kiến trúc HPC đảm bảo các compute node phối hợp hiệu quả để tối đa hóa tổng sản lượng tính toán.
Vì sao GPU và HPC là bắt buộc đối với LLM training
Một GPU đơn lẻ có thể thực hiện hàng nghìn phép tính song song, nhưng một mô hình lớn thường yêu cầu nhiều GPU kết nối với nhau. Khi các GPU được đặt trong compute node và liên kết bằng high speed interconnect, chúng hình thành một cụm xử lý đồng bộ. Job scheduler quản lý việc phân phối batch và theo dõi tiến trình.
Trong môi trường này, kiến trúc HPC đóng vai trò kết nối mọi thành phần từ compute node, interconnect đến storage. CPU điều phối, GPU xử lý và mạng truyền dữ liệu tốc độ cao đảm bảo không có điểm nghẽn. Nhờ đó, toàn bộ hệ thống đạt được throughput cần thiết để hoàn thành quá trình đào tạo trong thời gian chấp nhận được.
Vì vậy, LLM training là bài toán throughput ở quy mô lớn. Để giải quyết, cần GPU để thực hiện tính toán song song và cần High Performance Computing để tổ chức, đồng bộ và tối ưu toàn bộ cụm. Đây không phải lựa chọn tùy ý mà là yêu cầu tất yếu của hạ tầng tính toán hiện đại.
AI Training Cluster – Khi một GPU là không đủ
Giới hạn của một GPU đơn lẻ trong hệ thống High Performance Computing
Một GPU như NVIDIA H100 sở hữu hơn 80 tỷ transistor, bộ nhớ HBM3 băng thông rất cao và khả năng xử lý đạt hàng chục TFLOPS. Ở cấp độ phần cứng, đây là một thành phần cực kỳ mạnh trong một hệ thống HPC. Tuy nhiên, sức mạnh của một GPU đơn lẻ vẫn bị giới hạn bởi ba yếu tố chính gồm bộ nhớ cục bộ, băng thông nội bộ và phạm vi tính toán.
Bộ nhớ HBM3 tuy rất nhanh nhưng dung lượng vẫn hữu hạn. Khi đào tạo một mô hình lớn, toàn bộ tham số, gradient và trạng thái tối ưu hóa phải được lưu trữ và cập nhật liên tục. Nếu mô hình vượt quá dung lượng bộ nhớ của một GPU, hệ thống buộc phải chia nhỏ dữ liệu hoặc chuyển một phần ra ngoài, điều này làm giảm hiệu quả của tính toán song song.
Thứ hai, một GPU đơn lẻ không thể tự mở rộng năng lực xử lý khi khối lượng phép nhân ma trận tăng lên. Mô hình càng lớn thì số lượng phép tính càng tăng theo cấp số nhân. Trong bối cảnh đó, việc chỉ nâng cấp một GPU mạnh hơn không giải quyết được bài toán tổng thể của hệ thống tính toán hiệu năng cao.
Cuối cùng, trong môi trường đào tạo mô hình lớn, khối lượng dữ liệu đầu vào rất lớn và phải được truyền liên tục từ storage sang compute. Một GPU không thể tự đảm nhiệm toàn bộ luồng dữ liệu này. Đây là lý do vì sao một GPU, dù mạnh đến đâu, vẫn không đủ để thay thế một kiến trúc HPC hoàn chỉnh.
Khi mô hình lớn buộc phải chuyển sang cụm GPU trong kiến trúc HPC
Khi một mô hình LLM vượt quá khả năng của một GPU, hệ thống phải chia mô hình và dữ liệu thành nhiều phần nhỏ hơn. Mỗi phần được phân phối tới các compute node khác nhau trong một cụm. Đây là lúc cụm GPU trở thành trung tâm của High Performance Computing.
Trong một cụm đào tạo AI, nhiều compute node được kết nối với nhau. Mỗi node bao gồm CPU, GPU và bộ nhớ cục bộ. CPU đảm nhiệm vai trò điều phối và quản lý tiến trình, trong khi GPU xử lý khối lượng lớn phép tính. Toàn bộ hệ thống được vận hành thông qua job scheduler, thành phần quyết định phân bổ tài nguyên và theo dõi trạng thái công việc.
Việc phân phối mô hình sang nhiều GPU đòi hỏi đồng bộ liên tục giữa các node. Khi một node hoàn thành một phần tính toán, kết quả phải được chia sẻ với các node khác để tiếp tục vòng lặp huấn luyện. Nếu không có cơ chế giao tiếp hiệu quả, hiệu năng tổng thể sẽ giảm đáng kể.
Chính vì vậy, một cụm GPU không chỉ đơn thuần là tập hợp nhiều thiết bị. Nó là một phần của hạ tầng tính toán được thiết kế để đảm bảo sự đồng bộ, phân bổ hợp lý và tối ưu hiệu năng của toàn bộ HPC.
Vai trò của high speed interconnect trong HPC
Khi nhiều compute node hoạt động đồng thời, vấn đề lớn nhất không còn nằm ở khả năng xử lý mà ở khả năng giao tiếp. Trong hệ thống HPC, các node được kết nối bằng mạng tốc độ cao như InfiniBand với băng thông từ 100 đến 400 Gbps.
High speed interconnect đóng vai trò xương sống của cụm đào tạo AI. Nó cho phép các node trao đổi dữ liệu với độ trễ rất thấp và băng thông rất cao. Khi huấn luyện LLM, các gradient và tham số phải được đồng bộ sau mỗi bước lặp. Nếu mạng chậm, toàn bộ hệ thống phải chờ đợi node chậm nhất.
Khác với mạng thông thường trong môi trường văn phòng, interconnect trong kiến trúc HPC được thiết kế cho tính toán song song quy mô lớn. Nó đảm bảo các compute node có thể hoạt động như một hệ thống thống nhất thay vì các máy riêng lẻ.
Nếu thiếu interconnect tốc độ cao, cụm GPU chỉ là tập hợp phần cứng rời rạc. Chỉ khi được kết nối bằng mạng chuyên dụng, nó mới trở thành một hệ thống tính toán hiệu năng cao thực thụ, đủ khả năng xử lý khối lượng công việc của LLM training.
Parallel storage và quản lý công việc trong High Performance Computing
Đào tạo mô hình lớn không chỉ là bài toán compute. Nó còn là bài toán dữ liệu. Dataset huấn luyện thường rất lớn và phải được truy xuất liên tục từ storage. Trong HPC, storage không phải ổ cứng đơn lẻ mà là hệ thống parallel storage có khả năng phục vụ nhiều node cùng lúc.
Parallel storage cho phép nhiều compute node đọc và ghi dữ liệu đồng thời mà không gây nghẽn. Khi mô hình được huấn luyện, checkpoint phải được lưu định kỳ để đảm bảo an toàn và khả năng khôi phục. Nếu storage không đủ nhanh, GPU sẽ phải chờ, làm giảm hiệu quả của toàn bộ hạ tầng AI.
Bên cạnh đó, job scheduler giữ vai trò điều phối tài nguyên. Nó quyết định node nào được cấp bao nhiêu CPU, bao nhiêu GPU và bao nhiêu bộ nhớ. Trong môi trường đào tạo LLM, việc phân bổ sai tài nguyên có thể gây lãng phí lớn hoặc làm giảm hiệu năng của HPC.
Sự kết hợp giữa parallel storage, job scheduler và compute node tạo thành một hệ thống hoàn chỉnh. Đây chính là điểm khác biệt giữa một GPU mạnh và một kiến trúc HPC được thiết kế cho đào tạo mô hình AI quy mô lớn.
Tại sao LLM training buộc phải dựa vào HPC
LLM training là quá trình lặp lại hàng triệu bước tính toán. Mỗi bước bao gồm xử lý batch dữ liệu, tính gradient, cập nhật tham số và đồng bộ kết quả giữa các node. Khối lượng phép tính và dữ liệu tăng theo kích thước mô hình.
Trong bối cảnh đó, việc chỉ nâng cấp phần cứng đơn lẻ không còn đủ. Cần một hệ thống cho phép mở rộng theo chiều ngang, kết nối nhiều compute node và tối ưu toàn bộ luồng dữ liệu. Đó chính là vai trò của High Performance Computing.
Một cụm GPU chỉ thực sự phát huy hiệu quả khi nằm trong kiến trúc HPC có interconnect tốc độ cao, parallel storage và cơ chế quản lý tài nguyên rõ ràng. Chính sự phối hợp này tạo ra một hệ thống tính toán hiệu năng cao có thể xử lý LLM training ở quy mô lớn.
Vì vậy, khi nói đến Generative AI, không thể chỉ nói về mô hình hay thuật toán. Phía sau mỗi mô hình lớn là một HPC được thiết kế để đảm bảo tính ổn định, khả năng mở rộng và tối ưu hiệu năng trong môi trường đào tạo phân tán.
NVIDIA H100 – Biểu tượng của hạ tầng AI trong High Performance Computing
GPU trong kiến trúc HPC và vai trò của compute node
Trong một hệ thống High Performance Computing, mọi thành phần đều được thiết kế xoay quanh mục tiêu xử lý hiệu năng cao và tính toán song song. Ở trung tâm của hệ thống là các compute node, nơi tập hợp CPU, GPU, bộ nhớ và cache để thực thi khối lượng công việc lớn. Khi chuyển sang bối cảnh AI và LLM training, GPU trở thành thành phần chủ lực trong compute node vì kiến trúc của nó phù hợp với xử lý song song ở quy mô lớn.
GPU như NVIDIA H100 được xây dựng để thực hiện hàng nghìn phép tính đồng thời thay vì tối ưu cho từng tác vụ tuần tự. Điều này phù hợp với logic của parallel computing, nơi một bài toán lớn được chia thành nhiều phần nhỏ và phân phối tới nhiều lõi xử lý. Trong kiến trúc HPC, compute node không hoạt động độc lập mà phối hợp với các node khác thông qua high speed interconnect. Nhờ đó, hệ thống có thể mở rộng theo chiều ngang thay vì chỉ phụ thuộc vào một bộ xử lý đơn lẻ.
Vai trò của GPU trong hệ thống hệ thống tính toán hiệu năng cao vì thế không chỉ là tăng tốc một phép tính đơn lẻ mà là đóng góp vào tổng thông lượng của toàn cụm. Khi một cụm GPU được tích hợp trong kiến trúc HPC, sức mạnh xử lý không còn nằm ở một chip mà ở toàn bộ cấu trúc liên kết giữa nhiều node. Đây là nền tảng để các tác vụ AI quy mô lớn có thể vận hành ổn định và đồng bộ.
Tensor Core và HBM3 trong bối cảnh tính toán song song
Một trong những điểm nổi bật của GPU thế hệ mới là khả năng xử lý các phép toán ma trận ở tốc độ rất cao. Tensor Core được thiết kế để tăng tốc các phép nhân ma trận, vốn là trung tâm của deep learning. Trong môi trường High Performance Computing, các phép toán này thường được phân phối trên nhiều lõi và nhiều node để đạt hiệu suất tối đa.
Bộ nhớ HBM3 đóng vai trò quan trọng trong việc cung cấp băng thông lớn giữa bộ nhớ và lõi xử lý. Khi dữ liệu được chuyển từ parallel storage vào compute node, tốc độ truy xuất bộ nhớ quyết định khả năng duy trì thông lượng cao. Nếu bộ nhớ không đủ nhanh, GPU dù mạnh cũng không thể phát huy hiệu quả. Trong kiến trúc HPC, băng thông bộ nhớ và tốc độ interconnect phải được thiết kế đồng bộ để tránh nghẽn cổ chai.
Điều này liên quan trực tiếp đến nguyên tắc của xử lý hiệu năng cao, nơi hiệu suất không chỉ phụ thuộc vào số lượng lõi mà còn phụ thuộc vào khả năng cung cấp dữ liệu liên tục cho các lõi đó. Khi Tensor Core và HBM3 hoạt động trong một compute node thuộc hạ tầng tính toán, chúng tạo ra nền tảng vững chắc cho các tác vụ deep learning quy mô lớn. Tuy nhiên, một GPU đơn lẻ vẫn chỉ là một thành phần trong hệ sinh thái rộng hơn của hệ thống HPC.
NVLink và high speed interconnect trong kiến trúc HPC
Trong hệ thống High Performance Computing, các compute node cần trao đổi dữ liệu liên tục với độ trễ thấp. High speed interconnect như InfiniBand cho phép truyền dữ liệu ở mức hàng trăm gigabit mỗi giây, đảm bảo đồng bộ giữa các node trong quá trình tính toán song song. NVLink được thiết kế để tăng tốc giao tiếp giữa các GPU trong cùng một node hoặc giữa các node lân cận.
Khi một bài toán AI được phân chia thành nhiều phần, mỗi GPU xử lý một phần dữ liệu và sau đó cần đồng bộ kết quả. Nếu tốc độ kết nối không đủ nhanh, toàn bộ cụm sẽ bị giảm hiệu suất. Đây là lý do vì sao trong hệ thống HPC, interconnect được xem là xương sống của toàn bộ kiến trúc.
Việc tích hợp NVLink trong compute node và InfiniBand giữa các node tạo ra một môi trường parallel computing thực sự hiệu quả. Các GPU không hoạt động rời rạc mà trở thành một phần của hệ thống liên kết chặt chẽ. Điều này phù hợp với nguyên lý mở rộng theo chiều ngang của hệ thống tính toán hiệu năng cao, nơi sức mạnh tổng thể được tạo ra từ sự phối hợp đồng bộ giữa nhiều thành phần.
Từ một GPU đến cụm GPU trong AI infrastructure
Một GPU NVIDIA H100 có hiệu năng rất cao, nhưng LLM training không được thiết kế để chạy trên một thiết bị đơn lẻ. Trong thực tế, các mô hình lớn cần được phân phối trên nhiều GPU và nhiều compute node. Batch system và job scheduler trong High Performance Computing sẽ phân bổ tài nguyên, theo dõi tiến độ và đảm bảo các tác vụ được thực thi đồng bộ.
Khi dữ liệu được chia thành nhiều block và phân phối tới các node, mỗi node xử lý một phần của bài toán. Sau đó, kết quả được đồng bộ thông qua high speed interconnect và lưu trữ trong parallel storage. Đây là quy trình cốt lõi của tính toán song song, nơi khối lượng công việc được phân tán để tối ưu thông lượng.
LLM training đòi hỏi cụm GPU được cấu hình theo tỷ lệ CPU và GPU phù hợp, đảm bảo CPU điều phối còn GPU tập trung xử lý. Trong hạ tầng AI, kiến trúc này cho phép hệ thống mở rộng linh hoạt mà vẫn duy trì hiệu năng ổn định. Vì vậy, giá trị thực sự của NVIDIA H100 không nằm ở một thiết bị đơn lẻ mà ở khả năng tích hợp vào kiến trúc HPC để hình thành một hệ thống tính toán hiệu năng cao hoàn chỉnh.
Vì sao LLM không thể tồn tại nếu thiếu HPC?
Trong kỷ nguyên Generative AI, nhiều người cho rằng chỉ cần GPU mạnh là đủ để đào tạo mô hình lớn. Tuy nhiên, khi phân tích bản chất của quá trình huấn luyện LLM theo góc độ kiến trúc hệ thống, có thể thấy GPU chỉ là một thành phần trong toàn bộ High Performance Computing. LLM training thực chất là một bài toán của HPC, của tính toán song song và của một hệ thống tính toán hiệu năng cao được tổ chức chặt chẽ từ compute node đến storage và network.
Để hiểu rõ điều này, chúng ta cần tách từng thành phần kỹ thuật trong quy trình huấn luyện và xem điều gì sẽ xảy ra nếu thiếu nền tảng HPC.
Chia batch và phân phối lên nhiều GPU là bài toán của kiến trúc HPC
Khi đào tạo LLM, dữ liệu không được xử lý theo cách tuần tự. Dữ liệu được chia thành nhiều batch nhỏ hơn. Mỗi batch tiếp tục được phân mảnh và phân phối đến các GPU khác nhau. Quá trình này không đơn thuần là copy dữ liệu từ RAM sang GPU mà là một cơ chế phân phối có điều phối, chịu trách nhiệm bởi batch system và job scheduler trong kiến trúc HPC.
Trong một hệ thống HPC, người dùng không trực tiếp điều khiển từng GPU. Họ gửi job lên login node. Job scheduler sẽ quyết định compute node nào được sử dụng, mỗi node có bao nhiêu CPU và GPU, và cách phân bổ tài nguyên sao cho tối ưu. Điều này đặc biệt quan trọng khi cụm có hàng trăm GPU.
Mỗi compute node trong cụm đều có bộ nhớ cục bộ, CPU điều phối và GPU xử lý song song. Dữ liệu được truyền từ parallel storage vào bộ nhớ node, sau đó được chuyển đến GPU để thực thi phép tính ma trận. Nếu không có cơ chế phân phối tập trung này, hệ thống sẽ nhanh chóng rơi vào tình trạng tranh chấp tài nguyên.
Bản chất của LLM training là lặp lại hàng triệu vòng xử lý với dữ liệu được chia nhỏ và phân tán. Đây chính là mô hình hoạt động của tính toán song song trong High Performance Computing. Nếu thiếu nền tảng HPC, việc phân phối dữ liệu chỉ dừng ở mức một máy đơn lẻ, và khi quy mô tăng lên, hệ thống không thể mở rộng theo chiều ngang một cách ổn định.
Đồng bộ gradient giữa các node phụ thuộc vào high speed interconnect
Sau mỗi bước huấn luyện, các GPU phải trao đổi gradient với nhau để cập nhật trọng số mô hình. Đây là bước đồng bộ bắt buộc trong huấn luyện phân tán. Nếu một node cập nhật khác với node còn lại, mô hình sẽ mất tính nhất quán.
Trong HPC, các compute node được kết nối bằng high speed interconnect như InfiniBand với độ trễ rất thấp và băng thông cao. Hạ tầng mạng này cho phép truyền lượng dữ liệu lớn giữa các node trong thời gian rất ngắn. Đây là điều mà mạng thông thường không thể đảm bảo.
Khi huấn luyện LLM, kích thước gradient có thể rất lớn. Nếu network chậm, thời gian chờ đồng bộ sẽ chiếm phần lớn chu kỳ huấn luyện. GPU sẽ phải chờ dữ liệu thay vì tính toán. Hiệu năng tổng thể của hệ thống tính toán hiệu năng cao sẽ giảm mạnh.
Trong một kiến trúc HPC, mạng không phải là thành phần phụ. Nó là xương sống của hệ thống. High speed interconnect đảm bảo các node hoạt động như một thể thống nhất. Nếu không có hạ tầng mạng đúng chuẩn HPC, cụm GPU sẽ trở thành tập hợp rời rạc của các máy độc lập, không thể vận hành hiệu quả cho LLM training.
Đây là lý do vì sao High Performance Computing là điều kiện tiên quyết cho huấn luyện mô hình quy mô lớn.
Checkpoint và lưu trữ đòi hỏi parallel storage
Trong quá trình huấn luyện, mô hình phải được ghi checkpoint định kỳ. Checkpoint cho phép khôi phục khi có lỗi và theo dõi tiến trình. Tuy nhiên, kích thước của checkpoint trong LLM rất lớn và có thể lên tới hàng trăm gigabyte hoặc hơn.
Nếu mỗi compute node ghi dữ liệu vào một storage thông thường, tình trạng nghẽn I O sẽ xuất hiện ngay lập tức. Hệ thống sẽ chậm lại do tranh chấp băng thông lưu trữ. Đây là lý do parallel storage là thành phần bắt buộc trong HPC.
Parallel storage cho phép nhiều node đọc và ghi dữ liệu đồng thời mà không gây nghẽn. Trong kiến trúc HPC, storage được thiết kế để chia sẻ giữa các node, đảm bảo tốc độ cao và tính nhất quán. Điều này phù hợp với bản chất lặp lại liên tục của LLM training.
Nếu storage nghẽn, GPU sẽ phải chờ ghi checkpoint. Khi GPU chờ, throughput giảm. Khi throughput giảm, thời gian huấn luyện tăng theo cấp số nhân. LLM training là bài toán của throughput chứ không phải latency. Vì vậy, hệ thống lưu trữ phải đồng bộ với tốc độ tính toán của cụm GPU.
Trong một hệ thống HPC, compute, network và storage được thiết kế như một chỉnh thể. Thiếu một thành phần, toàn bộ hiệu năng sẽ sụp đổ.
Tối ưu hiệu năng hệ thống là cốt lõi của HPC trong AI
LLM training không chỉ là phép tính ma trận. Nó là một chuỗi lặp gồm phân phối dữ liệu, xử lý song song, đồng bộ, ghi lưu trữ và lặp lại hàng triệu lần. Nếu một compute node chậm, nếu network không đồng bộ, hoặc nếu batch system phân bổ không hợp lý, toàn bộ cụm sẽ hoạt động dưới mức tối ưu.
Trong High Performance Computing, hệ thống quản lý và giám sát có vai trò đảm bảo tài nguyên được phân phối công bằng và hiệu quả. Job scheduler quyết định thứ tự và tài nguyên cho từng job. Monitoring system theo dõi CPU, GPU, memory và network. Tất cả nhằm duy trì trạng thái cân bằng trong cụm.
LLM training yêu cầu sự ổn định kéo dài trong nhiều ngày hoặc nhiều tuần. Nếu không có nền tảng HPC với compute node phân tán và batch system điều phối, quá trình này sẽ liên tục gặp lỗi hoặc mất đồng bộ.
Do đó, khi nói LLM cần GPU, thực chất cần nói LLM cần hạ tầng tính toán đúng chuẩn High Performance Computing. GPU chỉ là một phần trong tổng thể đó.
LLM không thể tồn tại nếu thiếu HPC vì huấn luyện mô hình quy mô lớn là bài toán của hệ thống chứ không phải của một thiết bị đơn lẻ. Quá trình chia batch, phân phối lên nhiều GPU, đồng bộ gradient, ghi checkpoint và lặp lại hàng triệu bước đều phụ thuộc vào High Performance Computing, vào kiến trúc HPC, vào tính toán song song và vào một hệ thống tính toán hiệu năng cao được tối ưu toàn diện.
Khi network chậm, storage nghẽn hoặc compute node không đồng bộ, hiệu năng sụp đổ ngay lập tức. Đó là lý do HPC không chỉ hỗ trợ Generative AI mà chính là nền móng để LLM có thể được đào tạo và vận hành ở quy mô lớn.
HPC – Xương sống của Generative AI
Khi nhìn từ góc độ DBA và chiến lược công nghệ, câu hỏi quan trọng không còn là mô hình nào tốt hơn, mà là hệ thống nào đủ mạnh để vận hành mô hình đó ở quy mô lớn. Generative AI không chỉ phụ thuộc vào thuật toán mà phụ thuộc trực tiếp vào High Performance Computing, vào kiến trúc HPC, vào khả năng tính toán song song, và vào cách thiết kế hạ tầng AI ở cấp độ hệ thống.
Dưới đây là phân tích tập trung vào nền tảng kỹ thuật của hệ thống tính toán hiệu năng cao và cách nó trở thành xương sống cho các hệ thống LLM quy mô lớn.
AI Infrastructure không bắt đầu từ mô hình, mà bắt đầu từ kiến trúc hệ thống
Khi nói đến AI infrastructure, nhiều người thường nghĩ đến GPU hoặc framework học sâu. Tuy nhiên, ở cấp độ hệ thống, AI infrastructure thực chất là một cấu trúc tổ chức tài nguyên tính toán, lưu trữ và mạng thành một hệ thống thống nhất. Đây chính là bản chất của High Performance Computing.
Một hệ thống HPC không phải một máy tính đơn lẻ. Nó là một tập hợp nhiều compute node được kết nối thông qua high speed interconnect, được điều phối bởi job scheduler và được hỗ trợ bởi parallel storage. Người dùng không truy cập trực tiếp vào từng node mà kết nối thông qua login node. Tại đây, công việc được gửi vào batch system và được phân phối xuống các compute node theo cơ chế điều phối tài nguyên.
Điểm cốt lõi nằm ở kiến trúc. Mỗi compute node bao gồm CPU đa lõi, GPU tăng tốc và bộ nhớ cục bộ. Khi công việc được phân phối, hệ thống không xử lý tuần tự mà xử lý theo mô hình tính toán song song. Các node giao tiếp với nhau qua interconnect tốc độ cao như InfiniBand để đồng bộ dữ liệu và trạng thái.
Trong bối cảnh đào tạo LLM, mỗi bước huấn luyện bao gồm xử lý khối lượng dữ liệu lớn và cập nhật tham số trên nhiều GPU cùng lúc. Nếu không có kiến trúc HPC với khả năng phân phối và đồng bộ, hệ thống sẽ nghẽn ở mạng hoặc lưu trữ. Vì vậy, AI infrastructure về bản chất chính là bài toán thiết kế hệ thống tính toán hiệu năng cao thay vì chỉ là bài toán phần mềm.
Trung tâm dữ liệu và tổ chức tài nguyên trong hệ thống HPC
Generative AI ở quy mô lớn không thể vận hành trên một máy đơn lẻ. Nó cần trung tâm dữ liệu nơi tài nguyên được tổ chức theo cấu trúc cụm. Trong mô hình High Performance Computing, tài nguyên được chia thành nhiều lớp rõ ràng gồm login node, job scheduler, compute node, mạng tốc độ cao và storage song song.
Compute node là nơi thực thi khối lượng tính toán chính. Các node này thường chứa CPU đa lõi và GPU tăng tốc. Tỷ lệ lõi CPU và GPU được thiết kế tùy theo mục đích sử dụng. Với cụm đào tạo AI, tỷ lệ CPU và GPU có xu hướng nghiêng về GPU vì GPU đảm nhận phần lớn khối lượng tính toán ma trận. CPU chủ yếu điều phối và xử lý các tác vụ hỗ trợ.
Mạng tốc độ cao đóng vai trò là xương sống kết nối các node. Khi các node xử lý song song, chúng cần trao đổi dữ liệu liên tục để đồng bộ trạng thái. Nếu mạng chậm, toàn bộ hiệu năng hệ thống giảm mạnh. Vì vậy, trong hệ thống HPC, interconnect không phải thành phần phụ mà là thành phần quyết định.
Song song với đó là storage song song. Dữ liệu đầu vào và kết quả trung gian phải được đọc và ghi với tốc độ rất cao. Hệ thống file song song cho phép nhiều node truy cập đồng thời mà không gây tắc nghẽn. Toàn bộ cấu trúc này hình thành một trung tâm dữ liệu được tối ưu cho xử lý hiệu năng cao thay vì chỉ lưu trữ hay vận hành ứng dụng thông thường.
Horizontal Scaling và giới hạn của mở rộng theo chiều dọc
Trong nhiều thập kỷ, hiệu năng được cải thiện bằng cách tăng số transistor trên một chip. Tuy nhiên, khi tiến sát giới hạn vật lý, việc mở rộng theo chiều dọc không còn tăng trưởng như trước. Khi đó, chiến lược hợp lý là mở rộng theo chiều ngang, tức là kết nối nhiều bộ xử lý lại thành một hệ thống lớn hơn. Đây là nguyên lý cốt lõi của HPC.
Horizontal scaling trong bối cảnh AI có nghĩa là phân chia dữ liệu và khối lượng tính toán thành nhiều phần, sau đó phân phối lên nhiều compute node. Batch system đóng vai trò điều phối. Job scheduler quyết định tài nguyên nào được cấp phát cho công việc nào. Resource manager đảm bảo phân bổ công bằng và theo dõi tiến độ thực thi.
Khi đào tạo LLM, mỗi batch dữ liệu được xử lý trên nhiều GPU. Kết quả trung gian cần được đồng bộ trước khi bước tiếp theo diễn ra. Điều này yêu cầu tính toán song song ở quy mô lớn và đồng bộ hóa chính xác giữa các node. Nếu một node chậm hoặc lỗi, hệ thống phải có cơ chế phát hiện và phân phối lại công việc.
Mô hình này chỉ khả thi khi kiến trúc được thiết kế cho mục tiêu đó. Một hệ thống máy tính thông thường không có cơ chế phân phối và đồng bộ như vậy. Vì thế, High Performance Computing không chỉ là giải pháp tăng tốc mà là mô hình tổ chức tài nguyên bắt buộc trong kỷ nguyên hậu Moore’s Law.
Quản lý cụm GPU và tối ưu hiệu năng hệ thống
GPU đóng vai trò trung tâm trong đào tạo LLM vì khả năng xử lý ma trận song song. Tuy nhiên, một GPU đơn lẻ không tạo ra bước nhảy vọt. Giá trị thực sự xuất hiện khi nhiều GPU được kết nối thành cụm trong một hệ thống HPC.
Trong cụm này, mỗi GPU xử lý một phần dữ liệu. CPU trên từng node điều phối luồng công việc và giao tiếp với scheduler. Interconnect đảm bảo dữ liệu được truyền nhanh giữa các node. Storage song song đảm bảo dữ liệu đầu vào và checkpoint được truy cập với tốc độ cao. Toàn bộ hệ thống phải được giám sát liên tục để theo dõi CPU usage, memory usage và trạng thái node.
Tối ưu hiệu năng hệ thống không chỉ là tăng số GPU. Nó bao gồm cân bằng giữa CPU và GPU, thiết kế mạng phù hợp, lựa chọn hệ thống file song song và cấu hình scheduler hợp lý. Nếu một thành phần yếu hơn, toàn bộ chuỗi giá trị bị ảnh hưởng.
Vì vậy, khi nói rằng High Performance Computing là hạ tầng nền móng của LLM, điều đó phản ánh một thực tế kỹ thuật. LLM training yêu cầu kiến trúc HPC, yêu cầu hạ tầng AI được tổ chức theo cụm, và yêu cầu tính toán song song ở quy mô lớn. Trong bối cảnh transistor không còn tăng trưởng theo cấp số nhân, thiết kế hệ thống trở thành yếu tố quyết định.
Generative AI không chỉ là cuộc đua thuật toán. Nó là cuộc đua về kiến trúc hệ thống. Khi giới hạn phần cứng đơn lẻ ngày càng rõ ràng, việc thiết kế High Performance Computing hiệu quả trở thành yếu tố then chốt.
LLM quy mô lớn tồn tại vì có HPC, vì có kiến trúc HPC được tổ chức bài bản, và vì có hạ tầng AI tối ưu cho tính toán song song. Trong kỷ nguyên hậu Moore’s Law, lợi thế cạnh tranh không nằm ở con chip đơn lẻ, mà nằm ở cách chúng ta thiết kế và vận hành toàn bộ hệ thống tính toán hiệu năng cao.
Kết luận
CPU và GPU không tồn tại trong mối quan hệ cạnh tranh, mà trong mối quan hệ bổ trợ. CPU tối ưu cho điều phối hệ thống, xử lý logic và đảm bảo độ trễ thấp; GPU tối ưu cho thông lượng cao và tính toán song song quy mô lớn. Trong kỷ nguyên AI, đặc biệt là với LLM training, bài toán không còn nằm ở việc một con chip mạnh đến đâu, mà ở cách toàn bộ hệ thống được tổ chức để khai thác song song hàng nghìn phép tính đồng thời.
Chính vì vậy, để một mô hình ngôn ngữ lớn có thể được huấn luyện và vận hành ở quy mô thực tế, cần nhiều hơn một GPU mạnh. Cần một kiến trúc High Performance Computing (HPC) hoàn chỉnh: cụm GPU được kết nối bằng high-speed interconnect, song song hóa dữ liệu và gradient, sử dụng parallel storage và được điều phối bởi hệ thống quản lý tài nguyên tối ưu. Khi Moore’s Law chậm lại, sức mạnh không còn đến từ việc tăng mật độ transistor, mà đến từ thiết kế hạ tầng tính toán hiệu năng cao.
High Performance Computing vì thế không chỉ là công nghệ hỗ trợ AI. HPC chính là nền móng hạ tầng của Generative AI hiện đại — điều kiện tiên quyết để các hệ thống LLM tồn tại, mở rộng và tạo ra giá trị ở quy mô toàn cầu.
So sánh High Performance Computing (HPC) và Cloud Computing: CAPEX vs OPEX, bare-metal vs virtualized, hybrid HPC và chiến lược hạ tầng AI cho doanh nghiệp.
Blockchain không chỉ là tiền mã hóa. Khi được nhìn như một sổ cái phân tán có thể kiểm chứng, công nghệ này mở ra khả năng xây dựng các hệ thống đăng ký tài sản, định danh và truy xuất nguồn gốc minh bạch giữa nhiều tổ chức. Bài viết này phân tích cách Blockchain trở thành một trusted registry vượt ra ngoài phạm vi cryptocurrency.
Attention Mechanism và Transformer hoạt động ra sao trong Large Language Model? Phân tích Q, K, V, Attention block, Encoder vs Decoder và kiến trúc Transformer - nền tảng của Generative AI và Vibe Coding.