[C1.S7.Ep1] 3 lý do cốt lõi khiến High Performance Computing trở thành tất yếu khi Moore’s Law chậm lại

Công Nghệ 02-03-2026

Mục lục

1. CPU hoạt động như thế nào?
- 1.1. Chu trình Fetch – Decode – Execute
- 1.2. Transistor – nền tảng của xử lý hiệu năng cao
2. Moore’s Law và giới hạn vật lý
- 2.1. Định luật Moore từng hoạt động như thế nào?
  - 2.1.1. Tăng trưởng transistor và động cơ của xử lý hiệu năng cao
  - 2.1.2. Vertical scaling và mô hình tăng trưởng theo chiều dọc
- 2.2. Vì sao Moore’s Law chậm lại?
  - 2.2.1. Giới hạn vật lý ở kích thước nano
  - 2.2.2. Chi phí sản xuất và sự chuyển dịch sang mở rộng theo chiều ngang
3. Từ giới hạn phần cứng đến High Performance Computing (HPC)
- 3.1. Aggregation through parallelism
  - 3.1.1. Khi mở rộng theo chiều dọc không còn hiệu quả
  - 3.1.2. Cấu trúc nền tảng của kiến trúc song song
- 3.2. Vì sao HPC trở thành nền tảng của AI infrastructure?
  - 3.2.1. Yêu cầu tài nguyên của đào tạo mô hình lớn
  - 3.2.2. HPC như hạ tầng cốt lõi của tính toán khoa học và AI
4. Từ CPU đơn lẻ đến siêu máy tính
5. Hậu Moore’s Law: Kiến trúc quan trọng hơn transistor
6. Kết luận
7. Danh mục bài viết cùng chuyên đề

Trong nhiều thập kỷ, ngành công nghệ dựa vào một niềm tin gần như bất biến: sức mạnh xử lý sẽ tăng đều theo thời gian. Định luật Moore (Moore’s Law) từng đảm bảo rằng số transistor trên chip tăng gấp đôi sau mỗi 18–24 tháng, giúp máy tính ngày càng mạnh hơn mà không cần thay đổi kiến trúc căn bản.

Nhưng khi transistor tiến sát giới hạn vật lý ở mức 3nm và 2nm, mọi thứ bắt đầu thay đổi.

Chúng ta không còn có thể chỉ dựa vào việc “nhồi thêm transistor” để tăng hiệu năng. Và chính trong bối cảnh đó, High Performance Computing (HPC) – hệ thống tính toán hiệu năng cao dựa trên kiến trúc song song – trở thành một tất yếu của hạ tầng tính toán hiện đại.

Để hiểu vì sao kiến trúc HPC xuất hiện, chúng ta cần quay lại nền tảng: cách CPU thực sự hoạt động.

CPU hoạt động như thế nào?

Chu trình Fetch – Decode – Execute

Fetch – Lấy lệnh từ bộ nhớ

Trong mọi hệ thống High Performance Computing, quá trình xử lý luôn bắt đầu bằng bước Fetch. CPU không tự tạo ra lệnh. Nó phải lấy lệnh từ bộ nhớ chính. Thành phần trung tâm của bước này là Program Counter. Program Counter giữ địa chỉ của lệnh tiếp theo cần thực thi. Địa chỉ đó được chuyển sang Memory Address Register. Sau đó hệ thống bộ nhớ truy xuất nội dung tại địa chỉ đó và đưa dữ liệu vào Memory Data Register.

Dữ liệu trong Memory Data Register chính là lệnh máy. Lệnh này tiếp tục được chuyển vào Current Instruction Register để chuẩn bị giải mã. Toàn bộ tiến trình diễn ra trong một chu kỳ clock rất ngắn và lặp lại liên tục hàng tỷ lần mỗi giây. Khi lệnh đã được nạp thành công, Program Counter tự động tăng lên để trỏ đến địa chỉ kế tiếp.

Trong hệ thống kiến trúc HPC, bước Fetch phải diễn ra với độ trễ cực thấp. Nếu bộ nhớ chậm, toàn bộ hệ thống sẽ bị nghẽn. Vì vậy CPU sử dụng nhiều tầng cache để rút ngắn khoảng cách giữa bộ xử lý và dữ liệu. Cơ chế này tạo nên nền tảng cho tính toán song song khi nhiều lệnh được nạp liên tục và xử lý chồng lấp theo cơ chế pipeline.

Decode – Giải mã lệnh

Sau khi lệnh được nạp vào Current Instruction Register, CPU chuyển sang giai đoạn Decode. Ở bước này, bộ điều khiển phân tích cấu trúc nhị phân của lệnh để xác định thao tác cần thực hiện. Mỗi lệnh bao gồm mã thao tác và toán hạng. Bộ điều khiển sẽ xác định đây là phép cộng, phép trừ, phép so sánh hay truy xuất dữ liệu.

Trong môi trường hệ thống HPC, khả năng giải mã nhanh và chính xác quyết định hiệu suất tổng thể. Nếu lệnh yêu cầu dữ liệu bổ sung từ RAM, CPU sẽ tiếp tục kích hoạt cơ chế truy xuất bộ nhớ. Nếu lệnh là phép toán số học, dữ liệu sẽ được chuyển sang ALU. Accumulator đóng vai trò lưu giữ kết quả tạm thời của các phép tính trung gian.

Quá trình Decode không chỉ xác định thao tác mà còn đồng bộ với hệ thống xung nhịp. Clock điều phối toàn bộ chu trình để các thành phần hoạt động nhịp nhàng. Trong các cụm xử lý lớn phục vụ xử lý hiệu năng cao, hàng triệu lệnh được giải mã đồng thời trên nhiều lõi, tạo thành nền tảng cho hạ tầng tính toán hiện đại.

Execute – Thực thi lệnh

Khi lệnh đã được giải mã, CPU chuyển sang giai đoạn Execute. Tại đây ALU thực hiện phép toán số học hoặc logic theo yêu cầu. Nếu lệnh là phép cộng, ALU sẽ cộng các giá trị trong thanh ghi. Nếu lệnh là phép so sánh, kết quả sẽ được lưu vào thanh ghi trạng thái.

Sau khi hoàn tất, kết quả có thể được lưu vào Accumulator hoặc ghi trở lại RAM. Trong hệ thống High Performance Computing, bước Execute được tối ưu để giảm độ trễ và tăng thông lượng. Các lệnh không chờ nhau hoàn toàn mà được xử lý theo pipeline, nghĩa là một lệnh đang thực thi trong khi lệnh khác đang được giải mã và lệnh tiếp theo đang được nạp.

Cơ chế này cho phép CPU duy trì tốc độ cao và khai thác tối đa tài nguyên phần cứng. Khi mở rộng lên kiến trúc HPC, nhiều lõi CPU và GPU cùng thực thi hàng nghìn luồng lệnh đồng thời. Từ đó hình thành nên mô hình tính toán song song quy mô lớn, vượt qua giới hạn của một bộ xử lý đơn lẻ.

Transistor – nền tảng của xử lý hiệu năng cao

Transistor là gì và vai trò chuyển mạch

Transistor là thành phần cơ bản nhất của mọi bộ xử lý. Nó hoạt động như một công tắc điện tử. Khi có tín hiệu điện áp phù hợp, transistor cho phép dòng điện đi qua và biểu diễn giá trị 1. Khi không có tín hiệu, nó ngắt dòng điện và biểu diễn giá trị 0.

Hàng tỷ transistor kết hợp lại để tạo thành các cổng logic. Các cổng AND, OR và NOT là nền tảng của mọi phép tính số. Từ những cổng logic đơn giản này, hệ thống xây dựng nên ALU, bộ điều khiển và bộ nhớ đệm. Trong môi trường High Performance Computing, mật độ transistor quyết định trực tiếp khả năng xử lý và mức tiêu thụ điện năng.

Khi số lượng transistor tăng, CPU có thể xử lý nhiều lệnh hơn trong cùng một chu kỳ clock. Điều này tạo điều kiện cho xử lý hiệu năng cao và mở rộng khả năng của hệ thống HPC.

Transistor trong bộ nhớ và điều khiển xung nhịp

Transistor không chỉ dùng để thực hiện phép toán. Trong bộ nhớ SRAM, mỗi bit dữ liệu được lưu trữ bằng nhiều transistor giữ trạng thái điện tích. Cache L1, L2 và L3 đều dựa trên cấu trúc này để đảm bảo truy xuất nhanh.

Bên cạnh đó, transistor tham gia vào mạch tạo xung nhịp và điều khiển đồng bộ. Clock quản lý thời điểm bắt đầu và kết thúc của mỗi chu kỳ Fetch Decode Execute. Nếu không có hệ thống transistor điều phối chính xác, CPU sẽ mất khả năng đồng bộ.

Trong các cụm kiến trúc HPC, nơi hàng nghìn lõi hoạt động đồng thời, việc điều khiển xung nhịp và quản lý điện năng là yếu tố then chốt. Transistor được sử dụng để bật tắt từng vùng của chip nhằm tiết kiệm năng lượng. Điều này đặc biệt quan trọng trong hạ tầng AI và tính toán song song quy mô lớn.

Quy mô transistor và giới hạn phần cứng

Các bộ xử lý hiện đại chứa hàng chục tỷ transistor. Ví dụ Intel Core i9 thế hệ 14 có hơn hai mươi tỷ transistor. Apple M3 vượt mốc hai mươi lăm tỷ. NVIDIA H100 đạt hơn tám mươi tỷ transistor. Những con số này phản ánh mức độ phức tạp của phần cứng hiện đại.

Tuy nhiên việc tăng số transistor không thể diễn ra vô hạn. Khi kích thước tiến xuống mức nano rất nhỏ, hiệu ứng vật lý bắt đầu ảnh hưởng đến độ ổn định. Chính vì vậy ngành công nghệ chuyển hướng sang tối ưu kiến trúc HPC và mở rộng theo cụm thay vì chỉ tăng mật độ transistor trên một chip.

Điều này dẫn đến xu hướng kết hợp nhiều CPU và GPU trong một hệ thống HPC, sử dụng tính toán song song để đạt hiệu năng vượt trội. Như vậy transistor vẫn là nền tảng, nhưng sức mạnh thực sự trong kỷ nguyên High Performance Computing đến từ cách chúng ta tổ chức và kết nối các bộ xử lý lại với nhau.

*3 lý do cốt lõi khiến High Performance Computing trở thành tất yếu khi Moore’s Law chậm lại*

Moore’s Law và giới hạn vật lý

Định luật Moore từng hoạt động như thế nào?

Tăng trưởng transistor và động cơ của xử lý hiệu năng cao

Năm 1965, Gordon Moore quan sát rằng số lượng transistor trên một vi mạch có xu hướng tăng gấp đôi theo chu kỳ thời gian đều đặn. Sau đó ông điều chỉnh dự báo thành khoảng hai năm. Trong nhiều thập kỷ, xu hướng này trở thành nền tảng cho sự phát triển của ngành bán dẫn. Khi số transistor tăng, năng lực xử lý của bộ vi xử lý cũng tăng theo. Điều này giúp CPU thực hiện nhiều chu trình Fetch Decode Execute hơn trong cùng một đơn vị thời gian. Sự gia tăng mật độ transistor cho phép tích hợp nhiều logic gate, nhiều bộ đệm cache và nhiều lõi xử lý trên cùng một con chip. Đây là nền tảng cho việc nâng cao HPC ở cấp độ phần cứng.

Trong giai đoạn từ thập niên 1970 đến khoảng năm 2015, việc tăng mật độ transistor gần như đảm bảo rằng hiệu năng hệ thống tăng đều theo thời gian. Khi transistor nhỏ hơn, tốc độ chuyển mạch nhanh hơn và tiêu thụ điện trên mỗi phép tính giảm. Điều này cho phép cải thiện xử lý hiệu năng cao mà không cần thay đổi cấu trúc tổng thể của hệ thống. Các bộ vi xử lý có thể đạt xung nhịp cao hơn và tích hợp nhiều chức năng điều khiển bộ nhớ, quản lý cache và tối ưu dòng lệnh. Toàn bộ hệ sinh thái tính toán, từ máy tính cá nhân đến cụm High Performance Computing, đều hưởng lợi từ xu hướng này.

Vertical scaling và mô hình tăng trưởng theo chiều dọc

Trong thời kỳ mà Moore’s Law hoạt động hiệu quả, chiến lược tăng hiệu năng chủ yếu dựa trên vertical scaling. Thay vì thay đổi kiến trúc tổng thể, nhà sản xuất tập trung cải tiến một con chip duy nhất. Khi transistor tăng gấp đôi, số lõi xử lý tăng, bộ nhớ đệm mở rộng và khả năng thực hiện nhiều luồng song song ở cấp vi kiến trúc cũng được cải thiện. Điều này giúp nâng cao hiệu suất của hệ thống mà không cần phải kết nối nhiều máy lại với nhau.

Mô hình tăng trưởng theo chiều dọc này có tác động mạnh đến các hệ thống hạ tầng tính toán. Khi mỗi thế hệ CPU mạnh hơn thế hệ trước, doanh nghiệp có thể nâng cấp máy chủ và đạt hiệu năng cao hơn mà không cần thay đổi kiến trúc mạng hay mô hình phân phối công việc. Đối với các bài toán khoa học và kỹ thuật, việc cải tiến một bộ xử lý duy nhất đã đủ để rút ngắn thời gian tính toán đáng kể. Tuy nhiên, cách tiếp cận này phụ thuộc hoàn toàn vào khả năng tiếp tục thu nhỏ transistor. Khi mật độ transistor tăng, hiệu năng tăng mà không cần mở rộng theo chiều ngang. Đây chính là giai đoạn mà kiến trúc HPC chưa phải là lựa chọn bắt buộc mà chỉ là giải pháp nâng cao.

Vì sao Moore’s Law chậm lại?

Giới hạn vật lý ở kích thước nano

Sau năm 2015, việc tiếp tục thu nhỏ transistor xuống các mức 3nm và 2nm bắt đầu đối mặt với giới hạn vật lý. Khi kích thước transistor tiến gần quy mô nguyên tử, hiện tượng quantum tunnelling xuất hiện. Electron có thể xuyên qua rào cản năng lượng mà trước đây được xem là cách điện. Điều này làm giảm khả năng kiểm soát dòng điện và tăng rò rỉ năng lượng. Khi transistor không còn đóng mở hoàn toàn ổn định, hiệu năng và độ tin cậy của hệ thống bị ảnh hưởng.

Bên cạnh đó, mật độ transistor cao làm tăng mật độ nhiệt trên bề mặt chip. Tản nhiệt trở thành thách thức lớn. Khi nhiệt độ tăng, hiệu suất giảm và nguy cơ hỏng hóc tăng theo. Việc duy trì ổn định cho một bộ xử lý có hàng chục tỷ transistor đòi hỏi thiết kế phức tạp và chi phí cao. Điều này tác động trực tiếp đến khả năng mở rộng hiệu năng theo mô hình vertical scaling. Khi chi phí sản xuất tăng mạnh và lợi ích hiệu năng giảm dần, chiến lược dựa hoàn toàn vào thu nhỏ transistor không còn hiệu quả như trước. Trong bối cảnh đó, nhu cầu tìm kiếm giải pháp tính toán song song trở nên rõ ràng hơn.

Chi phí sản xuất và sự chuyển dịch sang mở rộng theo chiều ngang

Quy trình sản xuất ở mức 3nm và 2nm đòi hỏi công nghệ quang khắc tiên tiến và đầu tư hạ tầng cực lớn. Chi phí cho mỗi nhà máy bán dẫn tăng lên mức hàng chục tỷ đô la. Khi lợi ích về hiệu năng không còn tăng theo cấp số nhân, mô hình kinh tế của việc tiếp tục thu nhỏ transistor trở nên kém hấp dẫn hơn. Các hãng bán dẫn vẫn tiếp tục cải tiến, nhưng tốc độ tăng trưởng không còn như trước.

Trong bối cảnh đó, câu hỏi quan trọng xuất hiện. Nếu một con chip đơn lẻ không thể tiếp tục tăng hiệu năng theo quy luật cũ, làm thế nào để đáp ứng nhu cầu tính toán ngày càng lớn. Câu trả lời là mở rộng theo chiều ngang, tức là kết nối nhiều bộ xử lý thành một hệ thống thống nhất. Thay vì phụ thuộc vào một CPU mạnh hơn, chúng ta xây dựng cụm High Performance Computing gồm nhiều compute node, nhiều CPU và GPU hoạt động đồng thời. Kiến trúc này dựa trên parallel computing và hạ tầng mạng tốc độ cao để phân phối khối lượng công việc. Đây là bước chuyển từ vertical scaling sang horizontal scaling, đặt nền tảng cho sự phát triển của kiến trúc HPC hiện đại.

Từ giới hạn phần cứng đến High Performance Computing (HPC)

Aggregation through parallelism

Khi mở rộng theo chiều dọc không còn hiệu quả

Trong nhiều năm, cách tăng hiệu năng phổ biến nhất là làm cho một bộ xử lý đơn lẻ mạnh hơn. Tăng số lượng transistor, tăng xung nhịp, cải thiện bộ nhớ đệm và tối ưu pipeline là những phương pháp chính. Tuy nhiên, khi mật độ transistor tiến sát giới hạn vật lý, việc tiếp tục mở rộng theo chiều dọc trở nên khó khăn. Vấn đề không chỉ nằm ở kích thước mà còn ở nhiệt lượng sinh ra và chi phí sản xuất. Khi hiệu năng không còn tăng theo cấp số nhân như trước, mô hình xử lý tuần tự truyền thống dần bộc lộ giới hạn.

Trong bối cảnh đó, hướng tiếp cận thay đổi từ việc làm một CPU mạnh hơn sang việc kết nối nhiều bộ xử lý lại với nhau. Đây chính là nền tảng của High Performance Computing. Thay vì tập trung vào một điểm xử lý trung tâm, hệ thống phân chia khối lượng công việc thành nhiều phần nhỏ hơn và thực hiện đồng thời. Cách tiếp cận này tận dụng tính toán song song để nâng cao tổng thông lượng xử lý thay vì phụ thuộc vào tốc độ của một lõi đơn lẻ.

Sự chuyển dịch này không nhằm vượt qua giới hạn của transistor mà nhằm tái tổ chức cách tính toán được thực hiện. Khi nhiều lõi CPU và GPU phối hợp với nhau, hiệu năng tổng thể của hệ thống HPC có thể vượt xa bất kỳ bộ xử lý đơn lẻ nào. Đây là bước chuyển từ tư duy tối ưu thành phần sang tư duy tối ưu kiến trúc tổng thể.

Cấu trúc nền tảng của kiến trúc song song

Để hiện thực hóa cách tiếp cận song song, hệ thống cần một kiến trúc chuyên biệt. Một cụm tính toán bao gồm nhiều compute node, mỗi node có CPU đa lõi, có thể kèm GPU và bộ nhớ riêng. Các node này không hoạt động độc lập mà liên kết với nhau thông qua mạng tốc độ cao. Công nghệ interconnect băng thông lớn giúp dữ liệu di chuyển nhanh giữa các node và đảm bảo độ trễ thấp trong quá trình đồng bộ.

Trong môi trường đó, một job scheduler đóng vai trò phân bổ tài nguyên và điều phối khối lượng công việc. Khi người dùng gửi yêu cầu tính toán, hệ thống không giao toàn bộ nhiệm vụ cho một bộ xử lý mà chia thành nhiều tác vụ nhỏ. Các tác vụ này được phân phối đến từng compute node và thực hiện đồng thời. Đây chính là cơ chế cốt lõi giúp High Performance Computing đạt hiệu năng vượt trội.

Bên cạnh đó, hệ thống lưu trữ song song bảo đảm dữ liệu có thể được truy xuất đồng thời bởi nhiều node. Nếu không có tầng lưu trữ phù hợp, hiệu năng xử lý sẽ bị giới hạn bởi tốc độ đọc ghi. Do đó, kiến trúc tổng thể của một hạ tầng tính toán hiệu năng cao bao gồm xử lý, kết nối mạng và lưu trữ hoạt động như một khối thống nhất. Chính sự phối hợp này tạo nên sức mạnh của mô hình song song.

Vì sao HPC trở thành nền tảng của AI infrastructure?

Yêu cầu tài nguyên của đào tạo mô hình lớn

Khi triển khai đào tạo mô hình AI quy mô lớn, đặc biệt là LLM training, khối lượng tính toán tăng theo cấp số nhân. Một GPU đơn lẻ khó có thể xử lý toàn bộ phép nhân ma trận và cập nhật trọng số với tốc độ chấp nhận được. Ngoài ra, bộ nhớ yêu cầu có thể lên đến hàng trăm gigabyte hoặc thậm chí terabyte để lưu trữ tham số và dữ liệu trung gian.

Trong trường hợp này, chỉ dựa vào một máy đơn lẻ không đáp ứng được yêu cầu. Cần một cụm GPU hoạt động đồng thời, trong đó mỗi GPU đảm nhiệm một phần của mô hình hoặc một phần dữ liệu. Mô hình này phù hợp với kiến trúc của High Performance Computing, nơi nhiều node được kết nối bằng mạng tốc độ cao và được điều phối bởi hệ thống lập lịch.

Thông lượng dữ liệu giữa các GPU cũng trở thành yếu tố quan trọng. Nếu băng thông thấp hoặc độ trễ cao, quá trình đồng bộ tham số sẽ chậm lại và làm giảm hiệu năng tổng thể. Vì vậy, kiến trúc HPC với interconnect tốc độ cao và cơ chế phân phối tác vụ hiệu quả trở thành nền tảng tự nhiên cho hạ tầng AI hiện đại.

HPC như hạ tầng cốt lõi của tính toán khoa học và AI

Không chỉ trong đào tạo mô hình AI, nhiều bài toán khoa học cũng đòi hỏi sức mạnh tính toán vượt xa một máy đơn lẻ. Mô phỏng thời tiết, tính toán động lực học chất lỏng và phân tích cấu trúc phân tử đều yêu cầu xử lý hàng tỷ phép tính song song. Nếu không có High Performance Computing, thời gian tính toán có thể kéo dài đến mức không khả thi.

Trong môi trường đó, các compute node phối hợp với nhau thông qua mạng tốc độ cao, dữ liệu được lưu trữ trên hệ thống song song và các tác vụ được điều phối bởi scheduler. Đây là cấu trúc điển hình của một hệ thống HPC. Nhờ cơ chế tính toán song song, bài toán lớn được chia nhỏ và thực hiện đồng thời, rút ngắn thời gian xử lý đáng kể.

Vì vậy, HPC không chỉ là giải pháp kỹ thuật mà là nền tảng hạ tầng cho những lĩnh vực đòi hỏi xử lý quy mô lớn. Khi nhu cầu dữ liệu và mô hình tiếp tục tăng, vai trò của High Performance Computing trong việc duy trì hiệu năng và mở rộng hệ thống sẽ ngày càng quan trọng

Từ CPU đơn lẻ đến siêu máy tính

Hiệu năng xử lý: từ GFLOPS đến TFLOPS

CPU đơn lẻ và giới hạn hiệu năng

Trong một laptop phổ thông, CPU đạt khoảng 100 GFLOPS. Con số này đủ cho các tác vụ văn phòng, lập trình cơ bản hoặc xử lý dữ liệu quy mô nhỏ. Tuy nhiên, kiến trúc của CPU được thiết kế cho tính linh hoạt và độ trễ thấp, không tối ưu cho khối lượng tính toán khổng lồ. CPU có số lượng lõi hạn chế, thường tập trung vào xử lý tuần tự và các tác vụ logic. Khi bài toán mở rộng về kích thước dữ liệu hoặc yêu cầu xử lý đồng thời nhiều phép tính, hiệu năng tăng theo cách tuyến tính và nhanh chóng chạm trần.

Trong bối cảnh đó, mô hình High Performance Computing thay đổi hoàn toàn cách tiếp cận. Thay vì dựa vào một bộ xử lý đơn lẻ, hệ thống sử dụng nhiều compute node kết hợp. Mỗi node có thể chứa nhiều CPU đa lõi và GPU tăng tốc. Khi tổng hợp hiệu năng của toàn cụm, công suất xử lý có thể đạt 10 đến 20 TFLOPS cho CPU và cao hơn nhiều với GPU. Điều này không chỉ là sự gia tăng về số học mà là sự chuyển đổi từ xử lý cục bộ sang tính toán song song. Các tác vụ được phân chia và thực thi đồng thời trên nhiều lõi và nhiều node, giúp rút ngắn thời gian xử lý đáng kể. Đây chính là nền tảng của hệ thống HPC, nơi hiệu năng không còn phụ thuộc vào một con chip mà phụ thuộc vào kiến trúc tổng thể.

Vai trò của GPU trong hệ thống tính toán hiệu năng cao

GPU trong laptop có thể đạt khoảng 1 TFLOPS. Tuy nhiên trong môi trường chuyên dụng, GPU đạt 20 đến 80 TFLOPS. Sự khác biệt này đến từ kiến trúc. GPU được thiết kế cho xử lý song song quy mô lớn với hàng nghìn lõi đơn giản hoạt động đồng thời. Trong một kiến trúc HPC, GPU không hoạt động độc lập mà được tổ chức thành cụm. Tỷ lệ CPU và GPU được thiết kế theo từng mục đích sử dụng như huấn luyện AI, mô phỏng khoa học hay xử lý suy luận.

Khi GPU được kết nối thông qua high speed interconnect như InfiniBand, dữ liệu có thể truyền giữa các node với độ trễ cực thấp. Điều này cho phép các phép tính được đồng bộ giữa nhiều GPU mà không làm nghẽn hệ thống. Kết quả là hiệu năng tăng theo cấp số nhân thay vì tuyến tính. Chính sự phối hợp giữa CPU và GPU trong High Performance Computing tạo ra khả năng xử lý những bài toán mà một máy tính đơn lẻ không thể thực hiện. Sự khác biệt không nằm ở từng linh kiện riêng lẻ mà nằm ở cách tổ chức toàn bộ hạ tầng tính toán.

Bộ nhớ và lưu trữ: từ gigabyte đến petabyte

RAM và khả năng mở rộng trong hệ thống HPC

Một laptop phổ thông có 16GB RAM. Dung lượng này đủ cho các ứng dụng đơn giản nhưng sẽ nhanh chóng quá tải khi xử lý dữ liệu lớn. Trong môi trường High Performance Computing, RAM có thể đạt từ 512GB đến 4TB trên toàn hệ thống. Điều này không chỉ là tăng dung lượng mà là tăng khả năng duy trì dữ liệu trong bộ nhớ để phục vụ tính toán song song.

Mỗi compute node trong kiến trúc HPC có bộ nhớ cục bộ riêng. Khi bài toán được chia thành nhiều phần, dữ liệu liên quan được phân bổ về các node tương ứng. Bộ nhớ lớn giúp giảm việc truy xuất liên tục đến storage, từ đó tăng hiệu suất tổng thể. Ngoài ra, cache nhiều cấp trong CPU và GPU tiếp tục tối ưu truy cập dữ liệu. Khi phối hợp với job scheduler, hệ thống đảm bảo rằng mỗi node có đủ tài nguyên bộ nhớ trước khi thực thi tác vụ. Nhờ vậy, hệ thống tính toán hiệu năng cao duy trì sự ổn định khi xử lý khối lượng dữ liệu lớn.

Parallel storage và băng thông dữ liệu

Laptop thường có 1TB storage. Trong môi trường chuyên dụng, dung lượng có thể đạt 1PB hoặc hơn. Tuy nhiên, điều quan trọng không chỉ là dung lượng mà là tốc độ truy xuất. Parallel storage cho phép nhiều node đọc và ghi dữ liệu cùng lúc. Điều này rất quan trọng khi hàng trăm lõi xử lý cần truy cập dữ liệu đồng thời.

Trong High Performance Computing, hệ thống lưu trữ được thiết kế để chia sẻ giữa các node thông qua mạng tốc độ cao. Khi một tác vụ hoàn thành, kết quả được ghi trở lại storage mà không gây tắc nghẽn. Điều này giúp duy trì thông lượng cao cho toàn bộ cụm. Nếu không có parallel computing đi kèm với lưu trữ song song, hiệu năng tổng thể sẽ bị giới hạn bởi băng thông đĩa. Vì vậy, sự khác biệt giữa laptop và hệ thống HPC không chỉ là dung lượng lưu trữ mà là kiến trúc lưu trữ đồng bộ với toàn bộ kiến trúc HPC.

Mạng và kết nối: nền tảng của cụm tính toán

Network speed và vai trò của interconnect

Laptop thông thường có mạng 1Gbps. Trong môi trường chuyên dụng, tốc độ mạng đạt 200 đến 400Gbps. Sự khác biệt này đóng vai trò quyết định trong High Performance Computing. Khi nhiều compute node phối hợp thực thi một bài toán, dữ liệu phải được trao đổi liên tục. Nếu mạng chậm, toàn bộ quá trình tính toán song song sẽ bị trì hoãn.

High speed interconnect như InfiniBand cung cấp độ trễ thấp và băng thông cao. Điều này giúp đồng bộ giữa các node diễn ra nhanh chóng. Trong kiến trúc HPC, mạng không chỉ là công cụ truyền dữ liệu mà là xương sống của hệ thống. Mỗi node phụ thuộc vào khả năng giao tiếp hiệu quả với node khác. Nếu thiếu thành phần này, cụm tính toán sẽ hoạt động như các máy rời rạc thay vì một hệ thống tính toán hiệu năng cao thống nhất.

Tổ chức hạ tầng và vai trò của scheduler

Một laptop hoạt động độc lập, không cần cơ chế phân phối công việc phức tạp. Trong High Performance Computing, mọi tác vụ đều phải đi qua job scheduler. Người dùng gửi yêu cầu đến login node, sau đó scheduler phân bổ tài nguyên đến các compute node phù hợp. Hệ thống theo dõi tiến độ, phân phối lại khi cần và đảm bảo cân bằng tải.

Cơ chế này giúp tối ưu parallel computing ở quy mô lớn. Khi một node hoàn thành phần việc sớm, scheduler có thể cấp thêm nhiệm vụ. Điều này đảm bảo tài nguyên được sử dụng tối đa. Sự khác biệt giữa laptop và kiến trúc HPC vì vậy không chỉ nằm ở phần cứng mà ở cách tổ chức toàn bộ hạ tầng tính toán. Chính sự kết hợp giữa compute node, mạng tốc độ cao và scheduler tạo nên sức mạnh của High Performance Computing.

Hậu Moore’s Law: Kiến trúc quan trọng hơn transistor

Moore’s Law chậm lại và giới hạn vật lý của transistor

Trong nhiều thập kỷ, hiệu năng máy tính tăng trưởng nhờ việc gia tăng số lượng transistor trên mỗi vi mạch. Khi số transistor tăng, khả năng thực hiện phép tính logic và điều khiển bộ nhớ cũng tăng tương ứng. Tuy nhiên, khi kích thước tiến dần xuống các tiến trình 3nm và 2nm, mật độ transistor không còn tăng theo nhịp độ cũ. Các giới hạn về tản nhiệt, mật độ dòng điện và hiệu ứng vật lý ở quy mô nano khiến việc tiếp tục thu nhỏ transistor trở nên phức tạp và tốn kém hơn.

Điều này tác động trực tiếp tới toàn bộ hệ thống tính toán. Trước đây, chỉ cần chờ thế hệ chip mới, hiệu năng xử lý sẽ tự nhiên cải thiện. Hiện nay, tốc độ tăng trưởng không còn duy trì theo cấp số nhân. Khi Moore’s Law chậm lại, việc phụ thuộc hoàn toàn vào transistor để nâng cao hiệu năng hệ thống không còn là chiến lược bền vững. Các bộ xử lý vẫn có thể tăng số transistor, nhưng chi phí và độ phức tạp sản xuất ngày càng cao.

Trong bối cảnh đó, ngành công nghệ bắt đầu chuyển trọng tâm từ việc tối ưu một con chip đơn lẻ sang cách tổ chức nhiều thành phần xử lý thành một hạ tầng tính toán lớn hơn. Khi giới hạn phần cứng xuất hiện ở cấp độ vi mạch, giải pháp không còn nằm ở quy mô nanomet mà nằm ở cấp độ kiến trúc. Đây chính là tiền đề cho sự phát triển của High Performance Computing như một hướng đi tất yếu thay vì chỉ là lựa chọn nâng cấp.

Thiết kế chip 3D và hướng tiếp cận tích hợp

Khi không thể tiếp tục mở rộng transistor theo chiều ngang một cách hiệu quả, ngành bán dẫn chuyển sang tối ưu cấu trúc bên trong chip. Các thiết kế nhiều lớp và cấu trúc ba chiều giúp tăng mật độ tích hợp mà không phụ thuộc hoàn toàn vào việc thu nhỏ kích thước transistor. Việc xếp chồng các lớp logic và bộ nhớ giúp rút ngắn khoảng cách truyền dữ liệu nội bộ, giảm độ trễ và cải thiện thông lượng.

Các hướng phát triển như RibbonFET hay tích hợp nhiều lớp bán dẫn cho thấy sự thay đổi trọng tâm từ số lượng transistor sang cấu trúc tổ chức transistor. Mục tiêu không chỉ là có nhiều bóng bán dẫn hơn, mà là phân bố chúng hợp lý để tối ưu dòng dữ liệu và năng lượng tiêu thụ. Tuy nhiên, ngay cả với thiết kế tiên tiến, một con chip đơn lẻ vẫn có giới hạn về công suất và khả năng mở rộng.

Điều này dẫn đến nhận thức rằng hiệu năng thực tế không chỉ đến từ bản thân chip mà đến từ cách chip được đặt trong một hệ thống lớn hơn. Khi nhiều bộ xử lý và bộ nhớ được kết nối thông qua mạng tốc độ cao, chúng tạo thành một kiến trúc HPC hoàn chỉnh. Chính sự kết hợp giữa chip tiên tiến và tổ chức hệ thống hợp lý mới tạo ra bước nhảy về xử lý hiệu năng cao. Đây là sự chuyển dịch từ tối ưu linh kiện sang tối ưu cấu trúc tổng thể.

Từ mở rộng theo chiều dọc sang mở rộng theo chiều ngang

Trong giai đoạn đầu của điện toán, tăng hiệu năng chủ yếu dựa vào việc làm cho một bộ xử lý mạnh hơn. Đây là cách tiếp cận mở rộng theo chiều dọc. Khi tốc độ xung nhịp và số transistor tăng đều, chiến lược này hoạt động hiệu quả. Tuy nhiên, khi các giới hạn vật lý xuất hiện, việc tiếp tục nâng cao hiệu năng bằng một bộ xử lý đơn lẻ trở nên khó khăn hơn.

Thay vì cố gắng đẩy một con chip lên mức cực hạn, các hệ thống hiện đại chuyển sang mở rộng theo chiều ngang bằng cách kết nối nhiều bộ xử lý lại với nhau. Trong High Performance Computing, hàng chục hoặc hàng trăm compute node được liên kết qua mạng tốc độ cao để xử lý một bài toán lớn. Cách tiếp cận này dựa trên tính toán song song, nơi nhiều lõi CPU và GPU cùng thực hiện các phần khác nhau của cùng một nhiệm vụ.

Khi bài toán được chia nhỏ và phân phối hợp lý, tổng hiệu năng vượt xa khả năng của một máy đơn lẻ. Điều này không phụ thuộc hoàn toàn vào việc tăng transistor mà dựa vào khả năng tổ chức tài nguyên. Chính sự phối hợp giữa compute node, job scheduler và mạng interconnect đã tạo nên một hệ thống HPC có khả năng mở rộng linh hoạt. Mở rộng theo chiều ngang vì vậy trở thành nền tảng của tư duy kiến trúc hậu Moore’s Law.

Thiết kế hệ thống quan trọng hơn linh kiện đơn lẻ

Khi bước vào giai đoạn hậu Moore’s Law, trọng tâm công nghệ chuyển từ linh kiện sang hệ thống. Một con chip mạnh không đảm bảo toàn bộ hệ thống đạt hiệu năng tối đa nếu bộ nhớ, mạng và lưu trữ không được tổ chức đồng bộ. Trong kiến trúc hiện đại, các thành phần như compute node, high speed interconnect và parallel storage phải phối hợp chặt chẽ để đảm bảo dòng dữ liệu liên tục.

Trong kiến trúc HPC, người dùng không tương tác trực tiếp với từng chip mà thông qua login node và job scheduler. Hệ thống phân phối tác vụ đến các compute node và giám sát quá trình thực thi. Cách tổ chức này cho phép tối ưu toàn bộ chuỗi xử lý thay vì tối ưu từng phần riêng lẻ. Nhờ đó, hiệu năng hệ thống được nâng cao không chỉ bởi phần cứng mà bởi cách điều phối tài nguyên.

Sự thay đổi tư duy này thể hiện rõ trong cách thiết kế hạ tầng AI và các cụm GPU. Thay vì tìm kiếm một bộ xử lý đơn lẻ mạnh nhất, các tổ chức đầu tư vào hạ tầng tính toán có khả năng mở rộng và phân phối công việc hiệu quả. Đây là bước chuyển từ việc làm chip tốt hơn sang thiết kế hệ thống tốt hơn. Trong bối cảnh đó, High Performance Computing không chỉ là công nghệ mà là kiến trúc trung tâm của kỷ nguyên tính toán hiện đại.

Kết luận

High Performance Computing không phải một xu hướng ngắn hạn, mà là hệ quả tất yếu khi giới hạn vật lý của transistor dần lộ rõ và Moore’s Law không còn duy trì tốc độ tăng trưởng như trước. Trong kỷ nguyên dữ liệu và AI, sức mạnh của một con chip đơn lẻ không còn đủ. Kiến trúc tính toán song song, cụm GPU và hạ tầng HPC trở thành nền móng để xử lý những bài toán quy mô lớn mà doanh nghiệp hiện đại đang đối mặt.

Nếu doanh nghiệp của bạn đang xây dựng chiến lược dữ liệu, AI hoặc đầu tư hạ tầng tính toán, việc hiểu rõ High Performance Computing không chỉ là câu chuyện kỹ thuật mà là quyết định chiến lược dài hạn. Hãy theo dõi Mafitech để tiếp tục khám phá kiến trúc phía sau kỷ nguyên AI và nhận các tài liệu chuyên sâu phục vụ cho quá trình ra quyết định.

Danh mục bài viết cùng chuyên đề

[C1.S7.Ep1] 3 lý do cốt lõi khiến High Performance Computing trở thành tất yếu khi Moore’s Law chậm lại

Chia sẻ bài viết

Tags:

Công nghệ hieu ve cong nghe ai

Nội Dung Liên Quan Đến Công Nghệ

[C1.S8.Ep1] Tái cấu trúc niềm tin: Vì sao Blockchain xuất hiện từ vấn đề của tiền điện tử?

02-03-2026

Blockchain không bắt đầu từ tiền mã hóa, mà từ một câu hỏi sâu hơn: tiền thực chất là gì và ai kiểm soát sổ cái ghi nhận giá trị? Từ “money as ledger” đến bài toán electronic cash, bài viết này phân tích cách Blockchain tái cấu trúc niềm tin và đặt nền móng cho Internet of Value.

3 tổn thất vô hình trong quyết định công nghệ mà doanh nghiệp không thấy trên báo cáo

Tin Nổi Bật

[C1.S10.Ep3] Attended Bot vs Unattended Bot: Doanh nghiệp nên chọn mô hình RPA nào?