CEO NVIDIA Jensen Huang vừa thực hiện một nước đi khôn ngoan khi “có được” Groq mà không cần phải thâu tóm công ty này. Thỏa thuận trị giá 20 tỷ USD này không chỉ giúp Team Green tránh được sự giám sát của cơ quan quản lý, mà còn mở ra cơ hội thống trị thị trường AI inference – mảng đang được các ông lớn công nghệ nhòm ngó.
Thương vụ trông như thâu tóm nhưng trên giấy tờ lại không phải
Ban đầu, CNBC đưa tin NVIDIA đang “mua lại” Groq Inc. với giá 20 tỷ USD, ngay lập tức tạo nên làn sóng bàn tán trong giới công nghệ. Nhiều người cho rằng cơ quan quản lý sẽ can thiệp vào thương vụ này, trong khi số khác lo ngại về tương lai của Groq.
Tuy nhiên, Groq sau đó đã ra thông báo chính thức trên website, khẳng định họ chỉ ký “thỏa thuận cấp phép không độc quyền” với NVIDIA. Theo đó, gã khổng lồ AI được quyền tiếp cận công nghệ inference của Groq.
Trong một email nội bộ, ông Jensen Huang giải thích: “Chúng tôi dự định tích hợp bộ xử lý độ trễ thấp của Groq vào kiến trúc NVIDIA AI factory, mở rộng nền tảng để phục vụ nhiều loại khối lượng công việc AI inference và thời gian thực hơn. Mặc dù chúng tôi đang bổ sung nhân viên tài năng vào đội ngũ và cấp phép IP của Groq, nhưng chúng tôi không thâu tóm Groq với tư cách là một công ty.”
Như vậy, ít nhất trên giấy tờ, nhận thức về một vụ sáp nhập đã bị phủ nhận. Điều này khiến nhiều người trong ngành đặt câu hỏi: Liệu đây có phải là cách NVIDIA né tránh sự giám sát của các cơ quan quản lý?

Chiêu “reverse acqui-hire” kiểu Microsoft
Thực chất, NVIDIA đang áp dụng chiến thuật “reverse acqui-hire” – một nước đi từng được Microsoft sử dụng thành công. Năm 2024, Microsoft đã ký thỏa thuận trị giá 653 triệu USD với Inflection, trong đó các nhân tài chủ chốt như Mustafa Suleyman và Karén Simonyan gia nhập Microsoft để dẫn dắt chiến lược AI, trong khi Inflection vẫn tiếp tục hoạt động với cơ cấu tối thiểu.
Reverse acqui-hire có nghĩa là một công ty thuê những nhân tài then chốt từ một startup, nhưng để lại cấu trúc doanh nghiệp “tối thiểu”, qua đó tránh được việc bị coi là thâu tóm hay sáp nhập. Bằng cách định nghĩa thỏa thuận với Groq là “thỏa thuận cấp phép không độc quyền”, NVIDIA về cơ bản đã thoát khỏi phạm vi điều tra của Đạo luật Hart-Scott-Rodino (HSR) thuộc Ủy ban Thương mại Liên bang Mỹ (FTC).
Điều thú vị là Groq cho biết GroqCloud sẽ tiếp tục hoạt động, nhưng chỉ với vai trò là một “cấu trúc tối thiểu”. Điều này có nghĩa là NVIDIA đã có được nhân tài và sở hữu trí tuệ của Groq với giá 20 tỷ USD, đồng thời tránh được các cuộc điều tra của cơ quan quản lý, cho phép họ hoàn tất thỏa thuận chỉ trong vài ngày.
Và khi nói đến phần cứng mà họ giờ đây có quyền tiếp cận, đó mới là phần thú vị nhất của thương vụ NVIDIA-Groq.

Kiến trúc LPU của Groq – mảnh ghép còn thiếu cho bá chủ AI
Ngành công nghiệp AI đã phát triển mạnh mẽ trong những tháng gần đây về nhu cầu tính toán. Trong khi các công ty như OpenAI, Meta, Google và những công ty khác đang tập trung vào việc huấn luyện các mô hình tiên tiến, họ cũng đang tìm kiếm một hệ thống inference mạnh mẽ, bởi đó là nơi hầu hết các nhà cung cấp dịch vụ đám mây kiếm tiền.
Khi Google công bố TPU Ironwood, ngành công nghiệp đã ca ngợi nó như một lựa chọn tập trung vào inference. Các chip chuyên dụng này được xem là đối thủ của NVIDIA, chủ yếu vì có những tuyên bố rằng ông Jensen vẫn chưa đưa ra giải pháp thống trị thông lượng inference.
Khi nói đến inference, nhu cầu tính toán thay đổi đáng kể. Với huấn luyện (training), ngành công nghiệp yêu cầu thông lượng hơn độ trễ và cường độ số học cao, đó là lý do tại sao các bộ gia tốc hiện đại được trang bị HBM và tensor core khổng lồ.
Tuy nhiên, vì các nhà cung cấp dịch vụ đám mây đang chuyển hướng sang inference, giờ đây họ cần một công cụ thực thi nhanh, có thể dự đoán được. Độ trễ phản hồi là nút thắt cổ chai chính. Để mang lại tốc độ tính toán nhanh, các công ty như NVIDIA đã nhắm tới các khối lượng công việc như inference ngữ cảnh lớn với Rubin CPX, hoặc Google tự xưng là lựa chọn tiết kiệm năng lượng hơn với TPU.
Tuy nhiên, khi nói đến decode (giải mã), không có nhiều lựa chọn. Decode là giai đoạn tạo token trong mô hình transformer, và nó đang trở nên ngày càng quan trọng. Decode đòi hỏi hành vi xác định và độ trễ thấp. Với những hạn chế do việc sử dụng HBM (độ trễ và năng lượng) trong môi trường inference, Groq có thứ gì đó độc đáo – đó là việc sử dụng SRAM (Static RAM).

LPU của Groq: Kết hợp decode độ trễ thấp và đánh bại đối thủ
LPU (Language Processing Unit) là sáng tạo của cựu CEO Groq, Jonathan Ross, người hiện đang gia nhập NVIDIA sau thỏa thuận gần đây. Ross nổi tiếng với công việc phát triển TPU của Google, vì vậy có thể chắc chắn rằng Team Green đang có được một tài sản quan trọng.
LPU là giải pháp của Groq cho các khối lượng công việc inference, và công ty này khác biệt với các đối thủ nhờ hai yếu tố cốt lõi. Thứ nhất là thực thi xác định và SRAM trên chip làm bộ nhớ lưu trữ trọng số chính. Đây là cách tiếp cận của Groq để đạt được tốc độ bằng cách đảm bảo khả năng dự đoán.
Groq trước đây đã giới thiệu hai giải pháp hàng đầu: GroqChip và GroqCard dựa trên đối tác. Dựa trên thông tin được công bố trong các tài liệu chính thức, các chip này có 230 MB SRAM trên chip với băng thông bộ nhớ trên chip lên tới 80 TB/s.
Việc sử dụng SRAM là một trong những lợi thế chính của LPU, vì nó cho phép độ trễ thấp hơn nhiều bậc. Với HBM, khi tính đến độ trễ do truy cập DRAM và hàng đợi bộ điều khiển bộ nhớ, SRAM thắng thế với khoảng cách đáng kể. SRAM trên chip cho phép Groq đạt được hàng chục terabyte mỗi giây băng thông nội bộ, giúp công ty cung cấp thông lượng hàng đầu.
SRAM cũng cho phép Groq cung cấp nền tảng tiết kiệm năng lượng, vì truy cập SRAM yêu cầu năng lượng thấp hơn đáng kể cho mỗi bit và loại bỏ chi phí PHY. Trong decode, LPU dẫn đến năng lượng trên mỗi token được cải thiện đáng kể, đây là yếu tố quan trọng vì khối lượng công việc decode tiêu tốn nhiều bộ nhớ.
Đây là khía cạnh kiến trúc của LPU, và mặc dù có vẻ quan trọng, nhưng đó chỉ là một phần về cách LPU hoạt động. Yếu tố khác là tận dụng chu kỳ xác định, tập trung vào lập lịch biên dịch để loại bỏ các biến thể về thời gian giữa các kernel.
Lập lịch biên dịch đảm bảo rằng “độ trễ” trong các pipeline decode không tồn tại, và đây là yếu tố quan trọng vì nó cho phép sử dụng pipeline hoàn hảo, cho phép thông lượng cao hơn nhiều so với các bộ gia tốc hiện đại.

NVIDIA giờ có mọi thứ cho thị trường inference
Tóm lại, LPU được dành riêng cho những gì các nhà cung cấp dịch vụ đám mây cần cho inference, nhưng có một lưu ý mà ngành công nghiệp hiện đang bỏ qua. LPU là phần cứng inference thực sự và hiệu quả, nhưng chúng rất chuyên biệt và chưa trở thành nền tảng mặc định chính thống, và đó là lúc NVIDIA xuất hiện.
Mặc dù vẫn chưa biết LPU có thể được tích hợp vào các sản phẩm của NVIDIA như thế nào, nhưng một cách để làm điều đó là cung cấp chúng như một phần của hệ thống inference quy mô rack (tương tự như Rubin CPX), kết hợp với cơ sở hạ tầng mạng. Điều này sẽ cho phép GPU xử lý prefill/ngữ cảnh dài, với LPU tập trung vào decode, về cơ bản có nghĩa là trong các tác vụ inference, NVIDIA đã có mọi thứ được sắp xếp.
Điều này có thể biến hình ảnh của LPU từ một lựa chọn thử nghiệm thành phương pháp inference tiêu chuẩn, đảm bảo việc áp dụng rộng rãi của chúng trong các nhà cung cấp dịch vụ đám mây.
Không có gì để nghi ngờ rằng thỏa thuận này đánh dấu một trong những thành tựu lớn nhất của NVIDIA khi mở rộng danh mục sản phẩm, vì tất cả các dấu hiệu đều chỉ ra rằng inference sẽ là lĩnh vực tiếp theo mà NVIDIA tập trung, và LPU sẽ là phần cốt lõi trong chiến lược của công ty cho mảng khối lượng công việc AI này.



