Thanh Thúy
Well-known member
Do các công ty Trung Quốc không thể tiếp cận hàng chục nghìn GPU AI tiên tiến từ Nvidia, họ phải tìm tòi sáng tạo để huấn luyện các mô hình AI cao cấp. Kai-Fu Lee, người sáng lập và lãnh đạo 01.ai, cho biết công ty của ông đã huấn luyện một trong những mô hình AI tiên tiến của mình chỉ với 2.000 GPU và 3 triệu USD.
"Điều khiến bạn bè tôi ở Thung lũng Silicon sốc không chỉ là hiệu suất của mô hình, mà còn là chi phí huấn luyện chỉ 3 triệu USD, trong khi GPT-4 tốn 80-100 triệu USD và GPT-5 được đồn đoán là lên tới 1 tỷ USD," Kai-Fu Lee chia sẻ. "Chúng tôi tin vào quy luật mở rộng, nhưng khi bạn thực hiện kỹ thuật chi tiết xuất sắc, mọi chuyện sẽ khác. Là một công ty ở Trung Quốc, chúng tôi bị hạn chế tiếp cận GPU do quy định của Mỹ."
So với OpenAI, 01.ai đã huấn luyện mô hình hiệu suất cao với chi phí thấp hơn đáng kể. Theo biểu đồ trên website của công ty, Yi-Lightning của 01.ai đứng thứ sáu về hiệu suất mô hình được đo bằng LMSIS tại UC Berkeley. Thành tựu này nổi bật nhờ hiệu quả về chi phí. Nó chứng minh rằng việc đạt được khả năng AI hàng đầu không nhất thiết phải tốn kém, với kỹ thuật tốt và tối ưu hóa mục tiêu có thể mang lại kết quả tương tự với chi phí và tài nguyên tính toán thấp hơn nhiều.
OpenAI được cho là đã sử dụng 10.000 GPU Nvidia A100 để huấn luyện GPT-3 và nhiều hơn nữa cho GPT-4 và GPT-4o. 01.ai phải sử dụng 2.000 GPU không được tiết lộ để huấn luyện Yi-Lightning. Tuy nhiên, năm ngoái, Kai-Fu Lee nói rằng công ty có đủ GPU cho 1,5 năm, nhưng con số này có vẻ không khớp. Một GPU Nvidia H100 có giá khoảng 30.000 USD, vậy 2.000 GPU sẽ có giá 6 triệu USD.
Để cải thiện hiệu suất, 01.ai tập trung giảm tắc nghẽn trong quá trình suy luận bằng cách chuyển đổi nhu cầu tính toán thành các tác vụ hướng bộ nhớ, xây dựng hệ thống bộ nhớ đệm nhiều lớp và thiết kế công cụ suy luận chuyên biệt để tối ưu hóa tốc độ và phân bổ tài nguyên. Kết quả là chi phí suy luận của 01.ai thấp hơn đáng kể so với các mô hình tương tự - 10 xu cho mỗi triệu token, bằng khoảng 1/30 mức phí thông thường.
"Khi chỉ có 2.000 GPU, nhóm phải tìm cách sử dụng hiệu quả," Kai-Fu Lee nói. "Là CEO, tôi phải ưu tiên sử dụng chúng, và không chỉ huấn luyện nhanh mà còn phải suy luận nhanh. Chúng tôi đã thiết kế quy trình suy luận bằng cách xác định các tắc nghẽn, chuyển đổi bài toán tính toán thành bài toán bộ nhớ, xây dựng bộ nhớ đệm nhiều lớp và công cụ suy luận chuyên biệt. Kết quả là chi phí suy luận của chúng tôi chỉ 10 xu cho mỗi triệu token."
"Điều khiến bạn bè tôi ở Thung lũng Silicon sốc không chỉ là hiệu suất của mô hình, mà còn là chi phí huấn luyện chỉ 3 triệu USD, trong khi GPT-4 tốn 80-100 triệu USD và GPT-5 được đồn đoán là lên tới 1 tỷ USD," Kai-Fu Lee chia sẻ. "Chúng tôi tin vào quy luật mở rộng, nhưng khi bạn thực hiện kỹ thuật chi tiết xuất sắc, mọi chuyện sẽ khác. Là một công ty ở Trung Quốc, chúng tôi bị hạn chế tiếp cận GPU do quy định của Mỹ."
So với OpenAI, 01.ai đã huấn luyện mô hình hiệu suất cao với chi phí thấp hơn đáng kể. Theo biểu đồ trên website của công ty, Yi-Lightning của 01.ai đứng thứ sáu về hiệu suất mô hình được đo bằng LMSIS tại UC Berkeley. Thành tựu này nổi bật nhờ hiệu quả về chi phí. Nó chứng minh rằng việc đạt được khả năng AI hàng đầu không nhất thiết phải tốn kém, với kỹ thuật tốt và tối ưu hóa mục tiêu có thể mang lại kết quả tương tự với chi phí và tài nguyên tính toán thấp hơn nhiều.
OpenAI được cho là đã sử dụng 10.000 GPU Nvidia A100 để huấn luyện GPT-3 và nhiều hơn nữa cho GPT-4 và GPT-4o. 01.ai phải sử dụng 2.000 GPU không được tiết lộ để huấn luyện Yi-Lightning. Tuy nhiên, năm ngoái, Kai-Fu Lee nói rằng công ty có đủ GPU cho 1,5 năm, nhưng con số này có vẻ không khớp. Một GPU Nvidia H100 có giá khoảng 30.000 USD, vậy 2.000 GPU sẽ có giá 6 triệu USD.
Để cải thiện hiệu suất, 01.ai tập trung giảm tắc nghẽn trong quá trình suy luận bằng cách chuyển đổi nhu cầu tính toán thành các tác vụ hướng bộ nhớ, xây dựng hệ thống bộ nhớ đệm nhiều lớp và thiết kế công cụ suy luận chuyên biệt để tối ưu hóa tốc độ và phân bổ tài nguyên. Kết quả là chi phí suy luận của 01.ai thấp hơn đáng kể so với các mô hình tương tự - 10 xu cho mỗi triệu token, bằng khoảng 1/30 mức phí thông thường.
"Khi chỉ có 2.000 GPU, nhóm phải tìm cách sử dụng hiệu quả," Kai-Fu Lee nói. "Là CEO, tôi phải ưu tiên sử dụng chúng, và không chỉ huấn luyện nhanh mà còn phải suy luận nhanh. Chúng tôi đã thiết kế quy trình suy luận bằng cách xác định các tắc nghẽn, chuyển đổi bài toán tính toán thành bài toán bộ nhớ, xây dựng bộ nhớ đệm nhiều lớp và công cụ suy luận chuyên biệt. Kết quả là chi phí suy luận của chúng tôi chỉ 10 xu cho mỗi triệu token."