DeepSeek đang tìm cách tận dụng lợi thế của mình.
Tháng
trước, công ty khởi nghiệp Trung Quốc này đã bán tháo hơn 1 nghìn tỷ đô
la trên thị trường chứng khoán toàn cầu với mô hình lý luận AI giá rẻ
vượt trội hơn nhiều đối thủ phương Tây.
Theo ba người quen thuộc
với công ty, hiện tại, công ty có trụ sở tại Hàng Châu đang đẩy nhanh
việc ra mắt phiên bản kế nhiệm của mô hình R1 ra mắt vào tháng 1.
Hai
người trong số họ cho biết Deepseek đã lên kế hoạch phát hành R2 vào
đầu tháng 5 nhưng hiện muốn phát hành sớm nhất có thể, nhưng không cung
cấp thông tin chi tiết.
Công ty cho biết họ hy vọng mô hình mới sẽ tạo ra mã hóa tốt hơn và có thể lý luận bằng các ngôn ngữ ngoài tiếng Anh.
Các
đối thủ vẫn đang phân tích những hàm ý của R1, được xây dựng bằng chip
Nvidia yếu hơn nhưng có khả năng cạnh tranh với những chip được phát
triển với chi phí hàng trăm tỷ đô la của các công ty công nghệ khổng lồ
Hoa Kỳ.
“Việc ra mắt mô hình R2 của DeepSeek có thể là một thời
điểm quan trọng trong ngành AI”, ông Vijayasimha Alilughatta, giám đốc
điều hành của nhà cung cấp dịch vụ công nghệ Ấn Độ Zensar cho biết.
Thành công của DeepSeek trong việc tạo ra các mô hình AI tiết kiệm chi
phí “có thể sẽ thúc đẩy các công ty trên toàn thế giới đẩy nhanh nỗ lực
của riêng họ ... phá vỡ sự kìm kẹp của một số ít công ty thống trị trong
lĩnh vực này”, ông nói.
R2 có thể khiến chính phủ Hoa Kỳ lo lắng,
nước đã xác định vị thế dẫn đầu về AI là ưu tiên quốc gia. Việc phát
hành R2 có thể thúc đẩy hơn nữa các nhà chức trách và công ty Trung
Quốc, hàng chục công ty trong số đó cho biết họ đã bắt đầu tích hợp các
mô hình DeepSeek vào sản phẩm của mình.
Người ta biết rất ít về
DeepSeek. Người sáng lập Liang Wenfeng đã trở thành tỷ phú thông qua quỹ
đầu cơ định lượng High-Flyer của mình. Ông Liang, người được một cựu
chủ nhân mô tả là “kín tiếng và hướng nội”, đã không nói chuyện với bất
kỳ phương tiện truyền thông nào kể từ tháng 7 năm 2024.
Reuters đã
phỏng vấn hàng chục cựu nhân viên, cũng như các chuyên gia am hiểu về
hoạt động của DeepSeek và công ty mẹ High-Flyer. Reuters cũng đã xem xét
các bài báo trên truyền thông nhà nước, các bài đăng trên mạng xã hội
từ các công ty và các bài báo nghiên cứu có từ năm 2019.
Họ tường
thuật về một công ty hoạt động giống một phòng thí nghiệm nghiên cứu hơn
là một doanh nghiệp vì lợi nhuận và không bị cản trở bởi các truyền
thống phân cấp của ngành công nghệ áp lực cao của Trung Quốc, ngay cả
khi công ty này chịu trách nhiệm cho những gì mà nhiều nhà đầu tư coi là
bước đột phá mới nhất trong AI.
Con đường khác biệt
Ông
Liang sinh năm 1985 tại một ngôi làng nông thôn ở tỉnh Quảng Đông phía
nam. Sau đó, ông lấy bằng kỹ sư truyền thông tại Đại học Chiết Giang
danh tiếng.
Một trong những công việc đầu tiên của ông là điều
hành một bộ phận nghiên cứu tại một công ty hình ảnh thông minh ở Thượng
Hải. Ông chủ khi đó của ông, Zhou Chaoen, đã nói với phương tiện truyền
thông nhà nước vào ngày 9 tháng 2 rằng ông Liang đã thuê các kỹ sư
thuật toán từng đoạt giải thưởng và hoạt động theo “phong cách quản lý
phẳng”.
Tại DeepSeek và High-Flyer, ông Liang cũng tránh xa các
hoạt động của những công ty công nghệ khổng lồ Trung Quốc nổi tiếng với
cách quản lý từ trên xuống cứng nhắc, trả lương thấp cho nhân viên trẻ
và áp dụng công thức “996” - làm việc từ 9 giờ sáng đến 9 giờ tối sáu
ngày một tuần.
Ông Liang đã mở văn phòng tại Bắc Kinh, cách Đại
học Thanh Hoa và Đại học Bắc Kinh, hai cơ sở giáo dục danh giá nhất
Trung Quốc, không xa. Theo hai cựu nhân viên, ông thường xuyên nghiên
cứu sâu về các chi tiết kỹ thuật và rất vui khi được làm việc cùng với
các thực tập sinh thế hệ Z và những người mới tốt nghiệp, chiếm phần lớn
lực lượng lao động của công ty. Họ cũng mô tả rằng thường làm việc tám
giờ một ngày trong bầu không khí hợp tác.
“Ông Liang đã trao quyền
kiểm soát cho chúng tôi và đối xử với chúng tôi như những chuyên gia.
Ông ấy liên tục đặt câu hỏi và học hỏi cùng chúng tôi”, nhà nghiên cứu
26 tuổi Benjamin Liu, người đã rời công ty vào tháng 9, cho biết.
Ông Liang không trả lời các câu hỏi được gửi qua DeepSeek.
Trong
khi Baidu và các công ty công nghệ khổng lồ Trung Quốc khác đang chạy
đua để xây dựng các phiên bản ChatGPT dành cho người tiêu dùng vào năm
2023 và hưởng lợi từ sự bùng nổ AI toàn cầu, ông Liang đã nói với hãng
truyền thông Trung Quốc Waves vào năm ngoái rằng ông cố tình tránh chi
tiêu nhiều vào việc phát triển ứng dụng, thay vào đó tập trung vào việc
cải thiện chất lượng của mô hình AI.
Cả DeepSeek và High-Flyer đều
nổi tiếng là trả lương hậu hĩnh, theo ba người quen thuộc với các hoạt
động trả lương của công ty này. Tại High-Flyer, không có gì lạ khi một
nhà khoa học dữ liệu cấp cao kiếm được 1,5 triệu nhân dân tệ mỗi năm,
trong khi các đối thủ cạnh tranh hiếm khi trả hơn 800.000 nhân dân tệ.
Khoản
tiền hào phóng này được tài trợ bởi High-Flyer, một trong những quỹ
định lượng thành công nhất của Trung Quốc và, ngay cả sau khi chính phủ
đàn áp lĩnh vực này, vẫn quản lý hàng chục tỷ nhân dân tệ, theo hai
người trong ngành.
Sức mạnh máy tính
Thành
công của DeepSeek với mô hình AI giá rẻ dựa trên khoản đầu tư lớn và kéo
dài hàng thập niên của High-Flyer vào nghiên cứu và năng lực tính toán,
ba người cho biết.
Quỹ định lượng này là một công ty tiên phong
trong giao dịch AI trước đó và một giám đốc điều hành cấp cao đã nói vào
năm 2020 rằng High-Flyer sẽ “dồn hết tiền” vào AI bằng cách tái đầu tư
70% doanh thu, chủ yếu vào nghiên cứu AI.
High-Flyer đã chi 1,2 tỷ
nhân dân tệ cho hai cụm AI siêu máy tính vào năm 2020 và 2021. Cụm thứ
hai, Fire-Flyer II, bao gồm khoảng 10.000 chip Nvidia A100, được sử dụng
để đào tạo các mô hình AI.
Một người hiểu rõ suy nghĩ của các
quan chức cho biết DeepSeek chưa được thành lập vào thời điểm đó, vì vậy
việc tích lũy năng lực tính toán đã thu hút sự chú ý của các cơ quan
quản lý chứng khoán Trung Quốc.
Người đó nói rằng “Các cơ quan
quản lý muốn biết tại sao họ cần nhiều chip như vậy?”. “Họ sẽ sử dụng nó
như thế nào? Nó sẽ có tác động như thế nào đến thị trường?”
Các
nhà chức trách đã quyết định không can thiệp, trong một động thái sẽ
chứng minh là rất quan trọng đối với vận mệnh của DeepSeek: Hoa Kỳ đã
cấm xuất khẩu chip A100 sang Trung Quốc vào năm 2022, thời điểm
Fire-Flyer II đã đi vào hoạt động.
Bắc Kinh hiện đang ca ngợi
DeepSeek, nhưng đã chỉ thị cho công ty này không được tiếp xúc với giới
truyền thông nếu không được chấp thuận, theo một người hiểu rõ về tư duy
của các quan chức Trung Quốc.
Các nhà chức trách đã yêu cầu ông
Liang giữ kín thông tin vì họ lo ngại rằng việc thổi phồng quá mức trên
các phương tiện truyền thông sẽ thu hút sự chú ý không cần thiết, người
này cho biết.
Nội các và Bộ thương mại Trung Quốc, cũng như cơ quan quản lý chứng khoán Trung Quốc, đã không trả lời các yêu cầu bình luận.
Là
một trong số ít công ty có cụm A100 lớn, High-Flyer và DeepSeek đã có
thể thu hút một số nhân tài nghiên cứu giỏi nhất của Trung Quốc, hai cựu
nhân viên cho biết.
“Ưu điểm chính của các nguồn tài nguyên (tính
toán) khổng lồ là nó cho phép thử nghiệm trên quy mô lớn”, ông Liu, cựu
nhân viên nói.
Một số doanh nhân AI phương Tây, như Giám đốc điều
hành Scale AI Alexandr Wang, đã tuyên bố rằng DeepSeek có tới 50.000
chip Nvidia cao cấp bị cấm xuất khẩu sang Trung Quốc. Ông không đưa ra
bằng chứng cho cáo buộc này hoặc trả lời yêu cầu của Reuters về việc
cung cấp bằng chứng.
Hai cựu nhân viên cho rằng thành công của công ty là nhờ ông Liang tập trung vào kiến trúc AI tiết kiệm chi phí hơn.
Các
bài báo nghiên cứu của công ty cho thấy công ty khởi nghiệp này đã sử
dụng các kỹ thuật như (MoE) và (MLA), giúp giảm đáng kể chi phí tính
toán.
Kỹ thuật MoE chia một mô hình AI thành các lĩnh vực chuyên
môn khác nhau và chỉ kích hoạt những lĩnh vực liên quan đến truy vấn,
trái ngược với các kiến trúc phổ biến hơn sử dụng toàn bộ mô hình.
Kiến
trúc MLA cho phép một mô hình xử lý các khía cạnh khác nhau của một
thông tin cùng một lúc, giúp phát hiện các chi tiết chính hiệu quả hơn.
Trong
khi các đối thủ cạnh tranh như Mistral của Pháp đã phát triển các mô
hình dựa trên MoE, DeepSeek là công ty đầu tiên phụ thuộc nhiều vào kiến
trúc này trong khi vẫn đạt được sự ngang bằng với các mô hình được xây
dựng đắt tiền hơn.
Giá của DeepSeek rẻ hơn từ 20 đến 40 lần so với
giá mà OpenAI tính cho các mô hình tương đương, các nhà phân tích tại
công ty môi giới Bernstein ước tính vào đầu tháng 2.
Hiện tại, các
công ty công nghệ lớn của phương Tây và Trung Quốc đã báo hiệu kế hoạch
tiếp tục chi tiêu mạnh tay cho AI, nhưng thành công của DeepSeek với R1
và mô hình V3 trước đó đã thúc đẩy một số công ty thay đổi chiến lược.
OpenAI
đã giảm giá trong tháng này, trong khi Gemini của Google đã giới thiệu
các cấp độ truy cập được giảm giá. Kể từ khi R1 ra mắt, OpenAI cũng đã
phát hành mô hình O3-Mini dựa trên ít sức mạnh tính toán hơn.
Adnan
Masood thuộc nhà cung cấp dịch vụ công nghệ UST của Hoa Kỳ nói với
Reuters rằng phòng thí nghiệm của ông đã chạy các điểm chuẩn và phát
hiện ra rằng R1 thường sử dụng nhiều gấp ba lần số mã thông báo hoặc đơn
vị dữ liệu được mô hình AI xử lý để lập luận so với mô hình thu nhỏ của
OpenAI.
Nhà nước ủng hộ
Ngay cả trước khi
R1 thu hút sự chú ý của toàn cầu, đã có những dấu hiệu cho thấy DeepSeek
đã được Bắc Kinh ủng hộ. Vào tháng 1, phương tiện truyền thông nhà nước
đưa tin rằng ông Liang đã tham dự một cuộc họp với Thủ tướng Trung Quốc
Lý Cường tại Bắc Kinh với tư cách là đại diện được chỉ định của ngành
AI, trước các nhà lãnh đạo của các công ty nổi tiếng hơn.
Sự ồn ào
sau đó về khả năng cạnh tranh về chi phí của các mô hình đã củng cố
niềm tin của Bắc Kinh rằng họ có thể vượt qua Hoa Kỳ, với các công ty và
cơ quan chính phủ Trung Quốc áp dụng các mô hình DeepSeek với tốc độ
chưa từng có.
Ít nhất 13 chính quyền thành phố Trung Quốc và 10
công ty năng lượng nhà nước cho biết họ đã triển khai DeepSeek vào hệ
thống của mình, trong khi các công ty công nghệ khổng lồ Lenovo, Baidu
và Tencent - chủ sở hữu của ứng dụng truyền thông xã hội lớn nhất Trung
Quốc WeChat - đã tích hợp các mô hình của DeepSeek vào sản phẩm của họ.
Nhà
lãnh đạo Trung Quốc Tập Cận Bình và ông Lý “đã ra tín hiệu họ ủng hộ
DeepSeek”, ông Alfred Wu, một chuyên gia về hoạch định chính sách của
Trung Quốc tại Trường Chính sách Công Lý Quang Diệu của Singapore cho
biết. “Bây giờ mọi người đều ủng hộ nó”.
Sự ủng hộ của Trung Quốc
diễn ra khi các chính phủ từ Hàn Quốc đến Ý xóa DeepSeek khỏi các cửa
hàng ứng dụng quốc gia, với lý do lo ngại về quyền riêng tư.
“Nếu
DeepSeek trở thành mô hình AI được sử dụng rộng rãi trên khắp các thực
thể nhà nước Trung Quốc, các cơ quan quản lý phương Tây có thể coi đây
là một lý do khác để tăng cường hạn chế đối với chip AI hoặc hợp tác
phần mềm”, ông Stephen Wu, một chuyên gia về AI và là người sáng lập quỹ
đầu cơ Carthage Capital cho biết.
Ông Liang đã thừa nhận rằng việc hạn chế hơn nữa đối với chip AI tiên tiến là một thách thức.
“Vấn đề của chúng tôi chưa bao giờ là tài trợ”, ông nói với Waves vào tháng 7. “Mà là lệnh cấm vận đối với chip cao cấp”.