Lương Văn Phong và DeepSeek (kỳ 1): “Kẻ dị biệt” đe dọa ngôi vương AI của Mỹ
Sự xuất hiện đầy bất ngờ của DeepSeek đã cho thấy ngành công nghiệp AI tại Trung Quốc đang phát triển mạnh mẽ, bất chấp những nỗ lực kìm hãm từ phía Hoa Kỳ.
Triết lý làm việc của “Kẻ biệt dị”
Với dáng người mảnh khảnh và phong thái điềm đạm, Lương Văn Phong thường tạo ấn tượng là một người khá nhút nhát, thậm chí có phần lo lắng trong các cuộc họp. Vị sáng lập của DeepSeek, startup Trung Quốc đang làm rung chuyển thế giới trí tuệ nhân tạo, thường nói chuyện một cách ngập ngừng, đôi khi im lặng khá lâu. Tuy nhiên, các nhân viên mới nhanh chóng nhận ra rằng không nên nhầm lẫn sự trầm tư của ông với sự rụt rè.
Một khi đã nắm bắt được những điểm mấu chốt của cuộc thảo luận, ông Lương sẽ liên tục đặt ra những câu hỏi sắc bén và hóc búa về kiến trúc mô hình, chi phí tính toán cũng như các vấn đề phức tạp liên quan đến hệ thống AI của DeepSeek.
Nhân viên trong công ty thường gọi ông Lương là “lão bản”, cách xưng hô thể hiện sự tôn trọng dành cho lãnh đạo doanh nghiệp tại Trung Quốc. Điều đặc biệt ở ông là sự tin tưởng và trao quyền mạnh mẽ cho các nhà nghiên cứu trẻ, thậm chí cả thực tập sinh, khi thường xuyên giao cho họ những dự án thử nghiệm quan trọng.
Ông cũng đích thân ghé qua bàn làm việc của từng người để cập nhật tiến độ và khuyến khích họ thử nghiệm các hướng đi kỹ thuật mới lạ. Càng thảo luận chuyên môn sâu càng tốt, đặc biệt nếu điều đó mang lại hiệu quả thực tế, những thành tựu mà ông Lương thường xuyên chia sẻ trên kênh nội bộ Lark của công ty.
“Ông ấy đúng là một mọt công nghệ thực thụ”, một cựu nhân viên DeepSeek chia sẻ. “Đôi khi tôi còn cảm giác ông ấy hiểu về nghiên cứu còn sâu hơn cả các nhà nghiên cứu của mình”.
R1 và làn sóng chấn động thế giới AI
Lương Văn Phong và công ty trẻ tuổi DeepSeek của ông đã bất ngờ vụt sáng trên trường quốc tế vào tháng 1 vừa qua khi ra mắt R1, một mô hình AI được đánh giá là cú đột phá to lớn. R1 không chỉ vượt qua nhiều đối thủ phương Tây trong các bài kiểm tra tiêu chuẩn về hiệu năng AI, mà DeepSeek còn khẳng định họ xây dựng được mô hình nền tảng này chỉ với khoảng 5% chi phí ước tính của GPT-4, công nghệ đứng sau ChatGPT của OpenAI.
Thành công vang dội của R1 đã tạo nên một làn sóng chấn động trên thị trường Mỹ, dẫn đến đợt bán tháo trị giá 1,000 tỷ USD và đặt ra nhiều câu hỏi hóc búa về chiến lược của Mỹ trong việc kiểm soát xuất khẩu để kìm hãm tiến bộ AI của Trung Quốc.
Ngay lập tức, Amazon và Microsoft đã chạy đua để tích hợp mô hình của DeepSeek vào các dịch vụ đám mây của mình, bên cạnh những đối thủ như Meta và Mistral AI. “Chỉ vài ngày cuối tuần, sự quan tâm dành cho DeepSeek đã tăng vọt đến mức chúng tôi buộc phải vào cuộc ngay lập tức”, Atul Deo, người phụ trách thị trường mô hình ngôn ngữ của Amazon.com Inc., chia sẻ.
Sự xuất hiện của DeepSeek đã xóa tan lớp sương mù bí ẩn mà người Mỹ lâu nay vẫn nhìn về ngành AI Trung Quốc. Trước đây, lĩnh vực này thường bị xem nhẹ, cho rằng chỉ là “bóng ma phóng đại”, nhưng thực tế có thể còn đáng gờm hơn nhiều so với suy nghĩ của họ.
Hàng Châu - Nơi bùng nổ của các “con rồng nhỏ AI”
Trước khi DeepSeek xuất hiện, không ít doanh nghiệp và nhà hoạch định chính sách tại Mỹ vẫn tự an ủi rằng Trung Quốc còn tụt hậu khá xa so với Thung lũng Silicon, cho họ thêm thời gian chuẩn bị hoặc ngăn chặn Trung Quốc bắt kịp.
Mỹ vẫn giữ vị trí dẫn đầu về đầu tư vào AI
Đầu tư tư nhân vào AI. Nguồn: Quid, tổng hợp bởi AI Index của Đại học Stanford
Hàng Châu, nơi DeepSeek đặt trụ sở, cùng nhiều trung tâm công nghệ cao khác đang chứng kiến sự bùng nổ của các “con rồng nhỏ AI”, thuật ngữ dùng để chỉ các startup AI đang mọc lên như nấm tại đây. Những chatbot tiên tiến từ các công ty nội địa như MiniMax và Moonshot AI đã vươn lên mạnh mẽ, thậm chí tạo dấu ấn ngay cả tại thị trường Mỹ.
Dòng mô hình ngôn ngữ lớn Qwen của Alibaba thường xuyên góp mặt trong top đầu các bảng xếp hạng uy tín, cạnh tranh trực tiếp với những sản phẩm của Google và Anthropic.
CEO Robin Li của Baidu cũng tự tin tuyên bố vào tháng 4 rằng tập đoàn này hoàn toàn có thể phát triển mô hình tốt như DeepSeek, thậm chí với chi phí thấp hơn nhờ siêu máy tính tự lắp ráp bằng chip “cây nhà lá vườn”. Huawei cũng nhận được nhiều đánh giá tích cực với các sản phẩm cạnh tranh trực tiếp với thiết bị của Nvidia, hãng cung cấp GPU cho các mô hình AI tiên tiến nhất tại Mỹ và châu Âu.
Nhưng công nghệ Trung Quốc đang thu hẹp khoảng cách
Chỉ số hiệu năng các mô hình AI hàng đầu trên LMSYS Chatbot Arena. Nguồn: LMSYS, tổng hợp bởi AI Index của Đại học Stanford. Lưu ý: Chatbot Arena là nền tảng mã nguồn mở đánh giá AI dựa trên lựa chọn của người dùng, do các nhà nghiên cứu tại LMArena phát triển.
Đòn bẫy từ chính sách
Chỉ vài năm trước, Trung Quốc còn mạnh tay kiểm soát các tập đoàn công nghệ bị cho là phát triển quá nóng. Hàng loạt cuộc điều tra chống độc quyền và rà soát dữ liệu đã được tiến hành, những tên tuổi như Jack Ma (đồng sáng lập Alibaba) dần rút khỏi công chúng, còn các quy định mới liên tục được áp dụng lên nền tảng mạng xã hội, kinh tế và trò chơi điện tử.
Tuy nhiên, hiện nay, chính quyền Trung Quốc lại chuyển sang nâng đỡ ngành công nghệ nội địa trước sức ép từ bên ngoài. Chủ tịch Tập Cận Bình đang huy động nguồn lực cho lĩnh vực AI và bán dẫn, khuyến khích đào tạo lực lượng lao động trình độ cao, đồng thời kêu gọi xây dựng một hệ sinh thái phần mềm và phần cứng “độc lập, kiểm soát được và hợp tác”.
Điều thú vị là, chính những rào cản địa chính trị được dựng lên nhằm làm chậm bước tiến AI của Trung Quốc lại trở thành động lực thúc đẩy sự phát triển gần đây của ngành này.
Wei Sun, nhà phân tích tại Công ty Nghiên cứu Thị trường Công nghệ Counterpoint, nhận định rằng khoảng cách về AI giữa Mỹ và Trung Quốc hiện chỉ còn tính bằng tháng thay vì năm như trước đây. “Ở Trung Quốc, tinh thần tập thể và sự sẵn sàng làm việc với cường độ cao đã tạo ra lợi thế lớn về khả năng thực thi”, Sun cho biết, đồng thời nhấn mạnh tình trạng khan hiếm chip Nvidia đã buộc các kỹ sư AI phải sáng tạo hơn. “Áp lực kiểu Darwin này khiến ai làm được nhiều hơn với ít nguồn lực hơn sẽ tồn tại”.
Trong khi đó, một báo cáo hồi tháng 4 từ một ủy ban lưỡng đảng của Hạ viện Mỹ cáo buộc DeepSeek có “mối liên hệ đáng kể” với Chính phủ Trung Quốc, cho rằng công ty này đã đánh cắp dữ liệu từ OpenAI một cách bất hợp pháp và là “mối đe dọa nghiêm trọng” đối với an ninh quốc gia Mỹ.
Dario Amodei, CEO của Anthropic, đã kêu gọi Mỹ tăng cường kiểm soát xuất khẩu chip, lập luận trong một bài đăng dài rằng DeepSeek chắc chắn đã buôn lậu một lượng lớn GPU Nvidia, bao gồm cả dòng H100 tiên tiến nhất. (Bloomberg News gần đây cũng đưa tin các quan chức Mỹ đang điều tra khả năng DeepSeek vượt qua các hạn chế xuất khẩu bằng cách mua chip bị cấm thông qua các bên trung gian ở Singapore.)
CEO Anthropic, Dario Amodei, đã viện dẫn DeepSeek như một lý do để Mỹ cần siết chặt hơn nữa việc xuất khẩu chip sang Trung Quốc. Ảnh: Chesnot/Getty Images
Phản hồi lại, Đại sứ quán Trung Quốc đã bác bỏ các cáo buộc của Ủy ban Hạ viện Mỹ là “vô căn cứ”. Nvidia cũng khẳng định các chip mà DeepSeek sử dụng đều tuân thủ quy định xuất khẩu, đồng thời cảnh báo rằng việc siết chặt hơn nữa có thể lại mang lợi thế cho các nhà sản xuất bán dẫn Trung Quốc.
Theo một người phát ngôn của Nvidia, nếu DeepSeek buộc phải chuyển sang sử dụng nhiều chip và dịch vụ nội địa hơn, điều này sẽ “thúc đẩy Huawei và các nhà cung cấp hạ tầng AI nước ngoài”.
DeepSeek, công ty đang ở tâm điểm của nhiều tranh cãi, vẫn là một ẩn số lớn trên thị trường AI. Dù tự hào về việc mở mã nguồn công nghệ AI của mình, DeepSeek lại rất kín tiếng về hoạt động nội bộ cũng như mục đích thực sự của công ty. Họ công khai chi tiết kỹ thuật trong các bài báo khoa học, nhưng không tiết lộ chi phí xây dựng AI, cấu hình GPU hiện tại hay nguồn dữ liệu dùng để huấn luyện mô hình.
“Chúng tôi không biết động cơ thật sự của DeepSeek là gì. Đó là một chiếc hộp đen”, một lãnh đạo cấp cao tại Perplexity AI, đơn vị đã tích hợp công nghệ DeepSeek vào hệ thống của mình, nhận xét.
“Chúng tôi không biết động cơ thật sự của DeepSeek là gì. Đó là một chiếc hộp đen”.
Quốc An (theo Bloomberg)