Lương Văn Phong và DeepSeek (kỳ 2): Sự trỗi dậy của AI Trung Quốc và nỗi lo của Mỹ
Lương Văn Phong từ lâu đã nổi tiếng là người kín tiếng, đến mức một số lãnh đạo AI ở Trung Quốc gọi ông là “gã điên công nghệ”, biệt danh dành cho những doanh nhân lập dị với tham vọng lớn.
* Lương Văn Phong và DeepSeek (kỳ 1): “Kẻ dị biệt” đe dọa ngôi vương AI của Mỹ
“Đó là một chiếc hộp đen”
Suốt 10 tháng qua, Lương Văn Phong không trả lời bất kỳ phỏng vấn báo chí nào, và rất ít người biết mặt ông cho đến khi một bức ảnh chụp tại phiên họp với Thủ tướng Lý Cường xuất hiện gần đây. Lương và các cộng sự cũng không phản hồi các đề nghị phỏng vấn cho bài viết này, ngoại trừ một email tự động với nội dung: “Cảm ơn sự quan tâm và ủng hộ DeepSeek!”
Ảnh Lương Văn Phong vào tháng 1. Nguồn: Zuma Press
Để hiểu rõ hơn về cách DeepSeek vận hành cũng như vị trí của công ty trong tham vọng AI quốc gia, Bloomberg Businessweek đã phỏng vấn 11 cựu nhân viên của Lương cùng hơn 30 nhà phân tích, nhà đầu tư và lãnh đạo doanh nghiệp trong ngành AI tại Trung Quốc.
Việc DeepSeek gần như không xuất hiện trước công chúng đã tạo điều kiện cho những người chỉ trích, như Dario Amodei và Sam Altman (OpenAI), lấp đầy khoảng trống thông tin bằng những hoài nghi, điều rất dễ gây tiếng vang với công chúng Mỹ, vốn đã quen nhìn nhận công nghệ Trung Quốc như một mối đe dọa tiềm ẩn.
Tuy nhiên, ngay cả những người còn dè dặt với DeepSeek cũng phải thừa nhận sức mạnh không thể phủ nhận của AI mà công ty này sở hữu. Dmitry Shevelenko, Giám đốc kinh doanh của Perplexity AI Inc. – công ty phát triển sản phẩm tìm kiếm bằng AI – cho biết, chưa một ai trong công ty ông từng liên hệ được với bất kỳ đối tác nào bên phía DeepSeek.
Dù vậy, Perplexity vẫn quyết định tích hợp công nghệ của DeepSeek, chỉ triển khai trên các máy chủ đặt tại Mỹ và châu Âu, đồng thời huấn luyện lại mô hình để loại bỏ mọi dữ liệu có dấu hiệu kiểm duyệt của Trung Quốc. Họ đặt tên phiên bản này là R1 1776 (ám chỉ năm lập quốc của Mỹ), như một cách tôn vinh tinh thần tự do. “Chúng tôi không biết động cơ thực sự của DeepSeek là gì”, Shevelenko nhấn mạnh. “Đó là một chiếc hộp đen”.
DeepSeek dường như cũng đã lường trước những lo ngại mà AI của mình có thể gây ra ở nước ngoài. Trong một buổi thuyết trình trực tuyến ít được chú ý tại hội nghị nhà phát triển Nvidia vào tháng 3/2024, nhà nghiên cứu học sâu Deli Chen của DeepSeek đã đề cập đến việc các giá trị đạo đức nên được “tách rời” khỏi các mô hình ngôn ngữ lớn và điều chỉnh phù hợp với từng xã hội khác nhau.
Trong một slide trình chiếu đầy tính logic, Chen giới thiệu nguyên mẫu DeepSeek cho phép tùy chỉnh các tiêu chuẩn đạo đức tích hợp trong chatbot, phù hợp với người dùng đến từ nhiều nền văn hóa khác nhau.
Chỉ với một cú nhấp chuột, các nhà phát triển có thể thiết lập tính hợp pháp của các vấn đề như cờ bạc, trợ tử, mại dâm, quyền sở hữu súng, cần sa và mang thai hộ. “Họ chỉ cần chọn những tùy chọn phù hợp với nhu cầu, và sẽ được trải nghiệm một dịch vụ mô hình được cá nhân hóa đúng với giá trị của mình”, Chen giải thích.
High-Flyer "đánh cược gấp đôi" vào AI
Việc tìm ra những giải pháp linh hoạt và hiệu quả đã trở thành một nét văn hóa đặc trưng tại DeepSeek. Ngay từ thời còn học tại Đại học Chiết Giang vào giữa những năm 2000, Lương Văn Phong cùng nhóm bạn đã theo đuổi nhiều lĩnh vực kỹ thuật khác nhau như học máy, xử lý tín hiệu, kỹ thuật điện tử... Và để vừa thử sức cũng như để kiếm thêm thu nhập, họ đã phát triển các chương trình giao dịch chứng khoán trong giai đoạn khủng hoảng tài chính toàn cầu.
Sau khi tốt nghiệp, Lương tiếp tục tự xây dựng các hệ thống giao dịch định lượng và kiếm được một khoản kha khá, trước khi cùng vài người bạn đại học thành lập công ty High-Flyer Quant tại Hàng Châu vào năm 2015.
Những tin tuyển dụng đầu tiên của High-Flyer từng tự hào khoe rằng họ đã thu hút được nhân tài từ Google, Facebook và luôn tìm kiếm những “mọt toán, mọt code” có “cái chất lập dị” giống nhân vật Sheldon trong bộ phim The Big Bang Theory (Vụ Nổ Lớn).
Công ty hứa hẹn môi trường làm việc thoải mái với áo phông, dép lê, đồ ăn vặt miễn phí, ghế Herman Miller, những đêm chơi poker và một chút văn hóa “fintech bro” với cơ hội làm việc cùng “các cô gái dễ thương, nhẹ nhàng sinh năm 90” và “nữ thần sắc sảo từng làm ở phố Wall”.
Văn phòng DeepSeek tại Bắc Kinh - Ảnh: Peter Catterall/AFP/Getty Images
Giống như DeepSeek sau này, High-Flyer cũng xây dựng cho mình một lớp vỏ bí ẩn, bài đăng mạng xã hội đầu tiên chỉ gọi Lương là “Mr. L”, nhưng lại cam kết sự minh bạch kiểu “để tôi chứng minh”. Mỗi thứ 6, High-Flyer đều đăng biểu đồ hiệu suất của 10 quỹ gốc lên WeChat, siêu ứng dụng của Trung Quốc. Trước khi chuyển sang chỉ cho phép nhà đầu tư đăng ký xem dữ liệu hàng tuần vào mùa hè năm 2016, danh mục đầu tư này từng đạt mức lợi nhuận trung bình hàng năm lên tới 35%.
Dòng tiền hàng tỷ USD cuối cùng đã đổ vào các quỹ của High-Flyer, giúp đội ngũ đầu tư và nghiên cứu của công ty tăng lên hơn 100 người. Đến năm 2019, Lương bắt đầu mở rộng mạnh mẽ mảng AI, với mục tiêu tận dụng kho dữ liệu khổng lồ để phát hiện các cổ phiếu bị định giá thấp, những biến động giá nhỏ phục vụ giao dịch tần suất cao, cũng như tìm ra các xu hướng vĩ mô mà các nhà đầu tư chuyên nghiệp chưa nhận thấy.
Khi đại dịch COVID-19 bùng phát, Lương và nhóm của mình đã xây dựng một hệ thống tính toán hiệu năng cao, sử dụng các bộ xử lý liên kết song song, gọi là “cluster”. High-Flyer cho biết họ đã mua 1,000 card Nvidia 2080Ti, dòng card phổ biến với game thủ và nghệ sĩ 3D, cùng 100 GPU dòng Volta (V100 - GPU đầu tiên của Nvidia tối ưu cho AI). Nếu trước đây, hệ thống nhỏ hơn phải mất 2 tháng để huấn luyện một mô hình phân tích kinh tế mới, thì với thiết bị mới, thời gian này rút xuống còn chưa đầy 4 ngày.
Dù những mô hình tài chính này rất ấn tượng, chúng vẫn nhỏ hơn nhiều so với các mô hình tổng quát mà những công ty Mỹ như OpenAI đang phát triển. Lương quyết tâm xây dựng một siêu máy tính lớn hơn nữa, sử dụng GPU Nvidia A100 là phiên bản nâng cấp của V100.
Một cựu kỹ sư High-Flyer từng tham gia dự án tiết lộ rằng Lương là “người dùng lớn nhất” của cụm máy này, với khoảng 80% tài nguyên tính toán dành cho các mô hình do ông phụ trách. Theo cựu kỹ sư này, Lương dường như bị ám ảnh với học sâu, coi đó là “thú vui tốn kém”. Việc đầu tư hàng trăm triệu USD vào hạ tầng AI như vậy có thể là quá sức đối với một công ty giao dịch định lượng, nhưng Lương đã kiếm đủ lợi nhuận để thực hiện điều đó. “Chuyện nhỏ với Lương lúc ấy”, kỹ sư này nhớ lại. “Có nhiều sức mạnh tính toán hơn, mô hình tốt hơn, giao dịch sinh lời hơn”.
Ít nhất thì đó là kỳ vọng. High-Flyer, khi ấy đang quản lý khoảng 14.1 tỷ USD tài sản, đã phải gửi thư xin lỗi các cổ đông vào tháng 12/2021 vì chuỗi kết quả đầu tư không như mong đợi. Công ty cho rằng hệ thống AI đã chọn được cổ phiếu tốt nhưng lại không thoát lệnh kịp thời trong bối cảnh biến động dữ dội của đại dịch.
Tuy nhiên, High-Flyer vẫn quyết tâm “đánh cược gấp đôi” vào AI: Tháng 1/2022, công ty thông báo trên mạng xã hội rằng họ đã tích lũy được 5,000 card Nvidia A100, mỗi chiếc trị giá hàng chục ngàn USD. Đến tháng 3, họ tiếp tục thông báo đã mở rộng cụm máy lên 10,000 chiếc, chỉ 6 tháng trước khi Nvidia cảnh báo về các hạn chế mới từ Mỹ có thể ảnh hưởng đến xuất khẩu dòng chip này sang Trung Quốc.
Tách DeepSeek thành phòng thí nghiệm nghiên cứu độc lập
Không ai rõ bao nhiêu phần trong hạ tầng này thực sự phục vụ cho giao dịch định lượng và bao nhiêu phần dành cho “thú vui tốn kém” của Lương. Đến mùa xuân năm sau, khoảng 5 tháng sau khi OpenAI ra mắt ChatGPT, Lương đã tách DeepSeek thành một phòng thí nghiệm nghiên cứu độc lập.
Ở các văn phòng riêng tại Hàng Châu và Bắc Kinh, tài chính không còn là trọng tâm chính. Trong một bản tuyên ngôn không ký tên đầy khí thế, High-Flyer cam kết tránh sự tầm thường và quyết tâm chinh phục những thách thức lớn nhất của cuộc cách mạng AI, với mục tiêu cuối cùng là đạt được trí tuệ nhân tạo tổng quát.
Lương là người sớm đặt cược lớn vào kỹ thuật “thưa thớt” (sparsity), một phương pháp giúp huấn luyện và vận hành các mô hình ngôn ngữ lớn hiệu quả hơn bằng cách chia nhỏ chúng thành các phần chuyên môn hóa, theo lời kể của hai cựu nghiên cứu viên DeepSeek.
Khi bạn đặt câu hỏi cho ChatGPT nguyên bản, toàn bộ “bộ não” của mô hình ngôn ngữ lớn sẽ được kích hoạt để tìm ra đáp án tối ưu, dù chỉ là phép tính 2 + 2 hay công thức làm bánh. Ngược lại, mô hình thưa thớt phân chia thành các “chuyên gia” và chỉ kích hoạt những phần thực sự liên quan đến yêu cầu của người dùng, nhờ đó sử dụng tài nguyên tính toán hiệu quả hơn.
Cách tiếp cận này giúp tiết kiệm đáng kể chi phí vận hành, nhưng đồng thời cũng làm tăng độ phức tạp của hệ thống. Nếu một câu hỏi không được chuyển qua đủ “mạch não” hoặc bị gửi đến “thùy” không phù hợp, chất lượng câu trả lời sẽ giảm đi (chẳng hạn, “não toán học” biết dùng số pi trong công thức, nhưng lại không biết thành phần làm bánh).
Lương nhận thấy những tiến bộ trong lĩnh vực này từ Google và Mistral (Pháp), đặc biệt khi Mistral ra mắt mô hình thưa thớt vào tháng 12/2023, chia thành 8 “chuyên gia”, và mỗi câu hỏi sẽ kích hoạt hai chuyên gia phù hợp nhất với ngữ cảnh. Lương đã thúc đẩy đội ngũ phát triển các mô hình có ngày càng nhiều “chuyên gia”, dù điều này tiềm ẩn nguy cơ tăng hiện tượng “ảo giác” và làm rời rạc kiến thức của AI. “Chủ đề này từng gây tranh luận nội bộ rất lớn”, một cựu nhân viên DeepSeek cho biết.
Sau đó, hàng loạt đột phá khác tiếp tục xuất hiện và được công bố rộng rãi, thu hút ngày càng nhiều sự chú ý từ các đối thủ Trung Quốc. Đến cuối năm 2024, DeepSeek cho ra mắt V3, một mô hình AI đa năng có quy mô lớn hơn khoảng 65% so với sản phẩm tương đương của Meta Platforms Inc., vốn là mô hình ngôn ngữ lớn mã nguồn mở lớn nhất lúc bấy giờ.
Tuy nhiên, chính bài nghiên cứu chi tiết về V3 mới thực sự khiến lãnh đạo Google, OpenAI và Microsoft phải chú ý, chỉ khoảng một tháng trước khi DeepSeek gây tiếng vang toàn cầu với mô hình suy luận R1.
Một con số gây sốc được nêu trong tài liệu: DeepSeek ám chỉ toàn bộ quá trình phát triển V3 chỉ tốn 5.6 triệu USD. Nhiều khả năng, con số này chỉ phản ánh chi phí cho lần huấn luyện cuối, giai đoạn tinh chỉnh dữ liệu để biến các nguyên mẫu thành sản phẩm hoàn chỉnh, nhưng không ít người vẫn cho đó là mức ngân sách thấp đến khó tin cho cả dự án.
Trong khi đó, chi phí huấn luyện tích lũy cho các mô hình tiên tiến nhất hiện nay có thể lên tới 100 triệu USD hoặc hơn. Chính Amodei (Anthropic) từng dự đoán (trước khi DeepSeek nổi lên) rằng các mô hình thế hệ tiếp theo sẽ tiêu tốn từ 10 tỷ đến 100 tỷ USD để huấn luyện.
Leandro von Werra, trưởng bộ phận nghiên cứu của nền tảng AI nổi tiếng Hugging Face, nơi chuyên xếp hạng các mô hình ngôn ngữ lớn, nhận xét rằng điểm nổi bật nhất của DeepSeek không phải là sự đổi mới về kiến trúc. Điều khiến ông ấn tượng chính là việc DeepSeek đã xây dựng được một bộ dữ liệu huấn luyện chất lượng cao cho mô hình V3, có thể là nhờ quá trình làm sạch dữ liệu tinh vi từ Internet hoặc thu thập qua các phương pháp khác.
“Nếu không có bộ dữ liệu mạnh, mô hình sẽ không thể đạt hiệu năng cao”, von Werra nhấn mạnh.
“Qua báo cáo, có thể thấy DeepSeek sở hữu một trong những bộ dữ liệu huấn luyện tốt nhất hiện nay cho các mô hình ngôn ngữ lớn, dù đáng tiếc là họ chỉ dành nửa trang trong tổng số 50 trang báo cáo để nói về vấn đề này”.
* AI Trung Quốc tràn ngập thế giới sau thành công của DeepSeek
* Cơn sốt robot Trung Quốc đã tìm thấy lý do để tồn tại
Quốc An (Theo Bloomberg)