DeepSeek đánh đổi rủi ro mất hàng tỷ USD tiền điện để làm mô hình siêu rẻ, chỉ cần 2.000 con chip đã có thể giảm chi phí đào tạo xuống 6 triệu USD

Thông thường, các công ty A.I. thường đào tạo chatbot bằng siêu máy tính chứa 16.000 chip chuyên dụng trở lên, trong khi DeepSeek chỉ cần khoảng 2.000.

Tháng trước, thị trường tài chính Mỹ lao đao sau khi công ty khởi nghiệp Trung Quốc DeepSeek tuyên bố xây dựng thành công một trong những hệ thống trí tuệ nhân tạo mạnh nhất thế giới chỉ với một lượng rất nhỏ các con chip. Thông thường, các công ty A.I. thường đào tạo chatbot bằng siêu máy tính chứa 16.000 chip chuyên dụng trở lên, trong khi DeepSeek chỉ cần khoảng 2.000.

Như các kỹ sư của DeepSeek đã trình bày, công ty khởi nghiệp này sử dụng một số thủ thuật công nghệ để giảm đáng kể chi phí xây dựng hệ thống xuống khoảng 6 triệu USD cho sức mạnh tính toán thô, tức bằng 1/10 số tiền Meta đã chi để xây dựng công nghệ A.I. mới nhất.

Các công nghệ A.I. hàng đầu dựa trên mạng nơ-ron, các hệ thống toán học học các kỹ năng bằng cách phân tích một lượng lớn dữ liệu. Các hệ thống mạnh nhất dành nhiều tháng để phân tích hầu như toàn bộ văn bản tiếng Anh trên internet, hình ảnh, âm thanh và các đa phương tiện. Một lượng lớn sức mạnh tính toán cần được huy động.

Khoảng 15 năm trước, các nhà nghiên cứu A.I. nhận ra rằng các chip máy tính chuyên dụng được gọi là bộ xử lý đồ họa hoặc GPU giúp thực hiện hiệu quả loại phân tích dữ liệu này. Các công ty như nhà sản xuất chip Nvidia của Thung lũng Silicon ban đầu đã thiết kế chúng để kết xuất đồ họa cho trò chơi điện tử trên máy tính.

GPU có khả năng chạy toán học cung cấp năng lượng cho mạng nơ-ron. Khi các công ty tích hợp nhiều GPU hơn vào trung tâm dữ liệu máy tính của mình, hệ thống A.I. có thể phân tích nhiều dữ liệu.

Tuy nhiên, những GPU tốt nhất có giá khoảng 40.000 USD và chúng cần một lượng điện lớn. Việc gửi dữ liệu giữa các chip cũng tốn rất nhiều điện năng.

Vậy DeepSeek đã làm như thế nào?

Với sự kết hợp của phương pháp chuyên gia, các nhà nghiên cứu đã cố gắng giải quyết vấn đề chi phí bằng cách chia hệ thống thành nhiều mạng nơ-ron: một cho thơ ca, một cho lập trình máy tính, một cho sinh học, một cho vật lý, v.v. Có thể có 100 hệ thống "chuyên gia" nhỏ như vậy mà mỗi hệ thống sẽ chỉ tập trung vào một lĩnh vực cụ thể.

Nhiều công ty phải vật lộn với phương pháp này, nhưng DeepSeek làm rất tốt. Bí quyết là ghép nối các hệ thống "chuyên gia" nhỏ hơn với một hệ thống "tổng quát".

Các chuyên gia vẫn cần trao đổi một số thông tin với nhau, trong khi người tổng quát giúp điều phối các tương tác qua lại.

Hơn thế nữa, đó không phải là điều duy nhất DeepSeek làm được.

Bạn còn nhớ khái niệm pi không? Pi, còn được ký hiệu là π, là một con số không bao giờ kết thúc: 3.14159265358979 … Bạn có thể sử dụng π để thực hiện các phép tính hữu ích, như xác định chu vi của một hình tròn. Khi thực hiện các phép tính đó, bạn sẽ chỉ rút ngắn π xuống còn một vài chữ số thập phân.

DeepSeek đã làm điều gì đó tương tự — nhưng ở quy mô lớn hơn nhiều — khi đào tạo công nghệ A.I. của mình. Phép toán cho phép mạng nơ-ron xác định các mẫu trong văn bản thực chất chỉ là phép nhân — rất nhiều phép nhân. Thông thường, chip nhân các số vừa với bộ nhớ 16 bit, nhưng DeepSeek đã nén xuống chỉ còn 8 bit bộ nhớ — tức một nửa không gian. Về bản chất, công ty cắt bỏ một số số thập phân khỏi mỗi số.

Mỗi phép tính sẽ kém chính xác hơn, nhưng điều đó không quan trọng. Các phép tính đủ chính xác để tạo ra một mạng nơ-ron thực sự mạnh mẽ.

Trong một bài báo, DeepSeek khẳng định mình rất giỏi trong việc viết mã máy tính phức tạp. Chỉ các phòng thí nghiệm A.I. nghiêm túc mới có những kỹ sư tài năng để sánh ngang với những gì DeepSeek đã làm.

“DeepSeek, đối thủ cạnh tranh của ChatGPT, đã tạo ra một làn sóng chấn động. Nói vậy là còn nhẹ. DeepSeek giống như một quả bom hạt nhân trong thế giới công nghệ AI tại Mỹ và châu Âu bởi vì chỉ trong một đòn, công ty này đã cho thấy định giá của cổ phiếu chip AI và tất cả các cổ phiếu cơ sở hạ tầng AI là quá cao. DeepSeek có thể tạo ra một sản phẩm vượt trội hơn ChatGPT với chi phí chỉ bằng 1/20”, ông Francis Lun, Giám đốc điều hành Geo Securities, cho biết.

Một số phòng thí nghiệm A.I. có thể đã sử dụng ít nhất một số thủ thuật tương tự. Các công ty như OpenAI không phải lúc nào cũng tiết lộ những gì họ đang làm sau cánh cửa đóng kín.

Tuy nhiên, làm những gì công ty khởi nghiệp này đã làm là không hề dễ. Việc thử nghiệm tìm ra một bước đột phá liên quan đến hàng triệu USD — nếu không muốn nói là hàng tỷ USD — tiền điện.

Tim Dettmers, một nhà nghiên cứu tại Viện Trí tuệ nhân tạo Allen ở Seattle, người chuyên xây dựng A.I. hiệu quả, cho biết: "Bạn phải đầu tư rất nhiều tiền để thử những điều mới — và thường thì chúng sẽ thất bại. Đó là lý do tại sao chúng ta không thấy nhiều sự đổi mới: Mọi người sợ mất hàng triệu USD chỉ để thử một thứ không hiệu quả".

Nhiều chuyên gia chỉ ra rằng 6 triệu USA của DeepSeek chỉ trang trải được số tiền mà công ty khởi nghiệp đã chi khi đào tạo phiên bản cuối cùng của hệ thống. Trong bài báo của mình, các kỹ sư DeepSeek cũng cho biết họ đã chi thêm tiền cho nghiên cứu và thử nghiệm trước khi chạy đào tạo cuối cùng.

Yu Zhou, một giáo sư tại Cao đẳng Vassar, người đã nghiên cứu về sự phát triển của ngành công nghệ cao Trung Quốc, cho rằng sự nhiệt tình của các nhà nghiên cứu trẻ DeepSeek gợi nhắc tới các startup internet đầu tiên ở Bắc Kinh thời đầu những năm 2000. Vào thời điểm đó, những sinh viên tốt nghiệp từ các trường đại học hàng đầu của Trung Quốc lấy cảm hứng từ những công ty như Google và Microsoft, cuối cùng tạo ra một ngành công nghiệp công nghệ tuyệt vời tại quê nhà.

“Người trẻ đã được truyền cảm hứng từ những phát triển công nghệ mới như OpenAI”, bà Yu nói. “Khi bạn không có nguồn lực, tất cả những gì bạn có là sức mạnh trí tuệ của mình”.

Theo: The New York Times, WSJ

Link nội dung: https://saigoneconomy247.com/deepseek-danh-doi-rui-ro-mat-hang-ty-usd-tien-dien-de-lam-mo-hinh-sieu-re-chi-can-2000-con-chip-da-co-the-giam-chi-phi-dao-tao-xuong-6-trieu-usd-a155242.html