Cựu kỹ sư NASA kiêm chuyên gia Google Cloud, Taranis, đã đăng bài chỉ trích gay gắt ý tưởng xây dựng trung tâm dữ liệu ngoài không gian, gọi đây là “một ý tưởng hoàn toàn phi thực tế và tệ hại”. Là người sở hữu bằng tiến sĩ về điện tử không gian và từng làm việc tại Google 10 năm, ông đã phân tích những điểm yếu chí mạng của ý tưởng này dưới bốn khía cạnh: cung cấp điện, làm mát, khả năng chịu bức xạ và truyền thông.
Bối cảnh chuyên gia NASA & Bài học từ kinh nghiệm làm việc của phi hành gia ISS
(Nguồn: Boeing)
Để làm rõ về trình độ, tác giả bài viết là một cựu kỹ sư và nhà khoa học NASA, sở hữu bằng tiến sĩ về điện tử không gian. Ông cũng làm việc 10 năm tại Google, ở nhiều bộ phận khác nhau bao gồm cả YouTube và bộ phận Cloud phụ trách triển khai năng lực tính toán AI. Sự kết hợp chuyên môn giữa kỹ thuật không gian và điện toán đám mây khiến ông rất có cơ sở để đưa ra ý kiến về chủ đề này.
Ngay đầu bài viết, ông thẳng thắn: “Đây chắc chắn là một ý tưởng tồi, hoàn toàn không hợp lý”. Có rất nhiều lý do, nhưng tóm lại, các thiết bị điện tử cần thiết để vận hành trung tâm dữ liệu, đặc biệt là các trung tâm dữ liệu triển khai năng lực tính toán AI dưới dạng GPU và TPU, hoàn toàn không phù hợp để vận hành ngoài không gian. Nếu bạn chưa từng làm việc trong lĩnh vực này, ông khuyên độc giả không nên suy đoán theo trực giác, vì thực tế hoạt động của phần cứng ngoài không gian không phải lúc nào cũng hiển nhiên.
Cảnh báo này xuất phát từ kinh nghiệm thực tế của ông tại NASA. Môi trường không gian thách thức các thiết bị điện tử vượt xa sức tưởng tượng của hầu hết mọi người, ngay cả các phi hành gia làm việc trên Trạm Vũ trụ Quốc tế (ISS) cũng phải đối mặt với nhiều vấn đề kỹ thuật không hề tồn tại trên mặt đất. Mỗi hệ thống trên ISS đều được thiết kế tỉ mỉ để chống lại môi trường chân không, bức xạ và chênh lệch nhiệt độ cực đoan, điều này thường đồng nghĩa với việc phải đánh đổi về hiệu năng và chi phí cực kỳ lớn.
Cung cấp điện: Dàn pin mặt trời cỡ ISS chỉ đủ chạy 200 GPU
Lý do chủ yếu khiến nhiều người muốn xây trung tâm dữ liệu ngoài không gian dường như là vì tin rằng ngoài không gian có nguồn điện dồi dào. Tuy nhiên, kỹ sư NASA chỉ ra thực tế không phải như vậy. Cơ bản bạn chỉ có hai lựa chọn: năng lượng mặt trời và năng lượng hạt nhân. Năng lượng mặt trời nghĩa là phải triển khai các dàn pin mặt trời trang bị tế bào quang điện, điều này có thể hoạt động, nhưng không hề thần kỳ hơn việc lắp pin mặt trời trên mặt đất. Điện năng thất thoát qua khí quyển không nhiều, nên dự đoán về diện tích cần thiết về cơ bản là đúng.
Hệ thống dàn pin mặt trời lớn nhất từng được triển khai ngoài không gian là của Trạm Vũ trụ Quốc tế (ISS), với công suất cực đại chỉ hơn 200kW. Việc triển khai hệ thống này cần nhiều chuyến bay của tàu con thoi và lượng lớn công việc của phi hành gia; diện tích của nó khoảng 2.500 mét vuông, hơn một nửa sân bóng bầu dục kiểu Mỹ.
Lấy NVIDIA H200 làm tham chiếu, mỗi GPU cần khoảng 0,7kW cho mỗi chip. Các thiết bị này không thể hoạt động đơn lẻ, và chuyển đổi nguồn không bao giờ đạt hiệu suất 100%, nên thực tế mỗi GPU khoảng 1kW là con số hợp lý hơn. Như vậy, cả một dàn pin mặt trời khổng lồ cỡ ISS chỉ đủ cấp điện cho khoảng 200 GPU.
So sánh nhu cầu điện năng
Dàn pin mặt trời ISS: 200kW công suất cực đại, diện tích 2.500 mét vuông
Một GPU H200: tiêu thụ thực tế 1kW
Số GPU dàn cỡ ISS cấp điện: khoảng 200 chiếc (tương đương 3 rack máy chủ trên mặt đất)
Dự án trung tâm dữ liệu OpenAI Na Uy: 100.000 GPU
Muốn đạt năng lực như OpenAI, bạn phải phóng lên 500 vệ tinh cỡ ISS. So sánh, một rack máy chủ duy nhất chứa 72 GPU, nên mỗi vệ tinh khổng lồ chỉ tương đương khoảng ba rack. Năng lượng hạt nhân cũng không giải quyết được gì, máy phát nhiệt điện đồng vị phóng xạ (RTG) chỉ cho công suất điển hình khoảng 50W tới 150W, thậm chí không đủ cấp điện cho một GPU.
Cơn ác mộng tản nhiệt: Môi trường chân không vô hiệu hoàn toàn làm mát đối lưu
Nhiều người phản ứng đầu tiên với ý tưởng này là: “Không gian rất lạnh, vậy làm mát sẽ rất dễ, đúng không?” Kỹ sư NASA trả lời: “Ờ… không… hoàn toàn không phải.”
Trên Trái Đất, làm mát khá đơn giản. Đối lưu không khí hoạt động rất tốt, thổi không khí qua các tản nhiệt giúp truyền nhiệt hiệu quả vào không khí. Nếu cần mật độ công suất cao hơn, có thể dùng tản nhiệt nước để truyền nhiệt từ chip sang các tản nhiệt lớn hơn ở nơi khác. Ngoài không gian, không có không khí. Môi trường gần như chân không tuyệt đối, đối lưu hoàn toàn không xảy ra.
Bản thân không gian không có nhiệt độ, chỉ có vật chất mới có nhiệt độ. Trong hệ Mặt Trăng – Trái Đất, nhiệt độ trung bình của gần như mọi thứ về cơ bản tương đồng với nhiệt độ trung bình của Trái Đất. Nếu vệ tinh không quay, mặt không hướng về mặt trời sẽ lạnh dần tới khoảng 4 Kelvin, chỉ cao hơn độ không tuyệt đối một chút. Mặt hướng về mặt trời có thể nóng tới vài trăm độ C. Vì vậy, kiểm soát nhiệt phải thiết kế cực kỳ cẩn trọng.
Tác giả từng thiết kế các hệ thống camera bay ngoài không gian, và kiểm soát nhiệt là trọng tâm của quá trình thiết kế. Ông thiết kế hệ thống chỉ tiêu thụ tối đa 1 watt khi hoạt động đỉnh, còn khi camera nghỉ chỉ còn khoảng 10%. Toàn bộ điện năng đều chuyển hóa thành nhiệt, nên phải truyền nhiệt qua các bu lông gắn cạnh bảng mạch lên khung máy.
Làm mát chỉ một GPU H200 cũng đã là cơn ác mộng thực sự. Tản nhiệt và quạt hoàn toàn vô dụng, phiên bản tản nhiệt nước cũng phải truyền nhiệt ra tấm tản nhiệt, và tấm này phải bức xạ nhiệt ra không gian. Hệ thống kiểm soát nhiệt chủ động (ATCS) trên ISS dùng mạch làm mát bằng amoniac và các tấm bức xạ nhiệt lớn, giới hạn tản nhiệt là 16kW – tương đương khoảng 16 GPU H200, chỉ hơn 1/4 rack tiêu chuẩn mặt đất. Hệ thống tấm bức xạ này có kích thước 13,6m x 3,12m, tức khoảng 42,5 mét vuông.
Nếu lấy mốc 200kW, cần một hệ thống lớn gấp 12,5 lần, tức khoảng 531 mét vuông, hoặc gấp 2,6 lần dàn pin mặt trời liên quan. Như vậy, sẽ cần một vệ tinh cực lớn, diện tích vượt cả ISS, mà tất cả chỉ tương đương 3 rack máy chủ tiêu chuẩn trên Trái Đất.
Mối đe dọa bức xạ: Chip GPU ngoài không gian như phi hành gia không có bảo vệ
(Nguồn: Wikipedia)
Đây là lĩnh vực nghiên cứu tiến sĩ của tác giả. Giả sử bạn có thể cấp điện và làm mát cho thiết bị điện tử ngoài không gian, bạn vẫn gặp vấn đề về khả năng chịu bức xạ. Ngoài không gian có hai nguồn bức xạ chính: từ mặt trời và từ không gian sâu. Chủ yếu là các hạt mang điện di chuyển ở một phần lớn vận tốc ánh sáng, từ electron đến nhân nguyên tử. Những hạt này khi va chạm với vật liệu chế tạo chip có thể gây hư hại trực tiếp.
Hậu quả thường gặp nhất là đảo bit đơn lẻ (SEU), khi một hạt bay qua transistor gây ra xung điện ngoài ý muốn. Nếu nó khiến lật bit, ta gọi là SEU. Tệ hơn là hiện tượng latch-up, khi xung của hạt mang điện khiến điện áp vượt ngưỡng của rail cấp nguồn cho chip, có thể tạo kênh dẫn giữa các rail nguồn vốn không nên tồn tại, làm cháy vĩnh viễn cổng logic.
Với các nhiệm vụ dài ngày, còn phải tính đến tác động tổng liều. Theo thời gian, hiệu năng chip ngoài không gian sẽ giảm dần vì các va chạm lặp đi lặp lại khiến transistor trường nhỏ chuyển mạch chậm dần. Thực tế, điều này khiến tốc độ xung nhịp tối đa khả dụng giảm dần, công suất tiêu thụ tăng lên.
GPU, TPU và cả RAM băng thông cao mà chúng cần đều là trường hợp tồi tệ nhất cho khả năng chịu bức xạ. Transistor kích thước nhỏ vốn dễ bị SEU và latch-up hơn. Chip thực sự thiết kế để hoạt động ngoài không gian dùng cấu trúc cổng logic khác và kích thước lớn hơn, hiệu năng thường chỉ bằng CPU PowerPC của năm 2005. Làm GPU/TPU theo cách này là có thể, nhưng hiệu năng chỉ còn một phần rất nhỏ so với GPU/TPU đời mới trên Trái Đất.
Nút thắt truyền thông & Kết luận
Phần lớn vệ tinh liên lạc với mặt đất qua sóng vô tuyến, rất khó để đảm bảo băng thông vượt quá khoảng 1Gbps. So với tiêu chuẩn rack máy chủ trên Trái Đất, tốc độ interconnect rack-to-rack 100Gbps bị coi là thấp, nên có thể thấy đây cũng là điểm nghẽn đáng kể. Kỹ sư NASA này kết luận: “Nếu thực sự muốn làm, về lý thuyết là có thể, nhưng sẽ cực kỳ khó triển khai, chi phí cao không tưởng so với trung tâm dữ liệu trên mặt đất, hiệu năng tối đa chỉ ở mức tầm thường. Đối với tôi, đây là một ý tưởng tồi tệ mang tính thảm họa.”
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Cựu nhà khoa học NASA phản bác Elon Musk! Xây dựng trung tâm dữ liệu ngoài không gian còn phi lý hơn cả nhiệm vụ đưa người lên không gian
Cựu kỹ sư NASA kiêm chuyên gia Google Cloud, Taranis, đã đăng bài chỉ trích gay gắt ý tưởng xây dựng trung tâm dữ liệu ngoài không gian, gọi đây là “một ý tưởng hoàn toàn phi thực tế và tệ hại”. Là người sở hữu bằng tiến sĩ về điện tử không gian và từng làm việc tại Google 10 năm, ông đã phân tích những điểm yếu chí mạng của ý tưởng này dưới bốn khía cạnh: cung cấp điện, làm mát, khả năng chịu bức xạ và truyền thông.
Bối cảnh chuyên gia NASA & Bài học từ kinh nghiệm làm việc của phi hành gia ISS
(Nguồn: Boeing)
Để làm rõ về trình độ, tác giả bài viết là một cựu kỹ sư và nhà khoa học NASA, sở hữu bằng tiến sĩ về điện tử không gian. Ông cũng làm việc 10 năm tại Google, ở nhiều bộ phận khác nhau bao gồm cả YouTube và bộ phận Cloud phụ trách triển khai năng lực tính toán AI. Sự kết hợp chuyên môn giữa kỹ thuật không gian và điện toán đám mây khiến ông rất có cơ sở để đưa ra ý kiến về chủ đề này.
Ngay đầu bài viết, ông thẳng thắn: “Đây chắc chắn là một ý tưởng tồi, hoàn toàn không hợp lý”. Có rất nhiều lý do, nhưng tóm lại, các thiết bị điện tử cần thiết để vận hành trung tâm dữ liệu, đặc biệt là các trung tâm dữ liệu triển khai năng lực tính toán AI dưới dạng GPU và TPU, hoàn toàn không phù hợp để vận hành ngoài không gian. Nếu bạn chưa từng làm việc trong lĩnh vực này, ông khuyên độc giả không nên suy đoán theo trực giác, vì thực tế hoạt động của phần cứng ngoài không gian không phải lúc nào cũng hiển nhiên.
Cảnh báo này xuất phát từ kinh nghiệm thực tế của ông tại NASA. Môi trường không gian thách thức các thiết bị điện tử vượt xa sức tưởng tượng của hầu hết mọi người, ngay cả các phi hành gia làm việc trên Trạm Vũ trụ Quốc tế (ISS) cũng phải đối mặt với nhiều vấn đề kỹ thuật không hề tồn tại trên mặt đất. Mỗi hệ thống trên ISS đều được thiết kế tỉ mỉ để chống lại môi trường chân không, bức xạ và chênh lệch nhiệt độ cực đoan, điều này thường đồng nghĩa với việc phải đánh đổi về hiệu năng và chi phí cực kỳ lớn.
Cung cấp điện: Dàn pin mặt trời cỡ ISS chỉ đủ chạy 200 GPU
Lý do chủ yếu khiến nhiều người muốn xây trung tâm dữ liệu ngoài không gian dường như là vì tin rằng ngoài không gian có nguồn điện dồi dào. Tuy nhiên, kỹ sư NASA chỉ ra thực tế không phải như vậy. Cơ bản bạn chỉ có hai lựa chọn: năng lượng mặt trời và năng lượng hạt nhân. Năng lượng mặt trời nghĩa là phải triển khai các dàn pin mặt trời trang bị tế bào quang điện, điều này có thể hoạt động, nhưng không hề thần kỳ hơn việc lắp pin mặt trời trên mặt đất. Điện năng thất thoát qua khí quyển không nhiều, nên dự đoán về diện tích cần thiết về cơ bản là đúng.
Hệ thống dàn pin mặt trời lớn nhất từng được triển khai ngoài không gian là của Trạm Vũ trụ Quốc tế (ISS), với công suất cực đại chỉ hơn 200kW. Việc triển khai hệ thống này cần nhiều chuyến bay của tàu con thoi và lượng lớn công việc của phi hành gia; diện tích của nó khoảng 2.500 mét vuông, hơn một nửa sân bóng bầu dục kiểu Mỹ.
Lấy NVIDIA H200 làm tham chiếu, mỗi GPU cần khoảng 0,7kW cho mỗi chip. Các thiết bị này không thể hoạt động đơn lẻ, và chuyển đổi nguồn không bao giờ đạt hiệu suất 100%, nên thực tế mỗi GPU khoảng 1kW là con số hợp lý hơn. Như vậy, cả một dàn pin mặt trời khổng lồ cỡ ISS chỉ đủ cấp điện cho khoảng 200 GPU.
So sánh nhu cầu điện năng
Dàn pin mặt trời ISS: 200kW công suất cực đại, diện tích 2.500 mét vuông
Một GPU H200: tiêu thụ thực tế 1kW
Số GPU dàn cỡ ISS cấp điện: khoảng 200 chiếc (tương đương 3 rack máy chủ trên mặt đất)
Dự án trung tâm dữ liệu OpenAI Na Uy: 100.000 GPU
Muốn đạt năng lực như OpenAI, bạn phải phóng lên 500 vệ tinh cỡ ISS. So sánh, một rack máy chủ duy nhất chứa 72 GPU, nên mỗi vệ tinh khổng lồ chỉ tương đương khoảng ba rack. Năng lượng hạt nhân cũng không giải quyết được gì, máy phát nhiệt điện đồng vị phóng xạ (RTG) chỉ cho công suất điển hình khoảng 50W tới 150W, thậm chí không đủ cấp điện cho một GPU.
Cơn ác mộng tản nhiệt: Môi trường chân không vô hiệu hoàn toàn làm mát đối lưu
Nhiều người phản ứng đầu tiên với ý tưởng này là: “Không gian rất lạnh, vậy làm mát sẽ rất dễ, đúng không?” Kỹ sư NASA trả lời: “Ờ… không… hoàn toàn không phải.”
Trên Trái Đất, làm mát khá đơn giản. Đối lưu không khí hoạt động rất tốt, thổi không khí qua các tản nhiệt giúp truyền nhiệt hiệu quả vào không khí. Nếu cần mật độ công suất cao hơn, có thể dùng tản nhiệt nước để truyền nhiệt từ chip sang các tản nhiệt lớn hơn ở nơi khác. Ngoài không gian, không có không khí. Môi trường gần như chân không tuyệt đối, đối lưu hoàn toàn không xảy ra.
Bản thân không gian không có nhiệt độ, chỉ có vật chất mới có nhiệt độ. Trong hệ Mặt Trăng – Trái Đất, nhiệt độ trung bình của gần như mọi thứ về cơ bản tương đồng với nhiệt độ trung bình của Trái Đất. Nếu vệ tinh không quay, mặt không hướng về mặt trời sẽ lạnh dần tới khoảng 4 Kelvin, chỉ cao hơn độ không tuyệt đối một chút. Mặt hướng về mặt trời có thể nóng tới vài trăm độ C. Vì vậy, kiểm soát nhiệt phải thiết kế cực kỳ cẩn trọng.
Tác giả từng thiết kế các hệ thống camera bay ngoài không gian, và kiểm soát nhiệt là trọng tâm của quá trình thiết kế. Ông thiết kế hệ thống chỉ tiêu thụ tối đa 1 watt khi hoạt động đỉnh, còn khi camera nghỉ chỉ còn khoảng 10%. Toàn bộ điện năng đều chuyển hóa thành nhiệt, nên phải truyền nhiệt qua các bu lông gắn cạnh bảng mạch lên khung máy.
Làm mát chỉ một GPU H200 cũng đã là cơn ác mộng thực sự. Tản nhiệt và quạt hoàn toàn vô dụng, phiên bản tản nhiệt nước cũng phải truyền nhiệt ra tấm tản nhiệt, và tấm này phải bức xạ nhiệt ra không gian. Hệ thống kiểm soát nhiệt chủ động (ATCS) trên ISS dùng mạch làm mát bằng amoniac và các tấm bức xạ nhiệt lớn, giới hạn tản nhiệt là 16kW – tương đương khoảng 16 GPU H200, chỉ hơn 1/4 rack tiêu chuẩn mặt đất. Hệ thống tấm bức xạ này có kích thước 13,6m x 3,12m, tức khoảng 42,5 mét vuông.
Nếu lấy mốc 200kW, cần một hệ thống lớn gấp 12,5 lần, tức khoảng 531 mét vuông, hoặc gấp 2,6 lần dàn pin mặt trời liên quan. Như vậy, sẽ cần một vệ tinh cực lớn, diện tích vượt cả ISS, mà tất cả chỉ tương đương 3 rack máy chủ tiêu chuẩn trên Trái Đất.
Mối đe dọa bức xạ: Chip GPU ngoài không gian như phi hành gia không có bảo vệ
(Nguồn: Wikipedia)
Đây là lĩnh vực nghiên cứu tiến sĩ của tác giả. Giả sử bạn có thể cấp điện và làm mát cho thiết bị điện tử ngoài không gian, bạn vẫn gặp vấn đề về khả năng chịu bức xạ. Ngoài không gian có hai nguồn bức xạ chính: từ mặt trời và từ không gian sâu. Chủ yếu là các hạt mang điện di chuyển ở một phần lớn vận tốc ánh sáng, từ electron đến nhân nguyên tử. Những hạt này khi va chạm với vật liệu chế tạo chip có thể gây hư hại trực tiếp.
Hậu quả thường gặp nhất là đảo bit đơn lẻ (SEU), khi một hạt bay qua transistor gây ra xung điện ngoài ý muốn. Nếu nó khiến lật bit, ta gọi là SEU. Tệ hơn là hiện tượng latch-up, khi xung của hạt mang điện khiến điện áp vượt ngưỡng của rail cấp nguồn cho chip, có thể tạo kênh dẫn giữa các rail nguồn vốn không nên tồn tại, làm cháy vĩnh viễn cổng logic.
Với các nhiệm vụ dài ngày, còn phải tính đến tác động tổng liều. Theo thời gian, hiệu năng chip ngoài không gian sẽ giảm dần vì các va chạm lặp đi lặp lại khiến transistor trường nhỏ chuyển mạch chậm dần. Thực tế, điều này khiến tốc độ xung nhịp tối đa khả dụng giảm dần, công suất tiêu thụ tăng lên.
GPU, TPU và cả RAM băng thông cao mà chúng cần đều là trường hợp tồi tệ nhất cho khả năng chịu bức xạ. Transistor kích thước nhỏ vốn dễ bị SEU và latch-up hơn. Chip thực sự thiết kế để hoạt động ngoài không gian dùng cấu trúc cổng logic khác và kích thước lớn hơn, hiệu năng thường chỉ bằng CPU PowerPC của năm 2005. Làm GPU/TPU theo cách này là có thể, nhưng hiệu năng chỉ còn một phần rất nhỏ so với GPU/TPU đời mới trên Trái Đất.
Nút thắt truyền thông & Kết luận
Phần lớn vệ tinh liên lạc với mặt đất qua sóng vô tuyến, rất khó để đảm bảo băng thông vượt quá khoảng 1Gbps. So với tiêu chuẩn rack máy chủ trên Trái Đất, tốc độ interconnect rack-to-rack 100Gbps bị coi là thấp, nên có thể thấy đây cũng là điểm nghẽn đáng kể. Kỹ sư NASA này kết luận: “Nếu thực sự muốn làm, về lý thuyết là có thể, nhưng sẽ cực kỳ khó triển khai, chi phí cao không tưởng so với trung tâm dữ liệu trên mặt đất, hiệu năng tối đa chỉ ở mức tầm thường. Đối với tôi, đây là một ý tưởng tồi tệ mang tính thảm họa.”