伊隆·馬斯克的數據中心:特斯拉、Dojo、X(Twitter)、xAI發表時間:2024-12-25 09:36 數據中心對于埃隆·馬斯克創立、共同創立或繼續積極參與的許多公司都至關重要,包括特斯拉、X Corp(Twitter)和xAI。這些公司依靠數據中心來處理、存儲和分析大量用戶生成和運營數據。該基礎設施支持他們的核心服務、AI開發以及與全球用戶群的實時互動。 伊隆·馬斯克的公司特斯拉、X Corp(Twitter)和 xAI 正在全球開發和運營數據中心。這些設施的主要地點包括德克薩斯州奧斯汀、內華達州斯帕克斯、加利福尼亞州的幾個站點、佐治亞州亞特蘭大、俄勒岡州希爾斯伯勒、田納西州孟菲斯和中國上海。 Dgtl Infra 探索了伊隆·馬斯克旗下主要公司特斯拉、X Corp(Twitter)和xAI 背后的數據中心和計算基礎設施。我們涵蓋了特斯拉的高性能計算系統,包括其 Dojo超級計算機和D1芯片、X Corp 的數據中心戰略以及xAI 為其AI 聊天機器人 Grok 提供支持的新興基礎設施。這些數據中心是馬斯克聲稱兩年內可以實現通用人工智能的支柱。 特斯拉數據中心和IT硬件特斯拉利用數據中心處理和存儲從其全球數百萬輛電動汽車 (EV) 收集的大量數據。這些數據包括傳感器讀數、駕駛行為、自動駕駛儀性能和無線軟件更新。 這些計算和存儲資源還為特斯拉的人工智能訓練提供支持,這對于開發和完善其全自動駕駛 (FSD) 技術至關重要。此外,特斯拉的數據中心還支持其為車主提供的基于云的車載服務以及特斯拉移動應用程序。
資料來源:特斯拉 除了車輛遙測和AI訓練之外,特斯拉的數據中心在其整個產品和服務生態系中發揮著至關重要的作用。它們為其內部導航軟件提供動力,管理Powerwall家用電池系統的數據,并方便訪問超級充電網絡(包括特斯拉電動汽車的快速充電站)。 高性能計算加速器在其數據中心內,特斯拉部署了多種高性能計算加速器。這種加速計算包括排列成集群的NVIDIA GPU和特斯拉專為 AI訓練而設計的定制D1芯片。D1芯片是特斯拉Dojo超級計算機的關鍵組件。
來源:特斯拉 GPU 集群迄今為止,特斯拉已為其自動駕駛汽車AI訓練集群安裝并調試了超過35,000 個NVIDIA H100 GPU,用于開發其全自動駕駛 (FSD) 技術。到 2024年底,特斯拉計劃將其AI訓練用GPU容量增加到近 90,000個NVIDIA H100等效GPU。 Tesla AI 訓練能力– H100等效GPU
來源:特斯拉 據報道,2024年,埃隆·馬斯克指示NVIDIA將為特斯拉預留的GPU(預留總額超過5億美元)發送給X Corp (Twitter) 和xAI。馬斯克聲稱,特斯拉當時缺乏使用GPU的基礎設施,因此這些GPU會被閑置在倉庫中。 Dojo 超級計算機和 D1 芯片Dojo是特斯拉定制開發的超級計算機,用于處理大規模機器學習工作負載,并處理從特斯拉電動汽車 (EV) 收集的PB級(數千TB)視頻數據。這些數據用于更有效地訓練神經網絡,這對于提高特斯拉全自動駕駛 (FSD) 軟件的性能至關重要。
來源:特斯拉 特斯拉的目標是利用專為AI訓練設計的定制D1芯片,通過Dojo超越傳統 GPU的功能。埃隆·馬斯克表示,特斯拉將“加倍投入”開發他們的Dojo超級計算機,并計劃投資超過10億美元用于開發。這筆投資包括芯片的研發費用和數據中心費用。 從更廣泛的角度來看,特斯拉預計2024年的資本支出 (CapEx)將超過100億美元。 特斯拉Dojo超級計算機的組件下面是支持特斯拉Dojo超級計算機的硬件架構的詳細分解,從最小的組件D1 芯片開始,一直到完整的Dojo超級計算機: 特斯拉Dojo超級計算機的組件下面是支持特斯拉Dojo超級計算機的硬件架構的詳細分解,從最小的組件D1芯片開始,一直到完整的Dojo超級計算機: 1. D1芯片:特斯拉專為AI訓練任務設計的基礎定制 AI 芯片。每個 D1芯片的處理能力為362 TFLOPS; 2. 訓練塊:一組25個D1芯片協同工作,以5×5的配置排列。訓練塊可實現高達9千萬億次浮點運算 (PFLOPS) 的處理能力; 3. 系統托盤:包含6個訓練塊,組合到單個板上。系統托盤的計算能力最高可達54千萬億次浮點運算 (PFLOPS); 4. 機柜:裝有 2 個系統托盤,配備冗余電源,可提供高達108千萬億次浮點運算 (PFLOPS) 的處理能力。機柜還裝有關鍵組件,包括Dojo 接口處理器:用于訓練的內存(32 GB高帶寬DRAM)和分解內存(640 GB高帶寬DRAM),以及Dojo主機接口(總共512個x86核心); 5. ExaPOD:由10個機柜組成的集合,代表著1.1 exaFLOPS(每秒千萬億次浮點運算)的計算能力; 6. Dojo超級計算機:特斯拉最初的Dojo超級計算機設置裝有大約 3,000個D1芯片,包括訓練模塊(25個D1芯片)、系統托盤(6個訓練模塊)、機柜(2個系統托盤)和10個機柜,組成一個ExaPOD。Dojo的模塊化架構允許將多個ExaPOD組合為構建塊,以進一步擴展Dojo系統。
特斯拉的Dojo超級計算機專為實現高性能、高帶寬和低延遲神經網絡訓練而設計。該公司聲稱,Dojo可以將某些AI訓練時間從一個月縮短至一周。 到 2024年底,Dojo 1將擁有相當于約8,000個NVIDIA H100 GPU的在線能力,特斯拉的目標是實現100 exaFLOPS的內部神經網絡訓練能力。 特斯拉對Dojo計算能力的內部預測
來源:特斯拉 特斯拉Dojo超級計算機的電源和冷卻充足的電力和冷卻對于特斯拉的Dojo超級計算機至關重要,因為它擁有密集的高性能組件,包括D1芯片和ExaPOD。這種IT基礎設施需要大量電力,并且在密集的AI訓練任務期間會產生大量熱量。有效管理這種熱量對于提供最佳性能和減少硬件故障是必不可少的。
來源:特斯拉 Dojo支持每機柜超過200千瓦 (kW) 的功率密度(ExaPOD 為兆瓦)。為了滿足密集的冷卻要求,Dojo使用定制的冷卻分配單元 (CDU),如上所示。 數據中心位置特斯拉在美國和國際上運營并正在開發多個戰略數據中心,以支持其先進的計算需求。 德克薩斯州奧斯汀特斯拉正在位于德克薩斯州奧斯汀的總部建造一臺新的Dojo超級計算機,以容納迄今為止最大的AI訓練集群。這個新的超級計算機集群位于其Giga Texas汽車制造工廠旁邊,目前正在建設中(盡管有所推遲),并將配備水冷裝置。 目前,特斯拉正在將H100 GPU服務器機架搬入新建成的Giga Texas南擴建區。該AI訓練集群將包括2,000個NVIDIA H100 GPU和20,000臺特斯拉AI5計算機。最終,Giga Texas南擴建區將容納 50,000個NVIDIA H100 GPU集群,這將有助于推進特斯拉的全自動駕駛 (FSD) 技術。 內華達州里諾(斯帕克斯)特斯拉在其位于內華達州斯帕克斯的Gigafactory Nevada 工廠建立了一個數據中心,該工廠生產鋰離子電池和電動汽車 (EV) 零部件,位于斯托里縣里諾市郊外。此外,特斯拉還是Switch, Inc的客戶,該公司的 Citadel 園區位于斯帕克斯的Gigafactory Nevada 旁邊。Switch, Inc還與特斯拉在該地區共享一個太陽能發電場。 加利福尼亞州圣何塞特斯拉在加利福尼亞州圣何塞運營一臺Dojo超級計算機。此外,特斯拉計劃在加利福尼亞州帕洛阿爾托安裝7臺ExaPOD,該地是該公司工程和研發活動的中心。此次部署可能會將特斯拉的計算能力提升至8.8 exaFLOPS(高于目前的1.1 exaFLOPS)。 加利福尼亞州薩克拉門托特斯拉從NTT Global Data Centers租賃了位于加利福尼亞州薩克拉門托的一個數據中心,而X Corp(前身為 Twitter)之前曾將該數據中心騰空。該公司利用該數據中心的容量進行機器學習工作,包括自動駕駛汽車模擬。 中國上海特斯拉在中國上海設有一個數據中心,以遵守中國要求本地數據存儲的規定。該公司將中國大陸汽車銷售產生的所有數據存儲在本地,以解決中國當局對潛在安全風險的擔憂。 中國最大的運營商中立數據中心運營商萬國數據控股表示,特斯拉是其客戶之一。萬國數據在上海和長三角地區共運營28個數據中心。 XCorp(Twitter)數據中心X Corp(前身為 Twitter)使用數據中心來存儲和處理大量用戶數據,包括推文、直接消息和媒體上傳。這些數據中心還為平臺的內容推薦、趨勢分析和廣告定位算法提供支持,使該服務能夠管理全球數百萬次實時互動。
自2022年10月埃隆·馬斯克以440億美元收購 Twitter以來,該公司一直在通過以下方式精簡其 IT 基礎設施: · 關閉和縮小數據中心規模 · 削減服務器容量 · 減少云計算支出 盡管削減了這些開支,X Corp還是增加了高性能計算加速器的產能。該公司最近購買了10,000個NVIDIA GPU用于AI開發,旨在構建本地GPU超級計算集群。 在美國,X 公司在幾個關鍵地點運營數據中心: 喬治亞州亞特蘭大X Corp在佐治亞州亞特蘭大大都會區租用 QTS 數據中心的設施。其中一個值得注意的數據中心包括位于1033 Jefferson Street NW 的QTS Atlanta 1 DC1 數據中心:
來源: QTS數據中心 此外,在位于1025 Jefferson Street NW的QTS 亞特蘭大 1 DC2 數據中心,X Corp獲得了為期10年的1010萬美元稅收減免,這是在該設施部署IT設備和AI硬件的7億美元項目的一部分。以下是QTS的亞特蘭大1 DC2:
來源: QTS數據中心 然而,X公司最近也縮減了亞特蘭大一家未公開的工廠的規模。 俄勒岡州波特蘭(希爾斯伯勒)X 公司在位于俄勒岡州波特蘭西郊希爾斯伯勒的Digital Realty數據中心租賃了超過50兆瓦 (MW) 的電力容量。俄勒岡州擁有豐富的水力發電資源,可為數據中心提供低成本(每千瓦時0.05至0.07美元)且環保的電力。 加利福尼亞州薩克拉門托–退出作為IT基礎設施合理化的一部分,X Corp在租約到期后退出了位于加利福尼亞州薩克拉門托的NTT Global Data Centers所擁有的設施。隨后,特斯拉接管了部分空置的數據中心空間。 X Corp還退出了Prime Data Centers旗下的另一家薩克拉門托工廠。該工廠此前于2022 年9月在加州熱浪中倒塌。 總體而言,X Corp聲稱通過退出其薩克拉門托數據中心每年可節省1億美元。此次退出釋放了48兆瓦的容量,并涉及重新安置5,200個機架和148,000臺服務器。 云服務提供商(CSP)X Corp 與云服務提供商簽訂了多年合同,包括Amazon Web Services (AWS)、Google Cloud和Oracle Cloud。不過,該公司報告稱,通過工作負載遣返,其每月云成本減少了60%。它還將云數據存儲大小減少了60%,云數據處理成本減少了75%。 xAI數據中心xAI是埃隆·馬斯克于2023年創立的一家人工智能公司,目標是開發先進的AI系統來了解宇宙的真實本質。該公司旨在創造“優秀的 AGI”(通用人工智能),并發布了名為Grok的AI聊天機器人和語言模型。 2024年5月,xAI籌集60億美元的股權,使該公司的估值達到240億美元。此外,埃隆·馬斯克目前正在尋求特斯拉董事會批準對xAI進行50億美元的投資。
xAI利用數據中心提供訓練和運行其 AI 聊天機器人Grok所需的計算能力和存儲空間。這些數據中心處理的任務包括利用X Corp (Twitter) 用戶數據訓練大型語言模型、運行推理以及存儲大量數據。此外,埃隆·馬斯克還提到了將 Grok 集成到特斯拉軟件中的潛在機會。 xAI已發布Grok-1.5,目前正在使用20,000個NVIDIA H100 GPU訓練Grok-2。Elon Musk估計Grok-3將需要100,000個GPU。為此,xAI的數據中心近期計劃包括: · 2024年底前部署10萬個液冷NVIDIA H100 GPU訓練集群 · 從2025年夏季開始,再增加300,000個NVIDIA B200 (Blackwell) GPU集群 田納西州孟菲斯xAI 計劃在田納西州孟菲斯建造世界上最大的超級計算機,名為“超級計算工廠”。這臺超級計算機將安置在位于孟菲斯西南部密西西比河附近工業園區的 150兆瓦 (MW) 數據中心。具體來說,該數據中心將占據南孟菲斯Boxtown地區一座占地750,000平方英尺的前伊萊克斯工廠。
來源:xAI 埃隆·馬斯克的目標是在2025年秋季之前讓 xAI的新工廠全面投入運營,這意味著在孟菲斯將投資數十億美元。作為這項承諾的一部分,xAI計劃投資2400萬美元建造一座新變電站,并已獲得孟菲斯電力、天然氣和水務 (MLGW) 到 2024年底提供 150兆瓦電力容量的承諾。 該系統又稱為孟菲斯超級集群,將使用單個遠程直接內存訪問 (RDMA) 結構連接多達100,000個NVIDIA H100 GPU。戴爾和Supermicro為xAI的孟菲斯超級計算機提供服務器。 云服務提供商(CSP)Oracle Cloud提供了xAI現有AI訓練基礎設施的很大一部分: · xAI目前從Oracle Cloud租用了大約16,000個NVIDIA H100 GPU · xAI從Oracle Cloud訂購了24,000塊NVIDIA H100 GPU用于Grok-2訓練 據報道,2024年7月,xAI結束了有關100億美元多年期AI擴展承諾的談判,承諾從 Oracle Cloud 購買更多GPU/服務器容量。 此外,xAI利用亞馬遜網絡服務 (AWS) 的云服務并利用X Corp(Twitter)數據中心的備用容量。 文章來源:https://dgtlinfra.com |