H100 Аналіз попиту та пропозиції: як довго триватиме війна чіпів?

Question

Автор: Клей ПаскальУкладач: wenli, Lavida, yunhaoРекомендовано: Cage, HuaiweiДжерело: Overseas Unicorns![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-730a18f88d-dd1a6f-1c6801) Джерело зображення: створено Unbounded AIПрорив великої моделі базується на вдосконаленні апаратної обчислювальної потужності та можливостей хмарних обчислень.NVIDIA H100, яка вважається «ядерною бомбою» GPU, стикається з найсерйознішим недоліком в історії. Сем Альтман прямо заявив, що дефіцит графічних процесорів обмежує швидкість модернізації технології OpenAI з точки зору тонкого налаштування, виділеної ємності, 32K контекстних вікон і мультимодальності.Ця стаття складена з GPU Utils. Автор головним чином обговорює, як довго прослужать графічні процесори (особливо NVIDIA H100) з точки зору попиту та пропозиції.З точки зору попиту, NVIDIA H100, безсумнівно, є жорстким попитом на навчання великих моделей.За оцінками, поточний попит на H100 на ринку становить близько 432 000 аркушів, що еквівалентно загальній вартості приблизно 35 000 доларів США за аркуш. При GPU 15 мільярдів доларів** цифра 432 тисячі не включає такі компанії, як ByteDance (TikTok), Baidu та Tencent, яким потрібно багато H800.Що стосується пропозиції, дефіцит H100 безпосередньо обмежений виробничими потужностями TSMC, і в короткостроковій перспективі NVIDIA не має інших альтернативних фабрик чіпів. Через обмежені поставки NVIDIA також має власну стратегію щодо розподілу цих графічних процесорів.Для NVIDIA дуже важливо, як забезпечити, щоб ці обмежені графічні процесори перейшли до темних конячок ШІ, а не до потенційних конкурентів, таких як Google, Microsoft і AWS.Як довго триватиме ця гонка озброєнь ШІ навколо H100? Відповідь поки не зрозуміла. Незважаючи на те, що NVIDIA заявила, що збільшить пропозицію в другій половині року, схоже, що дефіцит GPU може тривати до 2024 року.Навколо дефіциту H100 ринок може потрапити в «порочне коло»: дефіцит призводить до того, що потужність графічного процесора розглядається як рів для компаній зі штучним інтелектом, що призводить до більшого накопичення графічного процесора, що ще більше посилює дефіцит графічного процесора.**Нижче наведено зміст цієї статті, і його рекомендується прочитати разом із основними положеннями. ****👇**01 фон02 Аналіз вимог до H10003 H100 Аналіз постачання04 Як отримати H10005 Підсумок## **01.Фон**До серпня 2023 року розвиток галузі штучного інтелекту стримувався вузьким місцем у постачанні GPU."Однією з причин недооцінки буму ШІ є дефіцит GPU/TPU. Дефіцит GPU та TPU обмежує швидкість впровадження продукту та прогрес у навчанні моделі, але ці обмеження приховані. Ми головним чином спостерігаємо різке зростання ціни акцій NVIDIA , а не прогрес у дослідженнях і розробках обмежений. Справи покращаться, коли попит і пропозиція збалансовані.— Адам Д'Анджело, генеральний директор Quora, Poe.com, колишній технічний директор Facebook![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4d8a59f1fd-dd1a6f-1c6801) *Це генеральні директори та компанії, які мають найбільше значення для пропозиції та попиту на GPU та ШІ*Сем Альтман сказав, що нестача графічних процесорів обмежує прогрес проектів OpenAI, таких як тонке налаштування, виділена ємність, 32K контекстні вікна, мультимодальність тощо.Масштабні кластери H100 малих і великих хмарних провайдерів вичерпують потужність.«Усі хочуть, щоб NVIDIA виробляла більше A/H100».- Інформація від керівників хмарних провайдерів«Через поточну нестачу графічного процесора, для OpenAI краще, щоб менше людей використовувало наші продукти»;«Насправді ми були б щасливі, якби люди менше використовували продукти OpenAI, оскільки у нас не вистачає графічних процесорів».— Сем Альтман, генеральний директор OpenAIЗ одного боку, слова Сема Альтмана непомітно показують, що продукти OpenAI полюбилися користувачам у всьому світі, але водночас вони також ілюструють той факт, що OpenAI дійсно потребує більше графічних процесорів для подальшого просування та вдосконалення своїх функцій.Azure і Microsoft також стикаються з подібною ситуацією, і анонім згадав:• Компанія забороняє своїм співробітникам використовувати графічні процесори, і кожен повинен стояти в черзі, щоб подати заявку на обчислювальну потужність, як студенти коледжу в 1970-х роках, щоб використовувати комп'ютери. З моєї точки зору, OpenAI зараз забирає всі ресурси GPU;• У червні цього року співпраця між Microsoft і CoreWeave по суті спрямована на покращення GPU/обчислювального живлення Microsoft.**CoreWeave ：**Згідно з офіційним веб-сайтом CoreWeave, постачальники потужних послуг хмарних обчислень на 80% дешевші, ніж традиційні постачальники хмарних обчислень. У квітні 2023 року CoreWeave отримала інвестиції B-раунду від NVIDIA та придбала велику кількість нових карт H100. У червні Microsoft також підписала угоду з CoreWeave. Microsoft інвестує мільярди доларів у наступні кілька років у розбудову інфраструктури хмарних обчислень.У липні CoreWeave запустив проект найшвидшого у світі суперкомп’ютера зі штучним інтелектом у партнерстві з NVIDIA, а Inflection AI створив одну з найскладніших у світі великомасштабних мовних моделей у CoreWeave Cloud, використовуючи інфраструктуру, яка підтримує подання MLPerf. Крім того, CoreWeave використовувала картку прискорювача NVIDIA H100 як заставу, а в серпні оголосила, що завершила боргове фінансування на суму 2,3 мільярда доларів.Підводячи підсумок, постачання графічних процесорів H100 вже досить мало. Ходять навіть чутки, що **Azure і GCP практично вичерпали ємність, а AWS вичерпала ємність. **Причина нестачі полягає в тому, що NVIDIA постачає стільки графічних процесорів H100 цим хмарним постачальникам.Оскільки продуктивність графічного процесора H100 NVIDIA не може задовольнити попит, обчислювальна потужність, яку можуть надати ці хмарні постачальники, природно, почне відчувати дефіцит.**Якщо ви хочете зрозуміти вузьке місце обчислювальної потужності, ви можете зосередитися на таких питаннях:**• Які конкретні причини такої ситуації? :– Наскільки великий попит? Наприклад, у яких сферах попит на штучний інтелект зростає відносно швидко;– Наскільки велика пропозиція? Чи достатньо виробничих потужностей виробників GPU, таких як NVIDIA, щоб задовольнити попит;• Як довго триватиме цей дефіцит? Коли попит і пропозиція графічних процесорів поступово досягнуть точки рівноваги?• Якими способами можна ефективно пом'якшити цю нестачу?## **02.H100 Аналіз вимог****Проаналізуйте ключові проблеми вузьких місць обчислювальної потужності з боку попиту:**1. Що саме люди хочуть купити, але їм важко отримати?2. Наскільки великий попит на GPU на поточному ринку?3. Чому компанії віддають перевагу NVIDIA H100 іншим графічним процесорам?4. Які типи графічних процесорів зараз є на ринку?5. Де підприємства можуть придбати графічні процесори? Які у них ціни?**Хто вимагає H100? ****Підприємства з попитом понад 1000 H100 або A100:**• **Навчання LLM для стартапів:**OpenAI (через Azure), Anthropic, Inflection (через Azure і CoreWeave), Mistral AI;• **Постачальники хмарних послуг (CSP):**На додаток до трьох гігантів Azure, GCP і AWS, є також Oracle і хмарні провайдери GPU, такі як CoreWeave і Lambda;• **Інші технічні гіганти:**Наприклад, Tesla (**примітка: **Meta, Apple та інші гіганти, про які тут не згадав оригінальний автор, також мають великий попит на графічні процесори, Google в основному використовує TPU для обробки обчислень, а попит на H100 в основному Google Cloud Platform).На додаток до вищезазначених компаній, якщо компанії потрібно виконати багато тонких налаштувань LLM, їй також потрібно зарезервувати принаймні 100 H100 або A100.Для компаній, які використовують приватні хмари (CoreWeave, Lambda), і компаній з сотнями до тисяч акцій H100, вони майже в основному стикаються з роботою LLM і деякими моделями дифузії (Diffusion Model). Деякі компанії вирішують налаштувати існуючі моделі, але більше стартапів зі штучним інтелектом створюють власні великі моделі з нуля. **Ці компанії зазвичай підписують контракти з приватними постачальниками хмарних послуг на суму від 10 до 50 мільйонів доларів США на 3 роки та використовують від кількох сотень до кількох тисяч графічних процесорів. **Для компаній, які використовують лише невелику кількість графічних процесорів H100 за запитом, завдання, пов’язані з LLM, складають значну частину використання графічного процесора, а LLM може використовувати більше 50% графічного процесора.Зараз підприємства віддають перевагу приватним хмарам, і хоча ці підприємства зазвичай обирають великих постачальників хмарних послуг за замовчуванням, вони також стикаються з ризиком бути виключеними.**• Чи великі лабораторії штучного інтелекту більше обмежені завданнями логічного висновку чи навчальними завданнями? **Це питання залежить від того, наскільки привабливий їхній продукт. Іншими словами, привабливість продукції компанії є дуже важливою для визначення розподілу ресурсів.У випадку обмежених ресурсів пріоритети міркування та навчання часто мають свої власні акценти. Погляд Сема Альтмана полягає в тому, що якщо потрібно зробити вибір, OpenAI більше схильний покращувати можливості міркування, але наразі OpenAI обмежений в обох аспектах.**Чому H100 потрібен саме для навчання LLM**Більшість поточного ринку використовує графічні процесори NVIDIA H100. Це пояснюється тим, що графічний процесор H100 є найшвидшим з точки зору логічного висновку та навчання, а також має найкращу економічну продуктивність. Зокрема, більшість підприємств вибирають сервер HGX H100 SXM з 8 GPU.Згідно з моїм аналізом, для тієї ж роботи H100 є більш вигідним з точки зору вартості. Графічний процесор V100 є хорошим варіантом, якщо ви можете знайти вживаний блок, але це часто неможливо.—— анонімЗ точки зору висновків, ми виявили, що графічний процесор A10G більш ніж достатній і набагато дешевший.—— Керівник приватної хмариМи помітили, що Falcon 40b і llama2 70b також активно використовуються, де це твердження вже не відповідає дійсності. Тому швидкість з’єднання дуже важлива для завдань логічного висновку.— (Інший) керівник приватної хмари**Falcon 40b :**Falcon — це базова велика мовна модель із 40 мільярдами параметрів, Falcon 40b має на меті використовувати менше обчислювальної потужності для досягнення кращих результатів, на модель припадає лише 75% навчальних обчислень GPT-3, 40% Chinchilla та 80% PaLM-62B навчання. 25 травня 2023 року Інститут технологічних інновацій ОАЕ оголосив про відкриття Falcon 9 для досліджень і комерційного використання. Після випуску він колись очолював список LLM з відкритим кодом Hugging Face.**• Які загальні потреби підприємницьких команд LLM? ****Для LLM-стартапів вони часто вибирають H100 GPU з 3,2 Тбіт/с InfiniBand для навчання LLM. Хоча майже всі віддають перевагу H100 під час тренінгу, під час сеансу висновків ці компанії приділяють більше уваги ефективності витрат, тобто продуктивності, створеній за долар. **Існують деякі проблеми з продуктивністю на долар графічних процесорів H100 порівняно з A100, але H100 все ще віддається перевага через їхнє краще масштабування та швидший час навчання, тоді як швидкість/стиснення запускається, навчається або покращується Час моделі є критичним для стартапи.«Для навчання з кількома вузлами всім їм потрібен графічний процесор A100 або H100 із мережевим підключенням InfiniBand. Єдина вимога, яка не стосується A/H100, яку ми спостерігали, була для висновку, коли робоче навантаження було одним графічним процесором або одним вузлом».—— Керівник приватної хмари**Основними факторами, що впливають на навчання LLM є:****• Пропускна здатність пам’яті: **З огляду на велику кількість даних, що завантажуються з пам’яті, більша пропускна здатність пам’яті може пришвидшити завантаження даних;**• Обчислювальна потужність моделі (FLOPS, операції з плаваючою комою в секунду): ** Ядро тензора або еквівалентна одиниця множення матриці, яка головним чином впливає на швидкість обчислення;**• Кеш і затримка кешу: **Кеш може тимчасово зберігати дані для повторного доступу, що значно впливає на продуктивність;**• Додаткові функції: **Такі як FP8 (8-розрядне число з плаваючою комою) тощо, цифрові формати з низькою точністю можуть прискорити навчання та логічний висновок;**• Обчислювальна продуктивність: ** пов’язана з кількістю ядер GPU CUDA та головним чином впливає на кількість завдань, які можна виконувати паралельно;**• Швидкість з’єднання: **Для швидкої пропускної здатності міжвузлового з’єднання, наприклад InfiniBand, цей фактор впливатиме на швидкість розподіленого навчання.**H100 має перевагу над A100 частково через меншу затримку кешу H100 і обчислювальну здатність FP8. **H100 – справді перший вибір, оскільки він у 3 рази ефективніший за A100, але коштує лише в 1,5–2 рази дорожче за A100. Якщо врахувати вартість усієї системи, продуктивність на долар H100 також набагато вища, якщо врахувати продуктивність системи, продуктивність на долар може бути в 4-5 разів вищою.—— Дослідник глибокого навчання**Чому так важлива чисельна точність? **Числа з плаваючою комою з низькою точністю можуть покращити швидкість навчання та логічного висновку. Наприклад, FP16 займає вдвічі менше пам’яті, ніж FP32, і втричі швидше, ніж FP32, з точки зору швидкості обчислень. У процесі навчання LLM, щоб забезпечити баланс між швидкістю та точністю, такі методи, як змішана точність і адаптивна точність, використовуються для прискорення великих мовних моделей.Тому підтримка множинної точності є одним із важливих факторів для навчання великих мовних моделей. Google запропонував числовий формат BFP16, який розширює числовий діапазон, одночасно знижуючи точність, і продуктивність краща, ніж FP 32.**• Крім GPU, які ланки витрат на навчання та роботу LLM? ****GPU наразі є найдорожчим компонентом у всій інфраструктурі навчання LLM, але інші аспекти вартості не є низькими, що також впливає на навчання та експлуатаційні витрати LLM:**1. Системна пам’ять і NVMe SSD дорогі: великі моделі вимагають багато високошвидкісної пам’яті та високошвидкісних SSD для кешування та завантаження даних, і обидва компоненти дорогі;2. Високошвидкісні мережі дорогі: високошвидкісні мережі, такі як InfiniBand (використовуються для зв’язку між вузлами), дуже дорогі, особливо для великих, розподілених тренувань.Можливо, 10%-15% загальних витрат на роботу кластера йде на електроенергію та хостинг, розділені приблизно порівну між ними. Витрати на електроенергію включають електроенергію, витрати на будівництво центру обробки даних, вартість землі та працівників тощо, близько 5%-8%; витрати на хостинг включають землю, будівлі, працівників тощо, приблизно 5%-10%. **Наша головна турбота – мережа та надійний центр обробки даних. AWS не підходив через мережеві обмеження та ненадійне обладнання.——Дослідник глибокого навчання**• Як технологія GPUDirect допомагає під час навчання LLM? ****GPUDirect від NVIDIA не потрібен для навчання LLM, але він також може підвищити продуктивність:**Технологія GPUDirect може покращити продуктивність, але це не обов’язково надкритична різниця. Здебільшого це залежить від того, де знаходиться вузьке місце вашої системи. Для деяких архітектур/реалізацій програмного забезпечення вузьким місцем системи не обов’язково є мережа. **Але у випадку з мережею GPUDirect може підвищити продуктивність на 10%-20%, що є значною цифрою для дорогих поточних витрат на навчання. **Тим не менш, GPUDirect RDMA зараз настільки всюдисущий, що його популярність говорить сама за себе. Я вважаю, що підтримка GPUDirect є слабкою для мереж, що не належать до Infiniband, але більшість кластерів GPU, оптимізованих для навчання нейронної мережі, мають мережі/карти Infiniband. Більшим фактором продуктивності є, ймовірно, NVLink, оскільки він зустрічається рідше, ніж Infiniband, але він також критичний, лише якщо ви використовуєте певну стратегію розпаралелювання.Тож такі функції, як потужна мережа та GPUDirect, можуть змусити менш складне програмне забезпечення працювати одразу. Однак GPUDirect не обов’язковий, якщо розглядається вартість або застаріла інфраструктура.—— Дослідник глибокого навчання**GPUDirect:**Технологія передачі даних під назвою GPUDirect Storage (GPUDirect Storage), представлена компанією NVIDIA, в основному використовується для прискорення передачі даних, що зберігаються в різних сховищах, у пам’ять графічного процесора, що може збільшити пропускну здатність у 2–8 разів, а також може зменшити кінцевий результат. затримка до кінця до 3,8 разів. У минулому центральний процесор відповідав за завантаження даних із пам’яті в графічний процесор, що значно обмежувало продуктивність обладнання.Стандартний шлях для передачі даних з диска NVMe в пам'ять графічного процесора - це використання буфера відскоку (Bounce Buffer) в системній пам'яті, який є додатковою копією даних. Основою технології зберігання GPUDirect є уникнення використання кешу відскоку для зменшення кількості додаткових копій даних і використання механізму прямого доступу до пам’яті (Direct Memory Access, DMA) для розміщення даних безпосередньо в пам’яті GPU.**Чому компанія LLM не може використовувати графічний процесор AMD? **Керівник приватної хмарної компанії сказав, що придбати графічні процесори AMD теоретично можливо, але від покупки до фактичної роботи обладнання проходить певний час.Виходити на ринок пізно. Таким чином, CUDA є поточним ровом NVIDIA.У дослідженні MosaicML зазначено, що графічні процесори AMD також підходять для завдань навчання великих моделей. Вони експериментували з простим навчальним завданням на основі PyTorch без будь-яких змін коду порівняно з роботою на NVIDIA. Автори показують, що поки кодова база побудована на PyTorch, її можна використовувати безпосередньо на AMD без додаткової адаптації. У майбутньому автор планує перевірити продуктивність системи AMD на більшому обчислювальному кластері.У той же час існує також думка, що, враховуючи, що вартість навчання моделі становить близько 300 мільйонів доларів США, ніхто не ризикне покладатися на чіпи від AMD чи інших стартапів у великих масштабах, особливо коли попит на чіпи є високим. на замовлення понад 10 тис.Пенсіонер у напівпровідниковій промисловості також зазначив, що ситуація з постачанням AMD не є оптимістичною, а виробничі потужності TSMC CoWoS були поглинені NVIDIA, тому, хоча MI250 може бути життєздатною альтернативою, її також важко отримати.### **H100 VS A100****NVIDIA A100:**Завдяки оновленню NVIDIA V100, порівняно з V100, продуктивність A100 була покращена в 20 разів, що дуже підходить для таких завдань, як ШІ та аналіз даних. A100, що складається з 54 мільярдів транзисторів, інтегрує ядра Tensor третього покоління з прискоренням для операцій з розрідженою матрицею, що особливо корисно для міркування та навчання ШІ. Крім того, кілька графічних процесорів A100 можна використовувати для більших робочих навантажень штучного інтелекту завдяки технології з’єднання NVIDIA NVLink.**NVIDIA H100:**Наступне покоління A100 — це найновіший чіп, оптимізований для великих моделей. Він базується на архітектурі Hopper, створеній за 5-нм техпроцесом спеціальної версії TSMC (4N), а один чіп містить 80 мільярдів транзисторів. Зокрема, NVIDIA запропонувала Transformer Engine, який об’єднує численні точні обчислення та можливості динамічної обробки нейронної мережі Transformer, що дозволяє графічному процесору H100 значно скоротити час навчання моделі. На основі H100 NVIDIA також випустила серію продуктів, таких як робочі станції з машинним навчанням і суперкомп’ютери, такі як 8 H100 і 4 NVLink, об’єднані в гігантський GPU – DGX H100.Порівняно з A100, швидкість 16-бітного висновку H100 приблизно в 3,5 рази вища, а швидкість навчання 16-біт приблизно в 2,3 рази.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aec8f0ce5f-dd1a6f-1c6801) *Порівняння швидкості A100 і H100*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2254ae0820-dd1a6f-1c6801) *H100 Training MoE*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e576097a90-dd1a6f-1c6801) *H100 Прискорення в масштабі*Більшість людей, як правило, купують H100 для навчання моделі та створення висновків, а використовують A100 переважно для моделювання. Однак можна також враховувати наступні фактори:**• Вартість: **H100 дорожчий за A100;**• Ємність: **A100 і H100 відрізняються обчислювальною потужністю та пам’яттю;**• Використання нового апаратного забезпечення: **Прийняття H100 вимагає відповідних налаштувань програмного забезпечення та робочого процесу;**• Ризик: ** Є більше невідомих ризиків у налаштуванні H100;**• ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ ОПТИМІЗОВАНО: **Деяке програмне забезпечення було оптимізовано для A100.Загалом, незважаючи на вищу продуктивність H100, бувають моменти, коли доцільно вибрати A100,** що робить оновлення з A100 на H100 нелегким рішенням, оскільки слід враховувати багато факторів. **Насправді за кілька років A100 перетвориться на V100, яким він є сьогодні. Враховуючи обмеження продуктивності, я думаю, що зараз майже ніхто не буде навчати LLM на V100. Але V100 все ще використовується для висновків та інших завдань. Подібним чином ціна на A100 може впасти, оскільки все більше компаній зі штучним інтелектом звертатимуться до H100 для навчання нових моделей, але попит на A100 завжди буде, особливо для висновків.- Private Cloud ExecutiveЯ думаю, що це знову може призвести до потоку A100 на ринку, оскільки деякі стартапи, що фінансуються величезними коштами, зрештою припиняють свій бізнес.— (Інший) керівник приватної хмариАле з часом люди використовуватимуть A100 для все більшої кількості завдань логічного висновку замість того, щоб навчати новітні та більші моделі. **Продуктивність V100 більше не підтримує навчання великих моделей, а відеокарти з великим об’ємом пам’яті більше підходять для великих моделей, тому передові команди віддають перевагу H100 або A100.Основною причиною невикористання V100 є відсутність типів даних brainfloat16 (bfloat16, BF16). Без такого типу даних важко легко навчити моделі. Основною причиною низької продуктивності OPT і BLOOM є відсутність цього типу даних (OPT навчався у float16, BLOOM здебільшого прототипував у FP16, що унеможливлювало узагальнення даних для навчальних запусків, виконаних у BF16).——Дослідник глибокого навчання**• Яка різниця між графічними процесорами Nvida H100, GH200, DGX GH200, HGX H100 і DGX H100? **• H100 = 1x H100 GPU；• HGX H100 = еталонна платформа сервера NVIDIA. Використовується OEM-виробниками для створення серверів з 4 або 8 GPU, виготовлених сторонніми OEM-виробниками, такими як Supermicro;• DGX H100 = офіційний сервер NVIDIA H100 з 8x H100, NVIDIA є його єдиним постачальником;• GH200 = 1x H100 GPU плюс 1x Grace CPU;• DGX GH200 = 256x GH200, надійде наприкінці 2023 року, ймовірно, лише від NVIDIA;• MGX для великих хмарних компаній.З них більшість компаній вирішили придбати сервери HGX H100 з 8 GPU замість DGX H100 або 4 GPU HGX H100.**Скільки ці графічні процесори коштують окремо? **1x DGX H100 (SXM) з 8x графічними процесорами H100 коштує 460 000 доларів США, включаючи необхідні послуги підтримки тощо, приблизно 100 000 доларів США. Стартапи можуть отримати початкову знижку в розмірі близько 50 000 доларів США за до 8 коробок DGX H100, загалом 64 H100.Специфікації графічного процесора такі:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6daf91fa73-dd1a6f-1c6801) *Технічні характеристики DGX H100*1x HGX H100 (SXM) із 8x графічними процесорами H100 може коштувати від 300 000 до 380 000 доларів США залежно від специфікацій (мережа, сховище, пам’ять, ЦП) і націнки постачальника та рівня підтримки. Якщо технічні характеристики точно такі ж, як у DGX H100, підприємства можуть заплатити вищу ціну від 360 000 до 380 000 доларів США, включаючи підтримку.1x HGX H100 (PCIe) з 8x графічними процесорами H100 коштує приблизно 300 тис. доларів США, включаючи підтримку, залежно від специфікацій.Ринкова ціна карти PCIe становить від 30 000 до 32 000 доларів США.Відеокарти SXM не продаються окремо, тому визначити ціну складно. Зазвичай продаються лише як сервери 4GPU та 8GPU.Близько 70-80% попиту на ринку припадає на SXM H100, решта – на PCIe H100. Попит на сегмент SXM зростає, оскільки в попередні місяці були доступні лише карти PCIe. Враховуючи, що більшість компаній купують 8GPU HGX H100 (SXM), це становить приблизно 360 000–380 000 доларів США за 8 H100, включаючи інші серверні компоненти.DGX GH200 містить 256x GH200, і кожен GH200 містить 1x H100 GPU та 1x Grace CPU. За оцінками, вартість DGX GH200 може складати від 15 мільйонів до 25 мільйонів доларів США.**Який ринковий попит на GPU? **• Навчання GPT-4 можна проводити на 10 000–25 000 аркушах формату A100;• Meta має близько 21 000 A100, Tesla має близько 7 000 A100, а Stability AI має близько 5 000 A100;• навчання Falcon 40B проведено на 384 A100;• Inflection використовує 3500 аркушів H100 у своїй еквівалентній моделі GPT-3.5.До грудня у нас буде 22 000 графічних процесорів, а сьогодні – понад 3 500 одиниць.— Мустафа Сулейман, генеральний директор Inflection AI**Згідно з Ілоном Маском, навчання GPT-5 може використовувати 30 000-50 000 H100. **У лютому 2023 року компанія Morgan Stanley запропонувала, що GPT-5 використовуватиме 25 000 графічних процесорів, і тоді вони також запропонували, що GPT-5 уже навчався, але Сем Альтман пізніше спростував це в травні цього року, заявивши, що OpenAI не навчався. GPT-5, тому інформація Morgan Stanley може бути неточною.GCP має близько 25 000 H100, а Azure може мати 10 000-40 000 H100. Це має бути схоже для Oracle. Крім того, більшість можливостей Azure буде надано OpenAI.CoreWeave підтримує приблизно від 35 000 до 40 000 H100, але це базується на замовленнях, а не на фактичних даних.**Скільки H100 замовив Startup? **Якщо використовується для завдання тонкого налаштування LLM, зазвичай замовляються десятки або сотні аркушів; якщо використовується для навчання LLM, потрібні тисячі аркушів.**Скільки H100 може знадобитися компанії в секторі LLM? **• OpenAI може знадобитися 50 000, Inflection може знадобитися 24 000, а Meta може знадобитися 25 000 (існують також приказки, що Meta насправді потребує 100 000 або більше);• Великим постачальникам хмарних послуг, таким як Azure, Google Cloud, AWS і Oracle, може знадобитися по 30 000 кожному;• Постачальники приватних хмарних послуг, такі як Lambda та CoreWeave, та інші приватні хмари можуть додати до 100 000;• Anthropic, Helsing, Mistral, Character можуть коштувати 10 тисяч кожен.Наведені вище цифри є оцінками та припущеннями, і деякі з них можуть бути враховані двічі, як-от клієнти, які орендують хмару. **Загалом, згідно з поточними розрахунками, кількість H100 становить близько 432 000. Якщо розрахувати близько 35 000 доларів США за кожен, це GPU загальною вартістю приблизно 15 мільярдів доларів США. Крім того, цифра 432 000 не включає китайські компанії, такі як ByteDance (TikTok), Baidu та Tencent, яким потрібно багато H800. **Крім того, деякі фінансові компанії також розгортають A100/H100 від сотень до тисяч: наприклад, Jane Street, JP Morgan, Two Sigma та Citadel.**Як це порівняти з доходом центру обробки даних NVIDIA? **Дохід центру обробки даних NVIDIA склав 4,28 мільярда доларів США за лютий-квітень 2023 року. У період з 25 травня по липень 2023 року дохід центру обробки даних може становити близько 8 мільярдів доларів. **Це в першу чергу базується на припущенні, що вищий прогноз NVIDIA щодо доходів на квартал пов’язаний насамперед із вищими доходами центрів обробки даних, а не з іншими бізнес-сферами. **Тому може знадобитися деякий час, щоб зменшити дефіцит пропозиції. Але не виключено, що дефіцит обчислювальної потужності перебільшений: по-перше, більшість компаній не купують всі необхідні H100 відразу, а модернізують поступово, крім того, NVIDIA також активно нарощує виробничі потужності.Наявність 400 000 H100 на ринку в цілому не є недосяжною, особливо враховуючи, що сьогодні всі розгортають 4- або 5-значні H100 у великій кількості.—— Керівник приватної хмари**Підсумуйте**• Більшість великих CSP (Azure, AWS, GCP і Oracle) і приватні хмари (CoreWeave, Lambda та інші) віддають перевагу більшій кількості графічних процесорів H100, ніж просто можливості доступу до них, більшість великих пропозицій штучного інтелекту Компанія також шукає більше графічних процесорів H100 .• Зазвичай ці компанії хочуть шасі HGX H100 з 8 GPU і картами SXM. Залежно від специфікацій і підтримки, кожен сервер з 8 GPU коштує приблизно 3-4 мільйони доларів. Може виникнути надмірний попит на сотні тисяч графічних процесорів H100 загальною вартістю понад 15 мільярдів доларів США;• З обмеженою пропозицією NVIDIA могла б підвищити ціни, щоб знайти ринкову рівноважну ціну, і певною мірою це вдалося. Загалом, остаточне рішення про те, як розподілити GPU H100, залежить від того, яким клієнтам сама NVIDIA вважає за краще його розподіляти.## **03.H100 Аналіз постачання****Вузьке місце від TSMC**H100 виробляє TSMC (TSMC). **Чи може NVIDIA вибрати інші фабрики з виробництва мікросхем, щоб виробляти більше H100? Принаймні поки що. **NVIDIA співпрацювала з Samsung у минулому, але Samsung не змогла задовольнити їхні потреби в передових графічних процесорах, тому наразі NVIDIA може використовувати лише графічні процесори H100s та інші 5-нм графічні процесори виробництва TSMC. **Можливо, у майбутньому NVIDIA співпрацюватиме з Intel або продовжуватиме співпрацювати з Samsung щодо суміжних технологій, але жодна з цих ситуацій не відбудеться в короткостроковій перспективі, тому дефіцит поставок H100 не зменшиться. **5-нанометрова (N5) технологія TSMC надійде в масове виробництво в 2020 році. Технологія N5 є другою технологією EUV процесу TSMC, яка пропонує більш високу швидкість і менше енергоспоживання, ніж попередня технологія N7. Крім того, TSMC також планує запустити 4-нанометрову (N4) технологію, яка є вдосконаленою версією технології N5, яка ще більше покращить продуктивність і енергоспоживання, і планує почати масове виробництво в 2022 році.H100 виробляється на основі технологічного процесу TSMC 4N, який належить до вдосконаленого 5-нм техпроцесу серії 5-нм, а не до справжнього 4-нм процесу. **На додаток до NVIDIA, Apple також використовує цю технологію, але вони в основному перейшли на N3 і зберегли більшу частину потужності N3. **Крім того, Qualcomm і AMD є великими клієнтами серії N5.A100 використовує процес N7 TSMC.7 нанометрів (N7) — це технологічний вузол, який TSMC запустить у масове виробництво у 2019 році. На основі N7 TSMC також представила процес N7+, який є 7-нм виробничим процесом із використанням EUV (літографія з екстремальним ультрафіолетовим випромінюванням), що збільшує щільність транзисторів на 15%-20%, одночасно зменшуючи енергоспоживання мікросхеми.Як правило, потужність початкового процесу (Fab Capacity) планується більш ніж на 12 місяців наперед. Зазначається, що TSMC та її основні клієнти спільно плануватимуть виробничий попит на наступний рік, тому поточний дефіцит поставок H100 частково пов’язаний з неправильною оцінкою TSMC і NVIDIA цьогорічного попиту на H100 у попередньому році.**Чудова ємність:**У процесі виробництва напівпровідникових мікросхем Fab є абревіатурою від FABRICATION (обробка, виробництво), а Fab Capacity можна розглядати як потужність.Згідно з іншим джерелом, для продажу H100 клієнтам (виробництво, упаковка та тестування) зазвичай потрібно 6 місяців від початку виробництва, але ця ситуація ще не підтверджена.Професіонал із виробництва напівпровідників на пенсії зазначив, що потужність виробництва пластин не є вузьким місцем TSMC, а справжнє вузьке місце полягає у згаданому вище CoWoS (тривимірному стекуванні).**CoWoS (чип на пластині на підкладці, тривимірне укладання):**Це інтегрована технологія 2.5D виробництва TSMC. Спочатку чіп з’єднується з кремнієвою пластиною за допомогою процесу упаковки CoW (Chip on Wafer), а потім чіп CoW з’єднується з підкладкою (Substrate) і інтегрується в CoWoS. .За даними DigiTimes, TSMC почала розширювати свої виробничі потужності CoWoS і планує збільшити виробничу потужність CoWoS з 8 000 пластин на місяць до 11 000 пластин на місяць до кінця 2023 року та приблизно до 14 500-16 600 пластин на місяць до кінця 2023 року. 2024 рік. Великі технологічні гіганти, такі як NVIDIA, Amazon, Broadcom, Cisco та Xilinx, підвищили попит на вдосконалене пакетування CoWoS від TSMC.**Пам'ять H100****Тип пам’яті (Memory Bype), ширина шини пам’яті (Memory Bus Width) і тактова частота пам’яті (Memory Clock Speed) спільно впливають на пропускну здатність пам’яті GPU. **NVIDIA розробила ширину шини та тактову частоту H100 як частину архітектури GPU. Пам’ять HBM3 в основному використовується на H100 SXM, а HBM2e – на H100 PCIe.HBM важко виробляти, а пропозиція дуже обмежена, тому виробництво HBM є кошмаром. Але після того, як HBM виготовлено, решта конструкції стає легкою.——Дослідник Deepl Learning**Тип пам’яті, ширина шини пам’яті та тактова частота пам’яті є трьома важливими показниками пам’яті комп’ютера. ****Ширина шини пам'яті:**Це стосується ширини каналу передачі даних між модулем пам’яті та материнською платою.Більша ширина шини пам’яті може забезпечити більший шлях передачі даних, тим самим збільшуючи швидкість передачі даних між пам’яттю та процесором.**Тактова швидкість пам'яті:**Відноситься до робочої тактової частоти модуля пам’яті Вища тактова частота пам’яті означає, що пам’ять може швидше виконувати операції читання та запису та забезпечує вищу швидкість передачі даних.**HBM（Пам'ять високої пропускної здатності）：**Це технологія пам’яті з високою пропускною здатністю, яка використовується для забезпечення високої швидкості доступу до пам’яті в графічних процесорах (GPU) та інших високопродуктивних обчислювальних пристроях. Технологія пам’яті, що використовується в традиційних графічних картах і обчислювальних пристроях, зазвичай базується на конструкції GDDR (Graphics Double Data Rate), яка має певний баланс між продуктивністю та енергоспоживанням. Технологія HBM забезпечує більшу пропускну здатність і нижче енергоспоживання завдяки розміщенню стеків пам’яті на чіпах GPU та об’єднанню кількох чіпів DRAM разом за допомогою високошвидкісних вертикальних з’єднань (TSV).Для пам'яті HBM3 NVIDIA може використовувати повністю або переважно SK Hynix. Невідомо, чи NVIDIA H100 використовує пам'ять Samsung, але точно, що NVIDIA зараз не використовує пам'ять Micron.Що стосується HBM3, то загалом SK Hynix має найбільший обсяг виробництва, за ним йде Samsung, а Micron, який займає третє місце, має великий розрив у виробництві з першими двома. Схоже, що SK Hynix збільшила виробництво, але NVIDIA все ще хоче, щоб вони виробляли більше, тоді як Samsung і Micron ще не встигли збільшити виробництво.**Що ще використовується у виробництві графічних процесорів? **Крім того, виробництво GPU також включатиме багато металевих матеріалів і деталей.Нестача сировини на цих ланках також спричинить вузьке місце поставок GPU, наприклад:**• Метали та хімічні речовини: **Включає кремній (металоїди), як-от мідь, тантал, золото, алюміній, нікель, олово, індій і паладій, які використовуються на різних етапах виробництва, від виготовлення силіконових круглих до остаточного складання GPU , такі як кремній, рідкісні землі тощо;**• Компоненти та пакувальні матеріали: **Такі як підкладки, припойні кульки та дроти, суміші для розсіювання тепла тощо, які використовуються для завершення складання та з’єднання різних компонентів графічного процесора та мають вирішальне значення для роботи графічного процесора. GPU;**• Енергоспоживання: **Через використання високоточного механічного обладнання під час процесу виробництва чіпів GPU потрібна велика кількість електроенергії.**Як NVIDIA вирішує проблему нестачі H100? **NVIDIA повідомила, що вони збільшать постачання в другій половині цього року. Фінансовий директор NVIDIA заявив у фінансовому звіті, що компанія робить усе можливе, щоб вирішити проблему з постачанням, але крім цього, вони не надали жодної іншої інформації. вони мають будь-які конкретні цифри, пов'язані з H100.«Ми вирішуємо проблеми з поставками на квартал, але ми також купили багато запасів на другу половину року».«Ми вважаємо, що пропозиція у другій половині року буде значно більшою, ніж у першій половині».-- Колетт Кресс, фінансовий директор Nvidia, під час телефонної розмови про прибутки за лютий-квітень 2023 рокуКерівник приватної хмарної компанії вважає, що **згодом на ринку може виникнути порочне коло, тобто через дефіцит потужності графічних процесорів розглядатимуться як рів для компаній зі штучним інтелектом, що призводить до більшого накопичення графічних процесорів, що, у свою чергу, ще більше загострює дефіцит графічних процесорів. **Відповідно до історичного інтервалу між запуском NVIDIA різних архітектур, модель наступного покоління H100 може бути випущена не раніше кінця 2024 року (з середини 2024 року до початку 2025 року). До цього H100 завжди буде продуктом найвищого рівня GPU NVIDIA (GH200 і DGX GH200 не враховуються, вони не є чистими GPU, і обидва використовують H100 як GPU).Крім того, очікується, що в майбутньому з’явиться версія на 120 ГБ з більшою пам’яттю.## **04. Як отримати H100****Продавець H100**Виробники оригінального обладнання (OEM), такі як Dell, HPE, Lenovo, Supermicro та Quanta, продають H100 і HGX H100, тоді як замовлення InfiniBand потрібно робити через NVIDIA Mellanox.**Mellanox** є одним із найбільших світових постачальників InfiniBand.У 2015 році частка Mellanox на світовому ринку IB досягла 80%. У 2019 році NVIDIA придбала Mellanox за 125 доларів США за акцію, а загальна вартість угоди склала приблизно 6,9 мільярда доларів США. Це придбання дозволить NVIDIA ще більше розширити свою частку на ринку високопродуктивних обчислень і центрів обробки даних, а також зміцнить конкурентоспроможність NVIDIA в області ШІ.Поєднуючи технологію високошвидкісного з’єднання Mellanox із графічними прискорювачами NVIDIA, NVIDIA може надати центрам обробки даних рішення з вищою пропускною здатністю та меншою затримкою. Окрім Mellanox, у 2012 році корпорація Intel придбала технологію IB QLogic, ще одного постачальника в галузі IB.Хмари графічних процесорів, такі як CoreWeave і Lambda, купують графічні процесори в OEM-виробників і здають їх в оренду стартапам. Гіпермасштабовані хмарні програвачі (Azure, GCP, AWS, Oracle) можуть купувати більше безпосередньо з NVIDIA, але іноді вони також співпрацюють з OEM-виробниками.Для DGX закупівля також здійснюється через OEM. Хоча клієнти можуть зв’язуватися з NVIDIA щодо вимог щодо придбання, покупка здійснюється через OEM, а не безпосередньо в NVIDIA.Терміни доставки серверів HGX з 8 GPU жахливі, а сервери HGX з 4 GPU досить хороші, але насправді всі хочуть сервери з 8 GPU.**• Скільки часу проходить від розміщення замовлення до розгортання H100? **Розгортання – це поетапний процес. Скажімо, приблизно 5000 графічних процесорів, вони можуть отримати доступ до 2000 або 4000 графічних процесорів через 4-5 місяців, а потім до решти графічних процесорів приблизно через 6 місяців.**Для Startup, якщо ви хочете придбати графічний процесор, ви не розміщуєте замовлення в OEM або торгового посередника**. Зазвичай вони вибирають публічні хмарні служби, такі як Oracle, або орендують права доступу до приватних хмар, таких як Lambda та CoreWeave або використовувати такі служби, як FluidStack, а OEM-виробники та постачальники, які працюють із центрами обробки даних, орендують доступ.**• Чи варто підприємству будувати власний центр обробки даних чи колокацію? **Фактори, які необхідно враховувати для створення центру обробки даних, включають час, необхідний для створення центру обробки даних, наявність талантів і досвіду в апаратному забезпеченні та масштаб капіталовкладень.Орендувати та розмістити сервер набагато простіше. Якщо ви хочете побудувати власний центр обробки даних, вам потрібно прокласти темну оптоволоконну лінію до вашого місця розташування, щоб підключитися до Інтернету, а вартість оптоволокна становить 10 000 доларів за кілометр. Під час інтернет-буму більшість інфраструктури вже була побудована та оплачена. Тепер можна просто орендувати, і це досить дешево.—— Керівник приватної хмариОренда або будівництво дата-центру – це рішення «або-або». Відповідно до реальних потреб підприємства можуть мати такі різні варіанти:1. Хмара на вимогу: використання виключно хмарних сервісів для оренди;2. Заповідна хмара;3. Хостинг (придбання сервера, співпраця з провайдером для розміщення та управління сервером);4. Самостійний хостинг (самостійне придбання та розміщення сервера).Більшість стартапів, яким потрібно багато H100, оберуть зарезервовану хмару або колокацію.**Як підприємства обирають компанію, що надає хмарні послуги? **Існує думка, що інфраструктура Oracle не така надійна, як три основні хмари, але вона готова витрачати більше часу на технічну підтримку клієнтів. Деякі практики приватних хмарних компаній сказали, що 100% з них матимуть велику кількість незадоволених послугами на основі Oracle, а деякі керівники інших компаній вважають, що мережеві можливості Oracle сильніші.**Загалом Startup вибирає компанію з найкращим поєднанням сервісної підтримки, ціни та потужності. **Основні відмінності між декількома великими компаніями, що надають хмарні послуги:**• Мережа: **AWS і Google Cloud повільніше впроваджують InfiniBand, оскільки вони мають власні підходи, але більшість стартапів, які шукають великі кластери A100/H100, шукають InfiniBand;**• Доступність: **Наприклад, більша частина обчислювальної потужності Azure H100 використовується OpenAI, що означає, що іншим клієнтам може бути недостатньо обчислювальної потужності.**Хоча фактичної бази немає, є припущення, що NVIDIA більш схильна віддавати пріоритет постачанню GPU для постачальників хмарних послуг, які не розробили конкуруючі чіпи машинного навчання. **Усі три основні постачальники хмарних послуг наразі розробляють власні мікросхеми машинного навчання, але альтернативи AWS і NVIDIA від Google уже є на ринку та займають частину ринку NVIDIA. Це також призвело до деяких спекуляцій на ринку, що NVIDIA більш готова співпрацювати з Oracel через це.Деякі великі хмарні компанії мають кращі ціни, ніж інші. Як зазначив один керівник приватної хмари: «Наприклад, A100 на AWS/AZURE набагато дорожчий, ніж GCP».Oracle повідомила мені, що пізніше цього року вони будуть використовувати «десятки тисяч H100». Але з точки зору ціноутворення вони вищі, ніж у інших компаній. Вони не повідомили мені ціну на H100, але на A100 80 ГБ вони оцінили близько 4 доларів США за годину, що майже вдвічі більше, ніж вказував GCP, і за тих самих енергоспоживання та зусиль.— АнонімМенші хмари мають перевагу з точки зору ціноутворення, за винятком деяких випадків, коли одна з великих хмарних компаній може укласти дивну угоду в обмін на власний капітал.Так що в цілому щодо тісності співпраці з NVIDIA, Oracle і Azure > GCP і AWS, але це лише припущення.Oracle стала піонером A100s і розмістила кластери на базі Nvidia у партнерстві з Nvidia, яка також є клієнтом Azure.**• Яка велика хмарна компанія має найкращу продуктивність мережі? **Azure, CoreWeave та Lambda використовують InfiniBand. Продуктивність мережі Oracle хороша на рівні 3200 Гбіт/с, але використовує Ethernet замість InfiniBand і може бути приблизно на 15-20% повільнішою, ніж IB, для таких випадків використання, як навчання LLM з високими параметрами. Мережі AWS і GCP не такі хороші.**• Як зараз підприємства обирають хмарні сервіси? **Статистичні дані по 15 компаніям показують, що всі 15 опитаних компаній виберуть AWS, GCP або Azure, а Oracle серед них немає.Більшість компаній, як правило, використовують наявну хмару. Але для команд підприємців їхній вибір більше ґрунтується на реальності: той, хто може забезпечити обчислювальну потужність, вибере будь-який.**• З ким NVIDIA працює над DGX Cloud? **«Nvidia співпрацює з провідними постачальниками хмарних послуг для розміщення DGX Cloud Infrastructure, починаючи з Oracle Cloud Infrastructure» — продавати з Nvidia, але орендувати через існуючих хмарних постачальників (спочатку з Oracle, потім Azure, потім Google Cloud, який не працював з AWS).Генеральний директор NVIDIA Дженсен Хуанг сказав під час телефонної розмови NVIDIA про прибутки, що «ідеальне поєднання — це 10% хмари NVIDIA DGX і 90% хмари CSP».**• Розклад хмарних гігантів H100:**CoreWeave був одним із перших. Як інвестор CoreWeave та з метою посилення конкуренції серед великих хмарних компаній NVIDIA першою завершила поставку CoreWeave.Розклад інших хмарних сервісів на 100-е півріччя такий:• Azure оголосила про доступність H100 для попереднього перегляду 13 березня;• Oracle оголосила про обмежену поставку H100 21 березня;• Lambda Labs оголосила 21 березня, що випустить H100 на початку квітня;• AWS оголосила 21 березня, що H100 буде в попередньому перегляді через кілька тижнів;• Google Cloud оголосила про початок приватної попередньої версії H100 10 травня.**• Які хмарні сервіси використовують різні компанії? **• OpenAI: Azure• Перегин: Azure і CoreWeave• Anthropic: AWS 和 Google Cloud• Cohere: AWS 和 Google Cloud• Hugging Face: AWS• ШІ стабільності: CoreWeave та AWS• Character.ai: Google Cloud• X.ai: Oracle• NVIDIA: Azure**Як отримати більше квоти GPU? **Останнє вузьке місце полягає в тому, чи можна отримати розподіл обчислювальної потужності від NVIDIA.**• Як NVIDIA обирає клієнтів? **Зазвичай NVIDIA виділяє певну кількість графічних процесорів для кожного клієнта, і в цьому процесі **NVIDIA найбільше хвилюється про те, «хто є кінцевим клієнтом», наприклад, Azure сказала, що «ми хочемо придбати 10 000 H100 для підтримки Inflection», і результат, що відповідає Azure, кажучи: «Ми придбали 10 000 H100 для Azure», відрізняється. **Якщо NVIDIA зацікавлена в певному кінцевому клієнті, хмарна компанія може отримати додаткову квоту GPU. Таким чином, NVIDIA сподівається якомога більше знати, хто є кінцевими клієнтами, і вони будуть більш схильні до великих підприємств або стартапів із сильною підтримкою.Так, здається, це так. Nvidia любить надавати доступ до графічного процесора стартапам зі штучним інтелектом (багато з яких мають тісні зв’язки з Nvidia). Inflection, компанія штучного інтелекту, інвестована Nvidia, тестує величезний кластер H100 на CoreWeave.—— Керівник приватної хмариЯкщо певна хмарна компанія залучає кінцевого клієнта до NVIDIA та висловлює готовність придбати певну кількість H100, і NVIDIA зацікавлена в цьому кінцевому клієнті, NVIDIA, як правило, надає певну квоту, яка фактично збільшить кількість, яку NVIDIA Загальна потужність хмарної компанії, оскільки цей розподіл не залежить від квоти, спочатку наданої хмарній компанії від NVIDIA.Розподіл NVIDIA великої ємності для приватних хмар є особливим випадком: **CoreWeave має більше H100, ніж GCP. NVIDIA неохоче виділяє значні ресурси компаніям, які намагаються конкурувати з нею напряму (AWS Inferentia і Tranium, Google TPU, Azure Project Athena). **Але врешті-решт, якщо ви подасте замовлення на купівлю та гроші в NVIDIA, візьмете на себе більшу угоду з більшими авансовими коштами та продемонструєте свій профіль із низьким рівнем ризику, ви обов’язково отримаєте більше квоти GPU, ніж будь-хто інший .## **05. Підсумок**Незважаючи на те, що, як сказав Сем Альтман, «ера використання великих моделей добігає кінця», на даний момент ми все ще обмежені GPU. З одного боку, такі компанії, як OpenAI, уже мають чудові продукти PMF, такі як ChatGPT, але оскільки вони обмежені графічним процесором, їм потрібно придбати велику кількість обчислювальної потужності.З іншого боку, багато команд працюють над можливістю участі у LLM у майбутньому Накопичення графічних процесорів незалежно від їхнього потенціалу для створення чогось на зразок ChatGPT.Але немає жодних сумнівів, що право NVIDIA говорити не буде похитнуто.**На цьому етапі найкращим продуктом LLM, який створює PMF, є ChatGPT. Нижче використовується ChatGPT як приклад, щоб пояснити, чому існує дефіцит графічних процесорів:**1. Оскільки ChatGPT дуже популярний серед користувачів, його ARR (щорічний повторюваний дохід) може перевищувати 500 мільйонів доларів США;2. ChatGPT працює на API GPT-4 і GPT-3.5;3. Для роботи API GPT-4 і GPT-3.5 потрібен графічний процесор, і потрібна велика кількість графічних процесорів. OpenAI сподівається випустити більше функцій для ChatGPT і його API, але це неможливо реалізувати через обмежену кількість графічні процесори;4. OpenAI придбала велику кількість графічних процесорів NVIDIA через Microsoft (Azure);5. Для виробництва графічного процесора H100 SXM NVIDIA використовує TSMC для виробництва, а також використовує технологію упаковки CoWoS від TSMC і HBM3 в основному від SK Hynix.Окрім OpenAI, на ринку є багато компаній, які навчають власні великі моделі.Залишмо вбік, скільки бульбашок існує в LLM, і наскільки ймовірно, що продукти PMF з’являться в кінці, але загалом конкуренція LLM має підштовхнув ринковий попит на графічні процесори. Крім того, є деякі компанії, які навіть якщо їм поки що не потрібні графічні процесори, вони почнуть запасатися ними заздалегідь, бо хвилюються за майбутнє. Тож це схоже на «очікування дефіциту пропозиції посилює дефіцит пропозиції»**.Отже, ще однією силою, що підвищує попит на графічні процесори, є корпоративні компанії, які хочуть створювати нові LLM або брати участь у ШІ в майбутньому:1. Важливість великих моделей стала консенсусом: якщо це зріле підприємство, воно сподівається навчати LLM на власних даних і сподівається, що це принесе більшу цінність для бізнесу; як компанія-початківець, воно сподівається створити свій мати LLM і перетворити його на комерційну цінність. GPU просто необхідний для навчання великих моделей;2. Спілкування між цими підприємствами та великими хмарними постачальниками (Azure, Google Cloud, AWS), намагаючись отримати достатньо H100;3. Під час процесу вони виявили, що постачальники хмарних технологій не мали достатньо H100 для розподілу, а деякі постачальники хмарних мереж також мали недосконалі мережеві конфігурації, тому CoreWeave, Oracle, Lambda та FluidStack також стали купувати графічні процесори та володіти ними, можливо, вони також обговорюють з OEM і NVIDIA;4. Зрештою, вони отримали багато GPU;5. Зараз вони намагаються відповідати своєму продукту ринку;6. Якщо це ще не було зрозуміло, шлях нелегкий – пам’ятайте, що OpenAI досяг відповідності продукту ринку на меншій моделі, а потім розширив її. Але тепер, щоб досягти відповідності продукту ринку, ви повинні відповідати варіанту використання вашого користувача краще, ніж модель OpenAI, тому для початку вам потрібно більше GPU, ніж OpenAI.**Принаймні до кінця 2023 року існуватиме дефіцит для підприємств, які розгортають сотні чи тисячі H100, можливо, до кінця 2023 року ситуація проясниться, але, здається, дефіцит графічних процесорів може тривати до 2024 року. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c4b14a8370-dd1a6f-1c6801) *Подорож пропозиції та попиту на GPU***Довідка**Коментар засновника спеціального стартапу LLMs for enterprisesПовідомлення від хмарного постачальникаРозмови з хмарними компаніями та постачальниками GPUTesla Q1 2023 (охоплює 1 січня 2023 року до 31 березня 2023 року) звіт про прибуткиКоментар від хмарної компаніїПрипущення від хмарної компанії︎