یک مهندس که در دوران انتقال آگراوال-ماسک در توییتر کار می‌کرد، اخیراً خاطراتی از پیدا کردن یک کلاستر از ۷۰۰ پردازنده گرافیکی انویدیا V100 را بازگو کرده است. تیم زمان Tim Zaman، که اکنون به عنوان مهندس نرم‌افزار در گوگل دیپ‌مایند (Google DeepMind) مشغول به کار است، این حجم عظیم از قدرت پردازشی را در مرکز داده توییتر که فعال اما بلااستفاده بود، کشف کرد.

تاریخچه این کشف

چند هفته پس از تصاحب توییتر در سال ۲۰۲۲، تیم زمان ۷۰۰ پردازنده گرافیکی V100 را در مرکز داده یافت که روشن و بدون استفاده مانده بودند. این پردازنده‌ها که به باور «زمان» «بقایای فراموش‌شده‌ای از یک تلاش پیگیر برای ساخت یک کلاستر در توییتر 1.0» بودند، سال‌ها در این وضعیت مانده بودند. «زمان» این کشف را پس از مطالعه در مورد سوپرکلاستر ممفیس xAI که با ۱۰۰,۰۰۰ شتاب‌دهنده H100 انویدیا خنک‌شده با مایع در حال آموزش مدل Grok 3 بود، منتشر کرد.

اتلاف منابع و تغییرات زمان

توییت تیم زمان نشان داد که توییتر ۷۰۰ عدد از قدرتمندترین پردازنده‌های گرافیکی جهان را داشت که بدون هدف فعالیت می‌کردند. او گفت: «چقدر زمان تغییر کرده است!» این پردازنده‌های گرافیکی که در سال ۲۰۱۷ و در دوره نخستین کمبود بزرگ پردازنده‌های گرافیکی تهیه شده بودند، تا اواسط ۲۰۲۲ بدون هدف فعالیت می‌کردند. این مقدار عظیم از زمان و منابع محاسباتی تلف شده است.

انتخاب PCIe به جای NVLink

یکی دیگر از چیزهای جالب، کشف این بود که این ۷۰۰ پردازنده گرافیکی انویدیا V100 از نوع PCIe بودند نه از نوع NVLink با پهنای باند بالاتر. دلایل خرید این پردازنده‌ها به جای نسخه‌های NVLink برای این نصب بزرگ توسط توییتر 2017 همچنان نامشخص است و شاید هیچ‌گاه مشخص نشود.

چالش‌های گیگافکتوری محاسباتی ماسک

توییت زمان همچنین شامل تأملاتی در مورد گیگافکتوری محاسباتی جدید ماسک بود. او اظهار داشت که «فعال‌سازی ۱۰۰ هزار پردازنده گرافیکی (fabric) باید یک چالش حماسی باشد». او همچنین به مدیریت خرابی‌های احتمالی در این مقیاس بزرگ اشاره کرد و پیشنهاد کرد که منابع را به حوزه‌های جداگانه تقسیم کنند تا خرابی‌ها کل سیستم را مختل نکنند.

آینده کلاسترهای آموزش هوش مصنوعی

زمان همچنین به حداکثر تعداد پردازنده‌های گرافیکی که می‌توانند ردر یک مجموعه فعال کرد، علاقه‌مند بود. استتلاش شرکت‌های بزرگ فناوری برای ساخت کلاسترهای بزرگ‌تر برای آموزش هوش مصنوعی، محدودیت‌های پیش‌بینی‌پذیر و غیرقابل پیش‌بینی در این زمینه شناخته خواهند شد.



نوشته‌های پیشنهادی


source

توسط salamathyper.ir