image001.jpg

GPU, yapay zeka bilgisayarının beynidir

Basitçe ifade etmek gerekirse, grafik işlem birimi (GPU), yapay zeka bilgisayarının beyni gibi görev yapar.

Bildiğiniz gibi, merkezi işlem birimi (CPU) bilgisayarın beynidir. GPU'nun avantajı, karmaşık hesaplamalar yapabilen özel bir CPU olmasıdır. Bunu yapmanın en hızlı yolu, GPU gruplarının aynı problemi çözmesini sağlamaktır. Ancak, bir yapay zeka modelini eğitmek yine de haftalar hatta aylar sürebilir. Oluşturulduktan sonra, bir ön uç bilgisayar sistemine yerleştirilir ve kullanıcılar yapay zeka modeline sorular sorabilir; bu, çıkarım adı verilen bir işlemdir.

Birden fazla GPU içeren bir yapay zeka bilgisayarı

Yapay zeka problemleri için en iyi mimari, bir rafta bulunan ve rafın üstündeki bir anahtara bağlı bir GPU kümesi kullanmaktır. Birden fazla GPU rafı, bir ağ hiyerarşisi içinde birbirine bağlanabilir. Problem karmaşıklaştıkça GPU gereksinimleri artar ve bazı projelerin binlerce GPU'dan oluşan kümeler kurması gerekebilir.

Her AI kümesi küçük bir ağdır

Bir yapay zeka kümesi oluştururken, GPU'ların bir arada çalışmasını ve verileri verimli bir şekilde paylaşmasını sağlayacak küçük bir bilgisayar ağı kurmak gerekir.

image002.jpg
Bir yapay zeka kümesi

Yukarıdaki şekil, alttaki dairelerin GPU'larda çalışan iş akışlarını temsil ettiği bir Yapay Zeka Kümesini göstermektedir. GPU'lar, raf üstü (ToR) anahtarlarına bağlanır. ToR anahtarları ayrıca, diyagramın üstünde gösterilen ağ omurgası anahtarlarına da bağlanarak, birden fazla GPU söz konusu olduğunda gereken net ağ hiyerarşisini göstermektedir.

Ağlar, yapay zeka dağıtımında bir darboğazdır
Geçtiğimiz sonbaharda, katılımcıların yeni nesil yapay zeka altyapısını oluşturmak için çalıştığı Açık Bilgisayar Projesi (OCP) Küresel Zirvesi'nde, Marvell Technology'den delege Loi Nguyen önemli bir noktaya değindi: "Ağ oluşturma yeni darboğazdır."

Teknik olarak, ağ tıkanıklığı nedeniyle yüksek paket gecikmesi veya paket kaybı, paketlerin yeniden gönderilmesine neden olarak iş tamamlanma süresini (JCT) önemli ölçüde artırabilir. Sonuç olarak, verimsiz yapay zeka sistemleri nedeniyle işletmeler milyonlarca hatta on milyonlarca dolar değerinde GPU israfına uğramakta ve bu da işletmelerin hem gelirlerine hem de pazara sunma sürelerine mal olmaktadır.

Ölçüm, yapay zeka ağlarının başarılı bir şekilde çalışması için temel bir koşuldur

Bir yapay zeka kümesini etkili bir şekilde çalıştırmak için, eğitim süresini kısaltmak ve öğrenme modelini en üst düzeye çıkarmak için GPU'ların tam kapasiteyle kullanılabilmesi gerekir. Bu nedenle, yapay zeka kümesinin performansını test etmek ve değerlendirmek gerekir (Şekil 2). Ancak bu kolay bir iş değildir, çünkü sistem mimarisi açısından, sorunu çözmek için birbirini tamamlaması gereken GPU'lar ve ağ yapıları arasında birçok ayar ve ilişki vardır.

image005.jpg
Yapay Zeka Veri Merkezi Test Platformu ve Yapay Zeka Veri Merkezi Kümelerini Nasıl Test Ediyor?

Bu durum, yapay zeka ağlarının ölçülmesinde pek çok zorluğa yol açıyor:

- Maliyet, ekipman, yetenekli ağ yapay zeka mühendislerinin eksikliği, alan, güç ve sıcaklık gibi kısıtlamalar nedeniyle tüm üretim ağlarının laboratuvarda yeniden üretilmesinin zorluğu.

- Üretim sisteminde ölçüm yapılması, üretim sisteminin kendi kullanılabilir işleme kapasitesini azaltır.

- Sorunların ölçek ve kapsamlarındaki farklılıklar nedeniyle sorunların doğru bir şekilde yeniden üretilmesinde zorluk yaşanması.

- GPU'ların toplu olarak nasıl bağlandığının karmaşıklığı.

Bu zorlukların üstesinden gelmek için işletmeler, önerilen kurulumların bir alt kümesini laboratuvar ortamında test ederek iş tamamlama süresi (JCT), yapay zeka ekibinin ulaşabileceği bant genişliği gibi temel metrikleri karşılaştırabilir ve bunları platform değiştirme ve önbellek kullanımıyla karşılaştırabilir. Bu karşılaştırma, GPU/işlemci iş yükü ile ağ tasarımı/kurulumu arasında doğru dengeyi bulmaya yardımcı olur. Sonuçlardan memnun kaldıklarında, bilgisayar mimarları ve ağ mühendisleri bu kurulumları üretime geçirebilir ve yeni sonuçları ölçebilirler.

Kurumsal araştırma laboratuvarları, akademik kurumlar ve üniversiteler, özellikle en iyi uygulamalar gelişmeye devam ettikçe, büyük ağlarda çalışmanın zorluklarını ele almak için etkili yapay zeka ağları oluşturmanın ve işletmenin her yönünü analiz etmek için çalışıyorlar. Bu iş birliğine dayalı ve tekrarlanabilir yaklaşım, şirketlerin tekrarlanabilir ölçümler yapmasının ve ağları yapay zeka için optimize etmenin temelini oluşturan "ya şöyle olsaydı" senaryolarını hızla test etmesinin tek yoludur.

(Kaynak: Keysight Technologies)