image001.jpg

GPU adalah otak komputer AI

Ringkasnya, unit pemprosesan grafik (GPU) bertindak sebagai otak komputer AI.

Seperti yang anda ketahui, unit pemprosesan pusat (CPU) adalah otak komputer. Kelebihan GPU ialah ia adalah CPU khusus yang boleh melakukan pengiraan yang rumit. Cara terpantas untuk melakukan ini adalah dengan meminta kumpulan GPU menyelesaikan masalah yang sama. Walau bagaimanapun, latihan model AI masih boleh mengambil masa berminggu-minggu atau bahkan berbulan-bulan. Setelah dibina, ia diletakkan dalam sistem komputer bahagian hadapan dan pengguna boleh bertanya soalan kepada model AI, satu proses yang dipanggil inferens.

Komputer AI yang mengandungi berbilang GPU

Seni bina terbaik untuk masalah AI ialah menggunakan sekumpulan GPU dalam rak, disambungkan kepada suis di atas rak. Rak GPU berbilang boleh disambungkan dalam hierarki rangkaian. Apabila masalah menjadi lebih kompleks, keperluan GPU meningkat dan sesetengah projek mungkin perlu menggunakan kluster beribu-ribu GPU.

Setiap kelompok AI adalah rangkaian kecil

Apabila membina kluster AI, adalah perlu untuk menyediakan rangkaian komputer kecil untuk menyambung dan membenarkan GPU berfungsi bersama dan berkongsi data dengan cekap.

image002.jpg
Kelompok AI

Rajah di atas menggambarkan Kluster AI dengan bulatan di bahagian bawah mewakili aliran kerja yang dijalankan pada GPU. GPU bersambung ke suis atas rak (ToR). Suis ToR juga bersambung ke suis tulang belakang rangkaian yang ditunjukkan di atas rajah, menunjukkan hierarki rangkaian yang jelas diperlukan apabila berbilang GPU terlibat.

Rangkaian adalah halangan dalam penggunaan AI
Musim luruh yang lalu, di Sidang Kemuncak Global Open Computer Project (OCP), di mana para perwakilan sedang berusaha untuk membina infrastruktur AI generasi akan datang, perwakilan Loi Nguyen dari Marvell Technology membuat satu perkara penting: "rangkaian adalah kesesakan baharu."

Secara teknikal, kependaman paket yang tinggi atau kehilangan paket akibat kesesakan rangkaian boleh menyebabkan paket dihantar semula, meningkatkan masa penyiapan kerja (JCT) dengan ketara. Akibatnya, GPU bernilai berjuta-juta atau berpuluh-puluh juta dolar dibazirkan oleh perniagaan disebabkan oleh sistem AI yang tidak cekap, menyebabkan perniagaan menanggung kos hasil dan masa ke pasaran.

Pengukuran ialah syarat utama untuk kejayaan operasi rangkaian AI

Untuk menjalankan kluster AI dengan berkesan, GPU perlu dapat digunakan sepenuhnya untuk memendekkan masa latihan dan menggunakan model pembelajaran untuk memaksimumkan pulangan pelaburan. Oleh itu, adalah perlu untuk menguji dan menilai prestasi kluster AI (Rajah 2). Walau bagaimanapun, tugas ini tidak mudah, kerana dari segi seni bina sistem, terdapat banyak tetapan dan hubungan antara GPU dan struktur rangkaian yang perlu saling melengkapi untuk menyelesaikan masalah.

image005.jpg
Platform Pengujian Pusat Data AI dan Cara Ia Menguji Kluster Pusat Data AI

Ini mewujudkan banyak cabaran dalam mengukur rangkaian AI:

- Kesukaran untuk menghasilkan semula keseluruhan rangkaian pengeluaran dalam makmal disebabkan oleh had dalam kos, peralatan, kekurangan jurutera AI rangkaian mahir, ruang, kuasa dan suhu.

- Pengukuran pada sistem pengeluaran mengurangkan kapasiti pemprosesan yang tersedia bagi sistem pengeluaran itu sendiri.

- Kesukaran untuk mengeluarkan semula masalah dengan tepat kerana perbezaan skala dan skop masalah.

- Kerumitan cara GPU disambungkan secara kolektif.

Untuk menangani cabaran ini, perniagaan boleh menguji subset persediaan yang disyorkan dalam persekitaran makmal untuk menanda aras metrik utama seperti masa penyiapan kerja (JCT), lebar jalur yang boleh dicapai oleh pasukan AI dan membandingkannya dengan menukar penggunaan platform dan penggunaan cache. Penanda aras ini membantu mencari keseimbangan yang betul antara beban kerja GPU/pemprosesan dan reka bentuk/persediaan rangkaian. Setelah berpuas hati dengan hasilnya, arkitek komputer dan jurutera rangkaian boleh mengambil tetapan ini untuk pengeluaran dan mengukur hasil baharu.

Makmal penyelidikan korporat, institusi akademik dan universiti sedang berusaha untuk menganalisis setiap aspek membina dan mengendalikan rangkaian AI yang berkesan untuk menangani cabaran bekerja pada rangkaian besar, terutamanya apabila amalan terbaik terus berkembang. Pendekatan kolaboratif dan berulang ini merupakan satu-satunya cara untuk syarikat melakukan pengukuran berulang dan menguji senario "bagaimana-jika" dengan pantas yang merupakan asas mengoptimumkan rangkaian untuk AI.

(Sumber: Keysight Technologies)