GPU adalah otak komputer AI
Sederhananya, unit pemrosesan grafis (GPU) bertindak sebagai otak komputer AI.
Seperti yang Anda ketahui, unit pemrosesan pusat (CPU) adalah otak komputer. Keunggulan GPU adalah CPU-nya yang khusus dan mampu melakukan perhitungan kompleks. Cara tercepat untuk melakukannya adalah dengan meminta sekelompok GPU untuk menyelesaikan suatu masalah. Namun, pelatihan model AI masih bisa memakan waktu berminggu-minggu atau bahkan berbulan-bulan. Setelah dibangun, model tersebut ditempatkan dalam sistem komputasi front-end dan pengguna dapat mengajukan pertanyaan kepada model AI, sebuah proses yang disebut inferensi.
Komputer AI yang berisi beberapa GPU
Arsitektur terbaik untuk menyelesaikan masalah AI adalah dengan menggunakan kluster GPU dalam sebuah rak, yang terhubung ke sakelar di bagian atas rak. Beberapa rak GPU dapat dihubungkan dalam hierarki jaringan. Seiring dengan semakin kompleksnya masalah, kebutuhan GPU pun meningkat, dan beberapa proyek mungkin perlu menerapkan kluster yang terdiri dari ribuan GPU.
Setiap klaster AI adalah jaringan kecil
Saat membangun klaster AI, perlu menyiapkan jaringan komputer kecil untuk menghubungkan dan memungkinkan GPU bekerja sama dan berbagi data secara efisien.
Gambar di atas mengilustrasikan Kluster AI dengan lingkaran di bagian bawah yang mewakili alur kerja yang berjalan pada GPU. GPU terhubung ke sakelar rak atas (ToR). Sakelar ToR juga terhubung ke sakelar backbone jaringan yang ditunjukkan di atas diagram, menunjukkan hierarki jaringan yang jelas yang diperlukan ketika melibatkan beberapa GPU.
Jaringan menjadi hambatan dalam penerapan AI
Musim gugur yang lalu, di KTT Global Open Computer Project (OCP), tempat para delegasi bekerja sama untuk membangun infrastruktur AI generasi berikutnya, delegasi Loi Nguyen dari Marvell Technology menyampaikan poin penting: "jaringan adalah hambatan baru."
Secara teknis, latensi paket yang tinggi atau kehilangan paket akibat kemacetan jaringan dapat menyebabkan paket dikirim ulang, yang secara signifikan meningkatkan waktu penyelesaian pekerjaan (JCT). Akibatnya, jutaan atau puluhan juta dolar GPU dari perusahaan terbuang sia-sia akibat sistem AI yang tidak efisien, yang mengakibatkan kerugian bagi perusahaan baik dari segi pendapatan maupun waktu pemasaran.
Pengukuran adalah syarat utama keberhasilan pengoperasian jaringan AI
Agar klaster AI dapat beroperasi secara efektif, GPU harus mampu memanfaatkan kapasitas penuhnya untuk mempersingkat waktu pelatihan dan menerapkan model pembelajaran guna memaksimalkan laba atas investasi. Oleh karena itu, pengujian dan evaluasi kinerja klaster AI perlu dilakukan (Gambar 2). Namun, tugas ini tidaklah mudah, karena dalam hal arsitektur sistem, terdapat banyak pengaturan dan hubungan antara GPU dan struktur jaringan yang perlu saling melengkapi untuk menyelesaikan masalah.
Hal ini menciptakan banyak tantangan dalam mengukur jaringan AI:
- Kesulitan dalam mereproduksi seluruh jaringan produksi di laboratorium karena keterbatasan biaya, peralatan, kekurangan insinyur AI jaringan yang terampil, ruang, daya, dan suhu.
- Pengukuran pada sistem produksi mengurangi kapasitas pemrosesan yang tersedia pada sistem produksi itu sendiri.
- Kesulitan dalam mereproduksi masalah secara akurat karena perbedaan skala dan ruang lingkup masalah.
- Kompleksitas bagaimana GPU terhubung secara kolektif.
Untuk mengatasi tantangan ini, perusahaan dapat menguji sebagian dari pengaturan yang direkomendasikan di lingkungan lab untuk mengukur metrik utama seperti waktu penyelesaian pekerjaan (JCT), bandwidth yang dapat dicapai tim AI, dan membandingkannya dengan pemanfaatan platform switching dan pemanfaatan cache. Pembandingan ini membantu menemukan keseimbangan yang tepat antara beban kerja GPU/pemrosesan dan desain/pengaturan jaringan. Setelah puas dengan hasilnya, arsitek komputer dan teknisi jaringan dapat menerapkan pengaturan ini ke tahap produksi dan mengukur hasil baru.
Laboratorium riset perusahaan, institusi akademik, dan universitas tengah berupaya menganalisis setiap aspek dalam membangun dan mengoperasikan jaringan AI yang efektif untuk mengatasi tantangan dalam bekerja pada jaringan besar, terutama seiring dengan terus berkembangnya praktik terbaik. Pendekatan kolaboratif dan berulang ini merupakan satu-satunya cara bagi perusahaan untuk melakukan pengukuran berulang dan menguji skenario "bagaimana jika" dengan cepat, yang menjadi dasar pengoptimalan jaringan untuk AI.
(Sumber: Keysight Technologies)
[iklan_2]
Sumber: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html
Komentar (0)