εικόνα001.jpg

Η GPU είναι ο εγκέφαλος του υπολογιστή με τεχνητή νοημοσύνη

Με απλά λόγια, η μονάδα επεξεργασίας γραφικών (GPU) λειτουργεί ως ο εγκέφαλος του υπολογιστή AI.

Όπως ίσως γνωρίζετε, η κεντρική μονάδα επεξεργασίας (CPU) είναι ο εγκέφαλος του υπολογιστή. Το πλεονέκτημα μιας GPU είναι ότι είναι μια εξειδικευμένη CPU που μπορεί να εκτελεί πολύπλοκους υπολογισμούς. Ο γρηγορότερος τρόπος για να γίνει αυτό είναι να υπάρχουν ομάδες GPU που λύνουν το ίδιο πρόβλημα. Ωστόσο, η εκπαίδευση ενός μοντέλου τεχνητής νοημοσύνης μπορεί να διαρκέσει εβδομάδες ή και μήνες. Μόλις κατασκευαστεί, τοποθετείται σε ένα σύστημα υπολογιστή front-end και οι χρήστες μπορούν να υποβάλουν ερωτήσεις στο μοντέλο τεχνητής νοημοσύνης, μια διαδικασία που ονομάζεται συμπερασματολογία.

Ένας υπολογιστής τεχνητής νοημοσύνης που περιέχει πολλαπλές GPU

Η καλύτερη αρχιτεκτονική για προβλήματα Τεχνητής Νοημοσύνης είναι η χρήση ενός cluster GPU σε ένα rack, συνδεδεμένου με έναν διακόπτη στην κορυφή του rack. Πολλαπλά rack GPU μπορούν να συνδεθούν σε μια ιεραρχία δικτύωσης. Καθώς το πρόβλημα γίνεται πιο περίπλοκο, οι απαιτήσεις GPU αυξάνονται και ορισμένα έργα ενδέχεται να χρειαστεί να αναπτύξουν clusters χιλιάδων GPU.

Κάθε σύμπλεγμα τεχνητής νοημοσύνης είναι ένα μικρό δίκτυο

Κατά τη δημιουργία ενός συμπλέγματος τεχνητής νοημοσύνης (AI), είναι απαραίτητο να δημιουργηθεί ένα μικρό δίκτυο υπολογιστών για σύνδεση και να επιτραπεί στις GPU να συνεργάζονται και να μοιράζονται δεδομένα αποτελεσματικά.

εικόνα002.jpg
Ένα σύμπλεγμα τεχνητής νοημοσύνης

Το παραπάνω σχήμα απεικονίζει ένα σύμπλεγμα τεχνητής νοημοσύνης (AI Cluster) όπου οι κύκλοι στο κάτω μέρος αντιπροσωπεύουν τις ροές εργασίας που εκτελούνται σε GPU. Οι GPU συνδέονται με τους διακόπτες στο πάνω μέρος του ραφιού (ToR). Οι διακόπτες ToR συνδέονται επίσης με τους διακόπτες του κεντρικού δικτύου που φαίνονται παραπάνω στο διάγραμμα, καταδεικνύοντας τη σαφή ιεραρχία δικτύου που απαιτείται όταν εμπλέκονται πολλαπλές GPU.

Τα δίκτυα αποτελούν εμπόδιο στην ανάπτυξη της Τεχνητής Νοημοσύνης
Το περασμένο φθινόπωρο, στην Παγκόσμια Σύνοδο Κορυφής του Open Computer Project (OCP), όπου οι σύνεδροι εργάζονταν για την κατασκευή της επόμενης γενιάς υποδομών τεχνητής νοημοσύνης, ο σύνεδρος Loi Nguyen από την Marvell Technology τόνισε ένα βασικό σημείο: «η δικτύωση είναι το νέο σημείο συμφόρησης».

Τεχνικά, η υψηλή καθυστέρηση ή η απώλεια πακέτων λόγω συμφόρησης δικτύου μπορεί να προκαλέσει την εκ νέου αποστολή πακέτων, αυξάνοντας σημαντικά τον χρόνο ολοκλήρωσης εργασίας (JCT). Ως αποτέλεσμα, εκατομμύρια ή δεκάδες εκατομμύρια δολάρια σε GPU σπαταλώνται από τις επιχειρήσεις λόγω αναποτελεσματικών συστημάτων τεχνητής νοημοσύνης, κοστίζοντας στις επιχειρήσεις τόσο έσοδα όσο και χρόνο για την κυκλοφορία τους στην αγορά.

Η μέτρηση είναι βασική προϋπόθεση για την επιτυχή λειτουργία των δικτύων τεχνητής νοημοσύνης

Για την αποτελεσματική λειτουργία ενός συμπλέγματος τεχνητής νοημοσύνης, οι GPU πρέπει να μπορούν να αξιοποιηθούν πλήρως για να μειωθεί ο χρόνος εκπαίδευσης και να τεθεί σε χρήση το μοντέλο μάθησης για να μεγιστοποιηθεί η απόδοση της επένδυσης. Επομένως, είναι απαραίτητο να δοκιμαστεί και να αξιολογηθεί η απόδοση του συμπλέγματος τεχνητής νοημοσύνης (Σχήμα 2). Ωστόσο, αυτό το έργο δεν είναι εύκολο, επειδή όσον αφορά την αρχιτεκτονική του συστήματος, υπάρχουν πολλές ρυθμίσεις και σχέσεις μεταξύ των GPU και των δομών δικτύου που πρέπει να αλληλοσυμπληρώνονται για να λυθεί το πρόβλημα.

εικόνα005.jpg
Πλατφόρμα Δοκιμών Κέντρων Δεδομένων Τεχνητής Νοημοσύνης και Πώς Δοκιμάζει Συστάδες Κέντρων Δεδομένων Τεχνητής Νοημοσύνης

Αυτό δημιουργεί πολλές προκλήσεις στη μέτρηση δικτύων τεχνητής νοημοσύνης:

- Δυσκολία στην αναπαραγωγή ολόκληρων δικτύων παραγωγής στο εργαστήριο λόγω περιορισμών στο κόστος, τον εξοπλισμό, την έλλειψη εξειδικευμένων μηχανικών τεχνητής νοημοσύνης δικτύων, τον χώρο, την ισχύ και τη θερμοκρασία.

- Η μέτρηση στο σύστημα παραγωγής μειώνει τη διαθέσιμη ικανότητα επεξεργασίας του ίδιου του συστήματος παραγωγής.

- Δυσκολία στην ακριβή αναπαραγωγή των προβλημάτων λόγω διαφορών στην κλίμακα και το εύρος των προβλημάτων.

- Η πολυπλοκότητα του τρόπου με τον οποίο οι GPU συνδέονται συλλογικά.

Για την αντιμετώπιση αυτών των προκλήσεων, οι επιχειρήσεις μπορούν να δοκιμάσουν ένα υποσύνολο των προτεινόμενων ρυθμίσεων σε εργαστηριακό περιβάλλον για να συγκρίνουν βασικές μετρήσεις όπως ο χρόνος ολοκλήρωσης εργασίας (JCT), το εύρος ζώνης που μπορεί να επιτύχει η ομάδα τεχνητής νοημοσύνης και να τις συγκρίνουν με την αξιοποίηση της πλατφόρμας μεταγωγής και την αξιοποίηση της προσωρινής μνήμης. Αυτή η συγκριτική αξιολόγηση βοηθά στην εύρεση της σωστής ισορροπίας μεταξύ του φόρτου εργασίας GPU/επεξεργασίας και του σχεδιασμού/ρύθμισης δικτύου. Μόλις ικανοποιηθούν με τα αποτελέσματα, οι αρχιτέκτονες υπολογιστών και οι μηχανικοί δικτύου μπορούν να μεταφέρουν αυτές τις ρυθμίσεις στην παραγωγή και να μετρήσουν νέα αποτελέσματα.

Εταιρικά ερευνητικά εργαστήρια, ακαδημαϊκά ιδρύματα και πανεπιστήμια εργάζονται για να αναλύσουν κάθε πτυχή της δημιουργίας και λειτουργίας αποτελεσματικών δικτύων Τεχνητής Νοημοσύνης, ώστε να αντιμετωπίσουν τις προκλήσεις της εργασίας σε μεγάλα δίκτυα, ειδικά καθώς οι βέλτιστες πρακτικές συνεχίζουν να εξελίσσονται. Αυτή η συνεργατική, επαναλήψιμη προσέγγιση είναι ο μόνος τρόπος για τις εταιρείες να εκτελούν επαναλήψιμες μετρήσεις και να δοκιμάζουν γρήγορα σενάρια τύπου «τι θα γινόταν αν» που αποτελούν το θεμέλιο της βελτιστοποίησης των δικτύων για την Τεχνητή Νοημοσύνη.

(Πηγή: Keysight Technologies)