back to top
Δευτέρα, 18 Νοεμβρίου, 2024
ΑρχικήNewsΜετακινώντας το AI στην τσέπη: Οδηγός για smartphone

Μετακινώντας το AI στην τσέπη: Οδηγός για smartphone


Για χρόνια, η υπόσχεση για μια πραγματικά έξυπνη, συνομιλητική τεχνητή νοημοσύνη ήταν απρόσιτη. Έχουμε θαυμάσει τις ικανότητες του ChatGPT, Δίδυμοικαι άλλα μεγάλα γλωσσικά μοντέλα (LLM) – σύνθεση ποιημάτων, σύνταξη κώδικα, μετάφραση γλωσσών – αλλά αυτά τα κατορθώματα βασίζονταν πάντα στην τεράστια επεξεργαστική ισχύ των GPU του cloud. Τώρα, μια ήσυχη επανάσταση ετοιμάζεται, με στόχο να φέρει αυτές τις απίστευτες δυνατότητες απευθείας στη συσκευή στην τσέπη σας: ένα LLM στο smartphone σας.

Αυτή η αλλαγή δεν έχει να κάνει μόνο με την ευκολία. έχει να κάνει με το απόρρητο, την αποτελεσματικότητα και το ξεκλείδωμα ενός νέου κόσμου εξατομικευμένων εμπειριών AI.

Ωστόσο, η συρρίκνωση αυτών των τεράστιων LLM ώστε να χωρούν σε μια συσκευή με περιορισμένη μνήμη και διάρκεια μπαταρίας παρουσιάζει ένα μοναδικό σύνολο προκλήσεων. Για να κατανοήσω αυτό το περίπλοκο τοπίο, μίλησα με τον Aleksei Naumov, Επικεφαλής Ερευνητικό Μηχανικό AI στο Terra Quantumηγετική φυσιογνωμία στον τομέα της συμπίεσης LLM.

Πράγματι, ο Naumov δημοσίευσε πρόσφατα μια εργασία σχετικά με αυτό το θέμα, η οποία προαναγγέλλεται ως μια εξαιρετική και σημαντική καινοτομία στη συμπίεση νευρωνικών δικτύων – «TQCompressor: Βελτίωση των μεθόδων αποσύνθεσης τανυστή σε νευρωνικά δίκτυα μέσω μεταθέσεων– στο Διεθνές Συνέδριο IEEE για την Επεξεργασία και Ανάκτηση Πληροφοριών Πολυμέσων (IEEE MIPR 2024), ένα συνέδριο όπου ερευνητές, επιστήμονες και επαγγελματίες του κλάδου συναντιούνται για να παρουσιάσουν και να συζητήσουν τις τελευταίες εξελίξεις στην τεχνολογία πολυμέσων.

«Η κύρια πρόκληση είναι, φυσικά, η περιορισμένη κύρια μνήμη (DRAM) που είναι διαθέσιμη σε smartphone», είπε ο Naumov. «Τα περισσότερα μοντέλα δεν μπορούν να χωρέσουν στη μνήμη ενός smartphone, καθιστώντας αδύνατη τη λειτουργία τους».

Επισημαίνει το μοντέλο Llama 3.2-8B της Meta ως χαρακτηριστικό παράδειγμα.

«Απαιτεί περίπου 15 GB μνήμης», είπε ο Naumov. «Ωστόσο, το iPhone 16 έχει μόνο 8 GB DRAM και το Google Pixel 9 Pro προσφέρει 16 GB. Επιπλέον, για να λειτουργήσει κανείς αποτελεσματικά αυτά τα μοντέλα, χρειάζεται πραγματικά ακόμη περισσότερη μνήμη – περίπου 24 GB, η οποία προσφέρεται από συσκευές όπως η GPU NVIDIA RTX 4090, ξεκινώντας από 1800 $.

Αυτός ο περιορισμός μνήμης δεν αφορά μόνο την αποθήκευση. επηρεάζει άμεσα τη διάρκεια ζωής της μπαταρίας ενός τηλεφώνου.

«Όσο περισσότερη μνήμη χρειάζεται ένα μοντέλο, τόσο πιο γρήγορα αδειάζει την μπαταρία», είπε ο Naumov. «Μια παράμετρος LLM 8 δισεκατομμυρίων καταναλώνει περίπου 0,8 τζάουλ ανά διακριτικό. Ένα πλήρως φορτισμένο iPhone, με περίπου 50 kJ ενέργειας, μπορούσε να διατηρήσει αυτό το μοντέλο μόνο για περίπου δύο ώρες με ρυθμό 10 μάρκες ανά δευτερόλεπτο, με κάθε 64 μάρκες να καταναλώνουν περίπου το 0,2% της μπαταρίας».

Λοιπόν, πώς θα ξεπεράσουμε αυτά τα εμπόδια; Ο Naumov υπογραμμίζει τη σημασία των τεχνικών συμπίεσης μοντέλων.

«Για να το αντιμετωπίσουμε αυτό, πρέπει να μειώσουμε τα μεγέθη των μοντέλων», είπε ο Naumov. “Υπάρχουν δύο κύριες προσεγγίσεις: μείωση του αριθμού των παραμέτρων ή μείωση της μνήμης που απαιτεί κάθε παράμετρος.”

Περιγράφει στρατηγικές όπως η απόσταξη, το κλάδεμα και η αποσύνθεση μήτρας για τη μείωση του αριθμού των παραμέτρων και η κβαντοποίηση για τη μείωση του αποτυπώματος μνήμης κάθε παραμέτρου.

«Αποθηκεύοντας τις παραμέτρους του μοντέλου στο INT8 αντί για το FP16, μπορούμε να μειώσουμε την κατανάλωση μνήμης κατά περίπου 50%,» είπε ο Naumov.

Ενώ οι συσκευές Pixel της Google, με τις TPU βελτιστοποιημένες για το TensorFlow, φαίνονται ιδανική πλατφόρμα για την εκτέλεση LLM, ο Naumov προειδοποιεί ότι δεν λύνουν το θεμελιώδες πρόβλημα των περιορισμών της μνήμης.

«Ενώ οι μονάδες επεξεργασίας Tensor (TPU) που χρησιμοποιούνται στις συσκευές Google Pixel προσφέρουν βελτιωμένη απόδοση κατά την εκτέλεση μοντέλων τεχνητής νοημοσύνης, γεγονός που μπορεί να οδηγήσει σε ταχύτερες ταχύτητες επεξεργασίας ή χαμηλότερη κατανάλωση μπαταρίας, δεν επιλύουν το θεμελιώδες ζήτημα των καθαρών απαιτήσεων μνήμης των σύγχρονων LLM. , που συνήθως υπερβαίνουν τις χωρητικότητες της μνήμης smartphone», είπε ο Naumov.

Η προσπάθεια να φέρουμε τα LLM στα smartphone ξεπερνά τις απλές τεχνικές φιλοδοξίες. Πρόκειται για τον επανασχεδιασμό της σχέσης μας με την τεχνητή νοημοσύνη και την αντιμετώπιση των περιορισμών των λύσεων που βασίζονται στο cloud.

«Τα κορυφαία μοντέλα όπως το ChatGPT-4 έχουν πάνω από ένα τρισεκατομμύριο παραμέτρους», είπε ο Naumov. «Αν φανταζόμαστε ένα μέλλον όπου οι άνθρωποι εξαρτώνται σε μεγάλο βαθμό από τα LLM για εργασίες όπως οι διεπαφές συνομιλίας ή τα συστήματα συστάσεων, θα μπορούσε να σημαίνει ότι περίπου το 5% του ημερήσιου χρόνου των χρηστών δαπανάται σε αλληλεπίδραση με αυτά τα μοντέλα. Σε αυτό το σενάριο, η εκτέλεση του GPT-4 θα απαιτούσε την ανάπτυξη περίπου 100 εκατομμυρίων GPU H100. Η υπολογιστική κλίμακα από μόνη της, χωρίς να υπολογίζει τα γενικά έξοδα επικοινωνίας και μετάδοσης δεδομένων, θα ισοδυναμούσε με τη λειτουργία περίπου 160 εταιρειών στο μέγεθος της Meta. Αυτό το επίπεδο κατανάλωσης ενέργειας και οι σχετικές εκπομπές άνθρακα θα δημιουργούσαν σημαντικές περιβαλλοντικές προκλήσεις».

Το όραμα είναι ξεκάθαρο: ένα μέλλον όπου η τεχνητή νοημοσύνη θα ενσωματώνεται απρόσκοπτα στην καθημερινή μας ζωή, παρέχοντας εξατομικευμένη βοήθεια χωρίς να διακυβεύεται το απόρρητο ή να εξαντλείται οι μπαταρίες του τηλεφώνου μας.

«Προβλέπω ότι πολλές εφαρμογές LLM που επί του παρόντος βασίζονται στο cloud computing θα μεταβούν στην τοπική επεξεργασία στις συσκευές των χρηστών», είπε ο Naumov. «Αυτή η αλλαγή θα οδηγηθεί από περαιτέρω μείωση του μεγέθους του μοντέλου και βελτιώσεις στους υπολογιστικούς πόρους και την αποτελεσματικότητα των smartphone».

Ζωγραφίζει μια εικόνα ενός μέλλοντος όπου οι δυνατότητες των LLM θα μπορούσαν να γίνουν τόσο συνηθισμένες και διαισθητικές όσο είναι σήμερα η αυτόματη διόρθωση. Αυτή η μετάβαση θα μπορούσε να ξεκλειδώσει πολλές συναρπαστικές δυνατότητες. Χάρη στα τοπικά LLM, φανταστείτε ενισχυμένο απόρρητο όπου τα ευαίσθητα δεδομένα σας δεν φεύγουν ποτέ από τη συσκευή σας.

Φανταστείτε το πανταχού παρόν AI με δυνατότητες LLM ενσωματωμένες σχεδόν σε κάθε εφαρμογή, από μηνύματα και email έως εργαλεία παραγωγικότητας. Σκεφτείτε την ευκολία της λειτουργικότητας εκτός σύνδεσης, που σας επιτρέπει να έχετε πρόσβαση στη βοήθεια τεχνητής νοημοσύνης ακόμη και χωρίς σύνδεση στο Διαδίκτυο. Οραματιστείτε εξατομικευμένες εμπειρίες όπου οι LLM μαθαίνουν τις προτιμήσεις και τις συνήθειές σας για να παρέχουν πραγματικά εξατομικευμένη υποστήριξη.

Για προγραμματιστές που θέλουν να εξερευνήσουν αυτό το σύνορο, ο Naumov προσφέρει μερικές πρακτικές συμβουλές.

«Πρώτον, προτείνω να επιλέξετε ένα μοντέλο που ταιριάζει καλύτερα στην προβλεπόμενη εφαρμογή», ​​είπε ο Naumov. «Το Hugging Face είναι μια εξαιρετική πηγή για αυτό. Αναζητήστε πρόσφατα μοντέλα με 1-3 δισεκατομμύρια παραμέτρους, καθώς αυτά είναι τα μόνα εφικτά προς το παρόν για smartphone. Επιπλέον, προσπαθήστε να βρείτε κβαντισμένες εκδόσεις αυτών των μοντέλων στο Hugging Face. Η κοινότητα AI συνήθως δημοσιεύει κβαντισμένες εκδόσεις δημοφιλών μοντέλων εκεί».

Προτείνει επίσης την εξερεύνηση εργαλείων όπως λάμα.cpp και bitsandbytes για κβαντισμό και συμπερασμα μοντέλων.

Το ταξίδι για να φέρεις τα LLM στα smartphone βρίσκεται ακόμα στα αρχικά του στάδια, αλλά οι δυνατότητες είναι αναμφισβήτητες. Καθώς ερευνητές όπως ο Aleksei Naumov συνεχίζουν να ξεπερνούν τα όρια του δυνατού, βρισκόμαστε στο κατώφλι μιας νέας εποχής στο mobile AI, όπου τα smartphone μας γίνονται πραγματικά έξυπνοι σύντροφοι, ικανοί να κατανοούν και να ανταποκρίνονται στις ανάγκες μας με τρόπους που έχουμε κάνει μόλις άρχισε να φαντάζεται.



VIA: DataConomy.com

Dimitris Marizas
Dimitris Marizashttps://techfreak.gr
Παθιασμένος με τις νέες τεχνολογίες, με έφεση στην καινοτομία και τη δημιουργικότητα. Διαρκώς αναζητώ τρόπους αξιοποίησης της τεχνολογίας για την επίλυση προβλημάτων και τη βελτίωση της καθημερινής ζωής.
RELATED ARTICLES

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

Δημοφιλείς Άρθρα

Τελευταία Νέα