Το πρόσωπο αγκάλιασμα έχει απελευθερωμένος Δύο νέα μοντέλα AI, SMOLVLM-256M και SMOLVLM-500M, υποστηρίζοντας ότι είναι οι μικρότεροι του είδους τους ικανό να αναλύουν εικόνες, βίντεο και κείμενο σε συσκευές με περιορισμένη μνήμη RAM, όπως φορητοί υπολογιστές.
Το αγκάλιασμα προσώπου εκτοξεύει συμπαγή μοντέλα AI για ανάλυση εικόνων και κειμένου
Ένα μικρό μοντέλο γλώσσας (SLM) είναι ένα νευρωνικό δίκτυο που έχει σχεδιαστεί για να παράγει κείμενο φυσικής γλώσσας. Ο περιγραφέας “μικρός” ισχύει όχι μόνο για τις φυσικές διαστάσεις του μοντέλου αλλά και για τον αριθμό των παραμέτρων του, τη νευρική δομή και τον όγκο δεδομένων που χρησιμοποιείται κατά τη διάρκεια της εκπαίδευσης.
Τα SMOLVLM-256M και SMOLVLM-500M αποτελούνται από 256 εκατομμύρια παραμέτρους και 500 εκατομμύρια παραμέτρους, αντίστοιχα. Αυτά τα μοντέλα μπορούν να εκτελούν διάφορες εργασίες, συμπεριλαμβανομένης της περιγραφής εικόνων και βίντεο κλιπ, καθώς και απαντώντας σε ερωτήσεις σχετικά με τα PDF και το περιεχόμενό τους, όπως το σαρωμένο κείμενο και τα διαγράμματα.
Ο Sam Altman για να ενημερώσει τους αξιωματούχους του «PhD-Level» Super Ai
Για να εκπαιδεύσουν αυτά τα μοντέλα, το Hugging Face χρησιμοποίησε το Cauldron, μια επιμελημένη συλλογή από 50 υψηλής ποιότητας σύνολα δεδομένων εικόνων και κειμένου, παράλληλα με το Docmatix, ένα σύνολο δεδομένων που περιλαμβάνει σαρώσεις αρχείων με λεπτομερείς λεζάντες. Και τα δύο σύνολα δεδομένων δημιουργήθηκαν από την ομάδα M4 Hugging Face, επικεντρώθηκε στις πολυτροπικές τεχνολογίες AI.
Η ομάδα ισχυρίζεται ότι το SMOLVLM-256M και το SMOLVLM-500M υπερέβησαν ένα σημαντικά μεγαλύτερο μοντέλο, IDEFICS 80B, σε σημεία αναφοράς όπως το AI2D, το οποίο αξιολογεί τις ικανότητες των μοντέλων για την ανάλυση των διαγραμμάτων επιστημονικών επιπέδων βαθμού-σχολείου. Τα νέα μοντέλα είναι διαθέσιμα για πρόσβαση στο διαδίκτυο και κατεβάζουν με άδεια Apache 2.0, η οποία επιτρέπει την απεριόριστη χρήση.
Παρά την ευελιξία και την αποδοτικότητα κόστους, τα μικρότερα μοντέλα όπως το SMOLVLM-256M και το SMOLVLM-500M μπορούν να εμφανίζουν περιορισμούς που δεν παρατηρούνται σε μεγαλύτερα μοντέλα. Μια μελέτη από το Google DeepMind, το Microsoft Research και το Ινστιτούτο Έρευνας της MILA υπογράμμισαν ότι τα μικρότερα μοντέλα συχνά εκτελούν υποστρώματα σε πολύπλοκα καθήκοντα συλλογισμού, ενδεχομένως λόγω της τάσης τους να αναγνωρίζουν τα πρότυπα επιφανειακού επιπέδου αντί να εφαρμόζουν γνώσεις σε νέα περιβάλλοντα.
Το μοντέλο SMOLVLM-256M του Face Face λειτουργεί με λιγότερα από ένα gigabyte μνήμης GPU και ξεπερνά το μοντέλο IDEFICS 80B, ένα σύστημα 300 φορές μεγαλύτερο, επιτυγχάνοντας αυτή τη μείωση και ενίσχυση εντός 17 μηνών. Ο Andrés Marafioti, μηχανικός ερευνών μηχανικής μάθησης στο Hugging Face, σημείωσε ότι αυτό το επίτευγμα αντικατοπτρίζει μια σημαντική ανακάλυψη στα μοντέλα της γλώσσας όρασης.
Η εισαγωγή αυτών των μοντέλων είναι έγκαιρη για τις επιχειρήσεις που αντιμετωπίζουν υψηλό κόστος υπολογιστών που σχετίζονται με τις υλοποιήσεις AI. Τα μοντέλα SMOLVLM είναι ικανά να επεξεργάζονται εικόνες και να κατανοούν το οπτικό περιεχόμενο σε πρωτοφανείς ταχύτητες για μοντέλα του μεγέθους τους. Η έκδοση 256 μέτρων μπορεί να επεξεργαστεί 16 παραδείγματα ανά δευτερόλεπτο, ενώ καταναλώνει μόνο 15GB μνήμης RAM με μέγεθος παρτίδας 64, οδηγώντας σε σημαντική εξοικονόμηση κόστους για τις επιχειρήσεις που χειρίζονται μεγάλους όγκους οπτικών δεδομένων.
Η IBM έχει σχηματίσει μια συνεργασία με την αγκάλιασμα Face για να ενσωματώσει το μοντέλο 256M στο λογισμικό επεξεργασίας εγγράφων, Docling. Όπως εξήγησε ο Marafioti, ακόμη και οι οργανισμοί με σημαντικούς υπολογιστικούς πόρους μπορούν να επωφεληθούν από τη χρήση μικρότερων μοντέλων για την αποτελεσματική επεξεργασία εκατομμυρίων εγγράφων με μειωμένο κόστος.
Αγκαλιάζοντας το πρόσωπο επιτυγχάνεται μειώσεις μεγέθους, διατηρώντας παράλληλα τις επιδόσεις μέσω των προόδων τόσο στην επεξεργασία όρασης όσο και στα συστατικά της γλώσσας, συμπεριλαμβανομένης μιας μετάβασης από έναν κωδικοποιητή όρασης παραμέτρων 400 μέτρων σε μια έκδοση παραμέτρων 93M και τη χρήση επιθετικών τεχνικών συμπίεσης συμβολικών. Αυτή η απόδοση ανοίγει νέες δυνατότητες για τις νεοσύστατες επιχειρήσεις και τις μικρότερες επιχειρήσεις, επιτρέποντάς τους να αναπτύξουν πιο γρήγορα εξελιγμένα προϊόντα οράματος υπολογιστών και να μειώσουν τα έξοδα υποδομής τους.
Τα μοντέλα SMOLVLM ενισχύουν τις δυνατότητες πέρα από την εξοικονόμηση κόστους, διευκολύνοντας νέες εφαρμογές όπως η προηγμένη αναζήτηση εγγράφων μέσω ενός αλγορίθμου που ονομάζεται Colipali, το οποίο δημιουργεί βάσεις δεδομένων που μπορούν να αναζητηθούν από αρχεία εγγράφων. Σύμφωνα με τον Marafioti, αυτά τα μοντέλα ταιριάζουν σχεδόν με την απόδοση των μοντέλων 10 φορές το μέγεθός τους, αυξάνοντας σημαντικά την ταχύτητα της δημιουργίας και της αναζήτησης βάσεων δεδομένων, καθιστώντας την οπτική αναζήτηση σε ολόκληρη την επιχείρηση εφικτή για διάφορες επιχειρήσεις.
Τα μοντέλα SMOLVLM αμφισβητούν τη συμβατική πεποίθηση ότι τα μεγαλύτερα μοντέλα είναι απαραίτητα για τις προχωρημένες εργασίες όρασης, με την έκδοση παραμέτρων 500 μέτρων να επιτυγχάνει το 90% της απόδοσης ενός αντίστοιχου παραμέτρου 2.2B σε βασικά σημεία αναφοράς. Η Marafioti τόνισε ότι αυτή η εξέλιξη καταδεικνύει τη χρησιμότητα των μικρότερων μοντέλων, υποδηλώνοντας ότι μπορούν να διαδραματίσουν καθοριστικό ρόλο για τις επιχειρήσεις.
Προτεινόμενη πίστωση εικόνας: Αγκάλιασμα
VIA: Πηγή Άρθρου
Greek Live Channels Όλα τα Ελληνικά κανάλια: Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση; Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο. Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια Πατήστε Εδώ
Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.