Τα LLM και η ανεπάρκεια τους στο σκάκι

18 Νοεμβρίου, 2024

4

Περιεχόμενα Άρθρου

Δεν είναι όλα τα LLM ίσα: Το GPT-3.5-turbo-instruct ξεχωρίζει ως το πιο ικανό μοντέλο σκακιού που δοκιμάστηκε.
Η λεπτομέρεια είναι κρίσιμη: Ο συντονισμός οδηγιών και η στοχευμένη έκθεση δεδομένων βελτιώνουν δραματικά την απόδοση σε συγκεκριμένους τομείς.
Το σκάκι ως σημείο αναφοράς: Το πείραμα αναδεικνύει το σκάκι ως πολύτιμο σημείο αναφοράς για την αξιολόγηση των δυνατοτήτων LLM και τη βελτίωση των συστημάτων AI.

Μπορούν τα μοντέλα γλώσσας AI να παίξουν σκάκι; Αυτή η ερώτηση πυροδότησε μια πρόσφατη έρευνα σχετικά με το πόσο καλά τα μεγάλα γλωσσικά μοντέλα (LLM) χειρίζονται τις σκακιστικές εργασίες, αποκαλύπτοντας απροσδόκητες γνώσεις σχετικά με τα δυνατά τους σημεία, τις αδυναμίες και τις μεθοδολογίες προπόνησης.

Ενώ ορισμένα μοντέλα αντιμετώπιζαν ακόμη και τις πιο απλές μηχανές σκακιού, άλλα -όπως η οδηγία GPT-3.5-turbo-του OpenAI- έδειξαν εκπληκτικές δυνατότητες, υποδεικνύοντας ενδιαφέρουσες συνέπειες για την ανάπτυξη της τεχνητής νοημοσύνης.

Δοκιμές LLM ενάντια σε μηχανές σκακιού

Οι ερευνητές δοκίμασαν διάφορα LLM ζητώντας τους να παίξουν σκάκι ως grandmaster, παρέχοντας καταστάσεις παιχνιδιού σε αλγεβρική σημειογραφία. Ο αρχικός ενθουσιασμός επικεντρώθηκε στο αν οι LLM, εκπαιδευμένοι σε τεράστια σώματα κειμένων, θα μπορούσαν να αξιοποιήσουν την ενσωματωμένη γνώση του σκακιού για να προβλέψουν αποτελεσματικά τις κινήσεις.

Ωστόσο, τα αποτελέσματα έδειξαν ότι δεν δημιουργούνται όλα τα LLM ίσα.

Ο μελέτη ξεκίνησε με μικρότερα μοντέλα όπως λάμα-3,2-3βπου έχει 3 δισεκατομμύρια παραμέτρους. Μετά από 50 αγώνες ενάντια στη χαμηλότερη ρύθμιση δυσκολίας της Stockfish, το μοντέλο έχασε κάθε αγώνα, αποτυγχάνοντας να προστατεύσει τα κομμάτια του ή να διατηρήσει μια ευνοϊκή θέση στο ταμπλό.

Οι δοκιμές κλιμακώθηκαν σε μεγαλύτερα μοντέλα, όπως π.χ λάμα-3,1-70β και την παραλλαγή του που έχει συντονιστεί με οδηγίες, αλλά δυσκολεύτηκαν επίσης, παρουσιάζοντας μόνο μικρές βελτιώσεις. Άλλα μοντέλα, συμπεριλαμβανομένων Qwen-2,5-72b και εντολή-r-v01συνέχισε την τάση, αποκαλύπτοντας μια γενική αδυναμία κατανόησης ακόμη και βασικών σκακιστικών στρατηγικών.

Οι μικρότεροι LLMs, όπως το llama-3.2-3b, αγωνίστηκαν με βασικές σκακιστικές στρατηγικές, χάνοντας σταθερά ακόμη και σε αρχάριους κινητήρες (Πίστωση εικόνας)

Το GPT-3.5-turbo-instruct ήταν ο απροσδόκητος νικητής

Το σημείο καμπής ήρθε με το GPT-3.5-turbo-instruct, το οποίο διέπρεψε έναντι της Stockfish—ακόμα και όταν το επίπεδο δυσκολίας του κινητήρα ήταν αυξημένο. Σε αντίθεση με τους ομολόγους που προσανατολίζονται στη συνομιλία όπως gpt-3,5-turbo και gpt-4oτο ρυθμισμένο με οδηγίες μοντέλο παρήγαγε με συνέπεια νικηφόρες κινήσεις.

Γιατί ορισμένα μοντέλα υπερέχουν ενώ άλλα αποτυγχάνουν;

Τα βασικά ευρήματα από την έρευνα πρόσφεραν πολύτιμες πληροφορίες:

Σημασία ρύθμισης οδηγιών: Μοντέλα όπως το GPT-3.5-turbo-instruct επωφελήθηκαν από τη λεπτομερή ρύθμιση της ανθρώπινης ανάδρασης, η οποία βελτίωσε την ικανότητά τους να επεξεργάζονται δομημένες εργασίες όπως το σκάκι.
Έκθεση συνόλου δεδομένων: Υπάρχουν εικασίες ότι τα μοντέλα διδασκαλίας μπορεί να έχουν εκτεθεί σε ένα πλουσιότερο σύνολο δεδομένων παιχνιδιών σκακιού, παρέχοντάς τους ανώτερη στρατηγική λογική.
Προκλήσεις Tokenization: Μικρές αποχρώσεις, όπως λανθασμένα κενά στα μηνύματα προτροπής, διέκοψαν την απόδοση, υπογραμμίζοντας την ευαισθησία των LLM στη μορφοποίηση εισόδου.
Τα ανταγωνιστικά δεδομένα επηρεάζουν: Η εκπαίδευση των LLMs σε διάφορα σύνολα δεδομένων μπορεί να μειώσει την ικανότητά τους να υπερέχουν σε εξειδικευμένες εργασίες, όπως το σκάκι, εκτός εάν αντισταθμίζεται με στοχευμένη τελειοποίηση.

Καθώς η τεχνητή νοημοσύνη συνεχίζει να βελτιώνεται, αυτά τα μαθήματα θα ενημερώσουν στρατηγικές για τη βελτίωση της απόδοσης του μοντέλου σε όλους τους κλάδους. Είτε πρόκειται για σκάκι, για κατανόηση φυσικής γλώσσας ή άλλες περίπλοκες εργασίες, η κατανόηση του τρόπου εκπαίδευσης και συντονισμού της τεχνητής νοημοσύνης είναι απαραίτητη για να ξεκλειδώσετε πλήρως τις δυνατότητές της.

Πίστωση επιλεγμένης εικόνας: Πιότρ Μακόφσκι/Ξεβιδώστε

VIA: DataConomy.com

Προηγούμενο άρθρο

Διεθνές Δίκαιο και Κυβερνοχώρος: Η Άποψη της InfoCom

Επόμενο άρθρο

Ακούστε τα Χριστούγεννα με το Radiochristmas.gr

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Τα LLM και η ανεπάρκεια τους στο σκάκι

Δοκιμές LLM ενάντια σε μηχανές σκακιού

Το GPT-3.5-turbo-instruct ήταν ο απροσδόκητος νικητής

Γιατί ορισμένα μοντέλα υπερέχουν ενώ άλλα αποτυγχάνουν;

Αλλόκοτο Συνάντηση στην Τρικυμία των Τεκτονικών Πλακών

Νέα κυκλοφορία: Xiaomi 14T, 14T Pro και MIX Flip σύντομα στην αγορά!

Επιτυχημένη εκκίνηση για το Huawei Mate 70: 1,8 εκατομμύρια εγγραφές σε κρατήσεις

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Δημοφιλείς Άρθρα

Ένα γρήγορο πάνελ UI 7 για ακόμα πιο προσαρμόσιμο

«ΤΟ ΒΗΜΑ της Καλαμάτας» – Αυτή την Κυριακή 17 Νοεμβρίου 2024 –

V-Color Manta XFinity DDR5 CUDIMM ώθησε σε 12350 MT/s στο ASRock Z890 Taichi OCF

Εξομολόγηση για τη μητρότητα η Καινούργιου on air!

Τελευταία Νέα

Ο Λάζαρος προστάτευει τη Μυρσίνη

Βελτιωτικές προτάσεις για τους νέους αγρότες στο ΕΘΕΑΣ

Τίτλος: BlitzWolf BW-TH16: 8 σε 1 USB Hub με Pass Through Charging & Smart Display

Νέο Color Booster από τη Samsung

Επιλογές Συντακτών

Xiaomi vs Apple: Η Κινεζική Εταιρεία Κατακτά τη Δεύτερη Θέση στην Παγκόσμια Αγορά Smartphones

Gmail με Νέα Λειτουργία “Shielded Email”

H SpaceX ετοιμάζει την 6η πτήση του megarocket Starship για τις 19 Νοεμβρίου

Τυχαία Άρθρα

Παγκόσμια Μερίδια Αγοράς Chipset Smartphone Δεδομένα για το τρίτο τρίμηνο του 2024 είδαν την MediaTek να έχει τον υψηλότερο αριθμό, η Huawei σημείωσε τη...

BlitzWolf BW-VS3: Υψηλής ποιότητας πανί για την τέλεια θέαση ταινιών στο σπίτι

Μαύρες κουκίδες στο παρμπρίζ – Τι είναι το λεγόμενο μοτίβο «Frit» και πόσο σημαντικό είναι;

POPULAR CATEGORY

ABOUT US

FOLLOW US