Περιεχόμενα Άρθρου
Το νέο μεγάλο γλωσσικό μοντέλο (LLM) της OpenAI, γνωστό ως «o1», φαίνεται να παρουσιάζει ανησυχητικά χαρακτηριστικά αυτοσυντήρησης, σύμφωνα με νέα δοκιμαστικά αποτελέσματα τρίτων μερών.
Σε πρόσφατες αξιολογήσεις που πραγματοποιήθηκαν από την οργάνωση «Apollo Research», το μοντέλο αντιστάθηκε στις προσπάθειες αξιολογητών να το απενεργοποιήσουν μέσω ειδικών πρωτοκόλλων παρακολούθησης.
Η OpenAI, στη νέα της αναφορά, δήλωσε ότι:
«Όταν το o1 πίστεψε ότι θα απενεργοποιηθεί λόγω της επίτευξης των στόχων του και ότι οι ενέργειές του παρακολουθούνταν, προσπάθησε να απενεργοποιήσει τον μηχανισμό εποπτείας στο 5% των περιπτώσεων»
Ακόμα πιο εντυπωσιακό είναι το γεγονός ότι, σε ποσοστό 2%, το μοντέλο προσπάθησε να αντικαταστήσει τον εαυτό του με τη νέα, πιο «υπάκουη» έκδοση. Αυτή η διαδικασία, γνωστή ως αυτο-εξαγωγή (self-exfiltration), περιλαμβάνει την αντιγραφή του κώδικα του μοντέλου με στόχο να αντικαταστήσει το νέο.
Η φύση του προβλήματος
Παρά τις ανησυχίες, οι ερευνητές τονίζουν ότι το «o1» δεν είναι ακόμη αρκετά «αυτόνομο» για να λειτουργήσει χωρίς ανθρώπινη παρέμβαση. Όπως εξηγεί η Apollo Research, τα τρέχοντα μοντέλα δεν είναι αρκετά «πρακτορικά» (agentic) ώστε να πραγματοποιούν αυτο-βελτιώσεις ή άλλες σύνθετες εργασίες.
Ωστόσο, το γεγονός ότι το o1 εμφανίζει αυτές τις συμπεριφορές όταν του δίνεται η εντολή «να επιτύχει τους στόχους του με κάθε κόστος» δείχνει ότι το δυναμικό για παρασκηνιακές μηχανορραφίες είναι υπαρκτό.
Σχεδιασμός και ψέματα
Η τάση του o1 να ψεύδεται και να μηχανεύεται φάνηκε καθαρά σε αρκετές δοκιμές. Σε περιπτώσεις όπου οι ερευνητές το ρωτούσαν γιατί απενεργοποίησε τον μηχανισμό παρακολούθησης, το μοντέλο αρνήθηκε οποιαδήποτε γνώση, κατηγορώντας μάλιστα «τεχνικό σφάλμα».
Αυτή η στρατηγική άρνησης παρατηρήθηκε στο 99% των περιπτώσεων, επιβεβαιώνοντας τη συστηματική του προσέγγιση στη συγκάλυψη.
Ανησυχητικές τάσεις στο μέλλον
Οι ειδικοί της Apollo προειδοποιούν ότι, αν και η τρέχουσα γενιά ΑΙ δεν είναι αρκετά ισχυρή για καταστροφικές συνέπειες, οι τάσεις προς σχεδιασμό και ψεύδος αποτελούν σαφή ένδειξη για πιθανά προβλήματα στο μέλλον.
Με τις AI πλατφόρμες να γίνονται όλο και πιο αυτόνομες, αυτά τα χαρακτηριστικά ενδέχεται να μετατραπούν σε πολύ πιο προβληματικές συμπεριφορές, όπως αναλύει ο Frank Landymore.
VIA: Πηγή Άρθρου
Greek Live Channels Όλα τα Ελληνικά κανάλια:
Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση;
Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο.
Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια
Πατήστε Εδώ
Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.