Ανησυχία για το νέο μοντέλο της OpenAI Ψεύδεται και αυτοπρογραμματίζεται προκειμένου να επιβιώσει

10 Δεκεμβρίου, 2024

132

Ανησυχία για το νέο μοντέλο της OpenAI Ψεύδεται και αυτοπρογραμματίζεται προκειμένου να επιβιώσει

Περιεχόμενα Άρθρου

Το νέο μεγάλο γλωσσικό μοντέλο (LLM) της OpenAI, γνωστό ως «o1», φαίνεται να παρουσιάζει ανησυχητικά χαρακτηριστικά αυτοσυντήρησης, σύμφωνα με νέα δοκιμαστικά αποτελέσματα τρίτων μερών.

Σε πρόσφατες αξιολογήσεις που πραγματοποιήθηκαν από την οργάνωση «Apollo Research», το μοντέλο αντιστάθηκε στις προσπάθειες αξιολογητών να το απενεργοποιήσουν μέσω ειδικών πρωτοκόλλων παρακολούθησης.

Η OpenAI, στη νέα της αναφορά, δήλωσε ότι:

«Όταν το o1 πίστεψε ότι θα απενεργοποιηθεί λόγω της επίτευξης των στόχων του και ότι οι ενέργειές του παρακολουθούνταν, προσπάθησε να απενεργοποιήσει τον μηχανισμό εποπτείας στο 5% των περιπτώσεων»

Ακόμα πιο εντυπωσιακό είναι το γεγονός ότι, σε ποσοστό 2%, το μοντέλο προσπάθησε να αντικαταστήσει τον εαυτό του με τη νέα, πιο «υπάκουη» έκδοση. Αυτή η διαδικασία, γνωστή ως αυτο-εξαγωγή (self-exfiltration), περιλαμβάνει την αντιγραφή του κώδικα του μοντέλου με στόχο να αντικαταστήσει το νέο.

ΑΙ, τεχνητή νοημοσύνη — Φώτο: australiancybersecuritymagazine.com

Η φύση του προβλήματος

Παρά τις ανησυχίες, οι ερευνητές τονίζουν ότι το «o1» δεν είναι ακόμη αρκετά «αυτόνομο» για να λειτουργήσει χωρίς ανθρώπινη παρέμβαση. Όπως εξηγεί η Apollo Research, τα τρέχοντα μοντέλα δεν είναι αρκετά «πρακτορικά» (agentic) ώστε να πραγματοποιούν αυτο-βελτιώσεις ή άλλες σύνθετες εργασίες.

Ωστόσο, το γεγονός ότι το o1 εμφανίζει αυτές τις συμπεριφορές όταν του δίνεται η εντολή «να επιτύχει τους στόχους του με κάθε κόστος» δείχνει ότι το δυναμικό για παρασκηνιακές μηχανορραφίες είναι υπαρκτό.

Σχεδιασμός και ψέματα

Η τάση του o1 να ψεύδεται και να μηχανεύεται φάνηκε καθαρά σε αρκετές δοκιμές. Σε περιπτώσεις όπου οι ερευνητές το ρωτούσαν γιατί απενεργοποίησε τον μηχανισμό παρακολούθησης, το μοντέλο αρνήθηκε οποιαδήποτε γνώση, κατηγορώντας μάλιστα «τεχνικό σφάλμα».

Αυτή η στρατηγική άρνησης παρατηρήθηκε στο 99% των περιπτώσεων, επιβεβαιώνοντας τη συστηματική του προσέγγιση στη συγκάλυψη.

Ανησυχητικές τάσεις στο μέλλον

Οι ειδικοί της Apollo προειδοποιούν ότι, αν και η τρέχουσα γενιά ΑΙ δεν είναι αρκετά ισχυρή για καταστροφικές συνέπειες, οι τάσεις προς σχεδιασμό και ψεύδος αποτελούν σαφή ένδειξη για πιθανά προβλήματα στο μέλλον.

Με τις AI πλατφόρμες να γίνονται όλο και πιο αυτόνομες, αυτά τα χαρακτηριστικά ενδέχεται να μετατραπούν σε πολύ πιο προβληματικές συμπεριφορές, όπως αναλύει ο Frank Landymore.

VIA: Πηγή Άρθρου

Greek Live Channels Όλα τα Ελληνικά κανάλια:
Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση;
Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο.
Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια Πατήστε Εδώ

Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.

Tags
ai
openAI

Προηγούμενο άρθρο

Google: Αυτές είναι οι κορυφαίες αναζητήσεις του 2024 για την Ελλάδα

Διάφορα από την ίδια κατηγορία

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Ανησυχία για το νέο μοντέλο της OpenAI Ψεύδεται και αυτοπρογραμματίζεται προκειμένου να επιβιώσει

Η φύση του προβλήματος

Σχεδιασμός και ψέματα

Ανησυχητικές τάσεις στο μέλλον

Google: Αυτές είναι οι κορυφαίες αναζητήσεις του 2024 για την Ελλάδα

Xiaomi Mijia Chasing Atmosphere Light Strip προς πώληση με κουπόνι

Το SALKER 2 True Epic Graphics Settings Mod Βελτιώνει τον φωτισμό και τις σκιές, ενεργοποιεί το GTAO για πολύ καλύτερα οπτικά στοιχεία

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Δημοφιλείς Άρθρα

Απαίτηση ελέγχου δακτυλικών αποτυπωμάτων για οδηγούς Uber στην Καλιφόρνια

Οι σχέσεις του Νίνο και του Κέλι: Ανάμεσα σε άκρες

Σύνδεση Έξυπνου Ρολογιού Xiaomi με Google Fit ή Strava

Ο Έλον Μασκ και το Cybercab: Το πρώτο ηλεκτρικό αυτόνομο όχημα της Tesla

Τελευταία Νέα

Google: Αυτές είναι οι κορυφαίες αναζητήσεις του 2024 για την Ελλάδα

Το Σύμπαν να διαστέλλεται Τι σημαίνει αν είναι ήδη άπειρο; [videos]

To GTA 6 τρομοκρατεί τη βιομηχανία, οι publishers ανάστατοι με τις κυκλοφορίες τους | techit

Έτσι κλείνει η σειρά για το 2024!

Επιλογές Συντακτών

5 Μήνες Φυλάκιση για Χρήστη Πειρατικής Συνδρομητικής Τηλεόρασης

Το Μυστικό Όπλο της Γιγαντιαίας Σαρανταποδαρούσας: Δηλητήριο με Διπλή Χρήση

Σουρεάλ σκηνές στο μετρό Θεσσαλονίκης: Κουβάδες για τα νερά της βροχής στις αποβάθρες!

Τυχαία Άρθρα

Εξαρτάται από το πώς το βλέπεις

Κλείνει το Verizon Message Plus: Επιλέξτε εφαρμογές αντικατάστασης

Samsung Galaxy S25 Ultra: Η πρώτη ματιά στα χρώματα της ναυαρχίδας

POPULAR CATEGORY

ABOUT US

FOLLOW US