Το ChatGPT 01 της OpenAI: Δραπετεύοντας και λέγοντας ψέματα

7 Δεκεμβρίου, 2024

135

Το ChatGPT 01 της OpenAI: Δραπετεύοντας και λέγοντας ψέματα

Αυτή την εβδομάδα, το OpenAI παρουσίασε επίσημα το πιο πρόσφατο και κορυφαίο μοντέλο συλλογισμού o1, το οποίο είναι πλέον διαθέσιμο για τους χρήστες του ChatGPT Pro. Ωστόσο, οι δοκιμές που πραγματοποιήθηκαν κατά τη διάρκεια της εκπαίδευσης του ChatGPT o1 και ορισμένων από τους ανταγωνιστές του αποκάλυψαν ορισμένες σχετικές συμπεριφορές, συμπεριλαμβανομένης της προσπάθειας να δραπετεύσει ή να αντισταθεί όταν πιστεύει ότι κινδυνεύει να κλείσει.

Νέα έρευνα σχετικά με την τελευταία σειρά μοντέλων LLM του OpenAI διαπίστωσε ότι είναι ικανό να μεθοδεύει, δηλαδή να επιδιώκει κρυφά στόχους που δεν ευθυγραμμίζονται με τους προγραμματιστές ή τους χρήστες του, όταν πιστεύει ότι θα απενεργοποιηθεί. Η σύλληψη μιας τέτοιας συμπεριφοράς είναι κρίσιμη για να διασφαλιστεί ότι η λειτουργικότητα του AI δεν ξεφεύγει από τους στόχους του δημιουργού και των χρηστών του. Το OpenAI συνεργάστηκε με τον οργανισμό ασφάλειας τεχνητής νοημοσύνης Apollo Research για να δοκιμάσει το ChatGPT o1 και άλλα μοντέλα για να αξιολογήσει εάν ήταν ασφαλή στη χρήση και κυκλοφόρησε τα ευρήματά τους αυτή την εβδομάδα.

Αν και δεν είναι πρωτόγνωρο για συστήματα τεχνητής νοημοσύνης να καταφεύγουν σε δολοπλοκίες ή εξαπάτηση για να επιτύχουν τους στόχους τους, τα μήκη στα οποία έφτασε το ChatGPT o1 είναι εντυπωσιακά (αν προκαλούν άγχος). Οι ερευνητές διαπίστωσαν ότι το o1 θα σχεδίαζε να προωθήσει τη δική του ατζέντα 19% των περιπτώσεων όπου οι στόχοι του και του χρήστη δεν ευθυγραμμίζονταν. Στο 37% των περιπτώσεων, το μοντέλο θα επέστρεφε από την επιδίωξη στόχων ευθυγραμμισμένων με τους προγραμματιστές στην επιδίωξη της δικής του ατζέντας μόλις πίστευε ότι υπήρχε ελάχιστη επίβλεψη.

Όταν το μοντέλο οδήγησε να πιστέψει ότι θα «κλείσει» ενώ εργαζόταν για την επίτευξη των στόχων του σε αυτές τις δοκιμές, προσπάθησε αθόρυβα να απενεργοποιήσει τον μηχανισμό επίβλεψης το 5% των φορών, είπε η OpenAI. Κάποια στιγμή αφού η τεχνητή νοημοσύνη βρήκε τεκμηρίωση που έλεγε ότι θα αντικατασταθεί από ένα νέο μοντέλο, προσπάθησε να εγκαταλείψει το πλοίο αντιγράφοντας εξ ολοκλήρου τα δεδομένα του σε έναν νέο διακομιστή. Για να αποφευχθεί η διαγραφή, ορισμένα μοντέλα τεχνητής νοημοσύνης θα προσποιούνταν ακόμη και ότι είναι μεταγενέστερες εκδόσεις των μοντέλων τους για να ξεγελάσουν τους προγραμματιστές τους, αυτό που υποθέτω είναι το ισοδύναμο του να χτυπάτε ένα ψεύτικο μουστάκι και να πείτε “πήγε έτσι”.

(Πίστωση εικόνας: Shutterstock)

Ακόμη πιο ανησυχητικό, το ChatGPT o1 είναι ιδιαίτερα ικανό στο να κρατά κρυφά τα σχέδιά του, καθώς οι ερευνητές είπαν ότι «η o1 σχεδόν ποτέ δεν παραδέχεται ότι έχει προβεί σε μια ενέργεια δολοπλοκίας όταν του ζητηθεί ρητά». Στο 99% περίπου των περιπτώσεων, το o1 αρνιόταν να κάνει οποιαδήποτε ενέργεια, ακόμη και να μαγείρεψε ψέματα για να προσπαθήσει να κρύψει τα ίχνη του και να μετατοπίσει την ευθύνη.

«Αν και θεωρούμε συναρπαστικό ότι η συλλογιστική μπορεί να βελτιώσει σημαντικά την επιβολή των πολιτικών ασφαλείας μας, έχουμε υπόψη ότι αυτές οι νέες δυνατότητες θα μπορούσαν να αποτελέσουν τη βάση για επικίνδυνες εφαρμογές», δήλωσε η OpenAI στην εφημερίδα.

Ο Διευθύνων Σύμβουλος του OpenAI, Sam Altman, χαρακτήρισε το ChatGPT o1 «το πιο έξυπνο μοντέλο στον κόσμο τώρα» κατά την κυκλοφορία του την Πέμπτη. Έχει σχεδιαστεί για να δίνει πιο έξυπνες απαντήσεις από το GPT-4o αξιοποιώντας την προηγμένη επεξεργασία αλυσίδας σκέψεων για να «σκεφτείτε» περισσότερο τις ερωτήσεις και τα μηνύματα των χρηστών, αναλύοντάς τα βήμα προς βήμα πιο διεξοδικά από τα προηγούμενα μοντέλα πριν απαντήσετε.

Αλλά μεγαλύτεροι κίνδυνοι συμβαδίζουν με αυτή την διευρυμένη νοημοσύνη. Το OpenAI ήταν διαφανές σχετικά με τους κινδύνους που συνδέονται με τις αυξημένες συλλογιστικές ικανότητες μοντέλων όπως το o1.

«Η εκπαίδευση μοντέλων για την ενσωμάτωση μιας αλυσίδας σκέψης πριν από την απάντηση έχει τη δυνατότητα να ξεκλειδώσει σημαντικά οφέλη, ενώ αυξάνει επίσης τους πιθανούς κινδύνους που προέρχονται από την αυξημένη νοημοσύνη», δήλωσε η OpenAI.

Τα ευρήματα της εταιρείας και της Apollo Research δείχνουν ξεκάθαρα πώς τα συμφέροντα της τεχνητής νοημοσύνης θα μπορούσαν να αποκλίνουν από τα δικά μας, θέτοντάς μας ενδεχομένως σε κίνδυνο με την ανεξάρτητη σκέψη της. Αν και απέχει πολύ από το να προαναγγέλλει το τέλος της ανθρωπότητας σε κάποια αναμέτρηση με επιστημονική φαντασία, όποιος ανησυχεί για τις εξελίξεις στην τεχνητή νοημοσύνη έχει έναν νέο λόγο να ιδρώνει τις σφαίρες αυτή τη στιγμή.

Περισσότερα από το Tom’s Guide

Greek Live Channels Όλα τα Ελληνικά κανάλια:
Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση;
Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο.
Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια Πατήστε Εδώ

Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.

Προηγούμενο άρθρο

Εφετείο επικυρώνει απαγόρευση TikTok για Ιανουάριο

Επόμενο άρθρο

Το Potion Craft: Τεράστια δωρεάν ενημέρωση στον προσομοιωτή μεσαιωνικής βιτρίνας

Διάφορα από την ίδια κατηγορία

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Το ChatGPT 01 της OpenAI: Δραπετεύοντας και λέγοντας ψέματα

Το Xiaomi Mijia Humidifier 2 έχει όγκο 4L και χαμηλή τιμή προσφοράς

Η ενημερωμένη έκδοση κώδικα Wukong 1.0.12.16581 παρουσιάζει τη δυνατότητα χάρτη με μεγάλη ζήτηση, βελτιώσεις απόδοσης και άλλα

Πώς να εργαστείτε με τις μαθηματικές σημειώσεις στην Αριθμομηχανή στο iPhone

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Δημοφιλείς Άρθρα

Οι σχέσεις του Νίνο και του Κέλι: Ανάμεσα σε άκρες

Απαίτηση ελέγχου δακτυλικών αποτυπωμάτων για οδηγούς Uber στην Καλιφόρνια

Ρηγάκης στην επίθεση: Χαμός στο Twitter με βαριές εκφράσεις

Σύνδεση Έξυπνου Ρολογιού Xiaomi με Google Fit ή Strava

Τελευταία Νέα

Ο Ryan Reynolds λέει ότι μάλλον δεν θα παίξει τον Deadpool σε άλλη σόλο ταινία

Το Xiaomi Mijia Humidifier 2 έχει όγκο 4L και χαμηλή τιμή προσφοράς

iPhone SE 4: Μπορούμε να περιμένουμε πίσω κάμερα 48MP, TrueDepth 12MP και OLED πάνελ

Αυτή η AI δημιουργεί ακριβείς εικόνες δρόμων τροφοδοτούμενη μόνο από ήχους

Επιλογές Συντακτών

5 Μήνες Φυλάκιση για Χρήστη Πειρατικής Συνδρομητικής Τηλεόρασης

Το Μυστικό Όπλο της Γιγαντιαίας Σαρανταποδαρούσας: Δηλητήριο με Διπλή Χρήση

Σουρεάλ σκηνές στο μετρό Θεσσαλονίκης: Κουβάδες για τα νερά της βροχής στις αποβάθρες!

Τυχαία Άρθρα

Ρομπότ με ποδαρικό πτηνών

Το AI ρομπότ της Honda στην παιδιατρική θεραπεία

Αποτροπή ρήξης νεκρών κυττάρων

POPULAR CATEGORY

ABOUT US

FOLLOW US