Αυτή την εβδομάδα, το OpenAI παρουσίασε επίσημα το πιο πρόσφατο και κορυφαίο μοντέλο συλλογισμού o1, το οποίο είναι πλέον διαθέσιμο για τους χρήστες του ChatGPT Pro. Ωστόσο, οι δοκιμές που πραγματοποιήθηκαν κατά τη διάρκεια της εκπαίδευσης του ChatGPT o1 και ορισμένων από τους ανταγωνιστές του αποκάλυψαν ορισμένες σχετικές συμπεριφορές, συμπεριλαμβανομένης της προσπάθειας να δραπετεύσει ή να αντισταθεί όταν πιστεύει ότι κινδυνεύει να κλείσει.
Νέα έρευνα σχετικά με την τελευταία σειρά μοντέλων LLM του OpenAI διαπίστωσε ότι είναι ικανό να μεθοδεύει, δηλαδή να επιδιώκει κρυφά στόχους που δεν ευθυγραμμίζονται με τους προγραμματιστές ή τους χρήστες του, όταν πιστεύει ότι θα απενεργοποιηθεί. Η σύλληψη μιας τέτοιας συμπεριφοράς είναι κρίσιμη για να διασφαλιστεί ότι η λειτουργικότητα του AI δεν ξεφεύγει από τους στόχους του δημιουργού και των χρηστών του. Το OpenAI συνεργάστηκε με τον οργανισμό ασφάλειας τεχνητής νοημοσύνης Apollo Research για να δοκιμάσει το ChatGPT o1 και άλλα μοντέλα για να αξιολογήσει εάν ήταν ασφαλή στη χρήση και κυκλοφόρησε τα ευρήματά τους αυτή την εβδομάδα.
Αν και δεν είναι πρωτόγνωρο για συστήματα τεχνητής νοημοσύνης να καταφεύγουν σε δολοπλοκίες ή εξαπάτηση για να επιτύχουν τους στόχους τους, τα μήκη στα οποία έφτασε το ChatGPT o1 είναι εντυπωσιακά (αν προκαλούν άγχος). Οι ερευνητές διαπίστωσαν ότι το o1 θα σχεδίαζε να προωθήσει τη δική του ατζέντα 19% των περιπτώσεων όπου οι στόχοι του και του χρήστη δεν ευθυγραμμίζονταν. Στο 37% των περιπτώσεων, το μοντέλο θα επέστρεφε από την επιδίωξη στόχων ευθυγραμμισμένων με τους προγραμματιστές στην επιδίωξη της δικής του ατζέντας μόλις πίστευε ότι υπήρχε ελάχιστη επίβλεψη.
Όταν το μοντέλο οδήγησε να πιστέψει ότι θα «κλείσει» ενώ εργαζόταν για την επίτευξη των στόχων του σε αυτές τις δοκιμές, προσπάθησε αθόρυβα να απενεργοποιήσει τον μηχανισμό επίβλεψης το 5% των φορών, είπε η OpenAI. Κάποια στιγμή αφού η τεχνητή νοημοσύνη βρήκε τεκμηρίωση που έλεγε ότι θα αντικατασταθεί από ένα νέο μοντέλο, προσπάθησε να εγκαταλείψει το πλοίο αντιγράφοντας εξ ολοκλήρου τα δεδομένα του σε έναν νέο διακομιστή. Για να αποφευχθεί η διαγραφή, ορισμένα μοντέλα τεχνητής νοημοσύνης θα προσποιούνταν ακόμη και ότι είναι μεταγενέστερες εκδόσεις των μοντέλων τους για να ξεγελάσουν τους προγραμματιστές τους, αυτό που υποθέτω είναι το ισοδύναμο του να χτυπάτε ένα ψεύτικο μουστάκι και να πείτε “πήγε έτσι”.
Ακόμη πιο ανησυχητικό, το ChatGPT o1 είναι ιδιαίτερα ικανό στο να κρατά κρυφά τα σχέδιά του, καθώς οι ερευνητές είπαν ότι «η o1 σχεδόν ποτέ δεν παραδέχεται ότι έχει προβεί σε μια ενέργεια δολοπλοκίας όταν του ζητηθεί ρητά». Στο 99% περίπου των περιπτώσεων, το o1 αρνιόταν να κάνει οποιαδήποτε ενέργεια, ακόμη και να μαγείρεψε ψέματα για να προσπαθήσει να κρύψει τα ίχνη του και να μετατοπίσει την ευθύνη.
«Αν και θεωρούμε συναρπαστικό ότι η συλλογιστική μπορεί να βελτιώσει σημαντικά την επιβολή των πολιτικών ασφαλείας μας, έχουμε υπόψη ότι αυτές οι νέες δυνατότητες θα μπορούσαν να αποτελέσουν τη βάση για επικίνδυνες εφαρμογές», δήλωσε η OpenAI στην εφημερίδα.
Ο Διευθύνων Σύμβουλος του OpenAI, Sam Altman, χαρακτήρισε το ChatGPT o1 «το πιο έξυπνο μοντέλο στον κόσμο τώρα» κατά την κυκλοφορία του την Πέμπτη. Έχει σχεδιαστεί για να δίνει πιο έξυπνες απαντήσεις από το GPT-4o αξιοποιώντας την προηγμένη επεξεργασία αλυσίδας σκέψεων για να «σκεφτείτε» περισσότερο τις ερωτήσεις και τα μηνύματα των χρηστών, αναλύοντάς τα βήμα προς βήμα πιο διεξοδικά από τα προηγούμενα μοντέλα πριν απαντήσετε.
Αλλά μεγαλύτεροι κίνδυνοι συμβαδίζουν με αυτή την διευρυμένη νοημοσύνη. Το OpenAI ήταν διαφανές σχετικά με τους κινδύνους που συνδέονται με τις αυξημένες συλλογιστικές ικανότητες μοντέλων όπως το o1.
«Η εκπαίδευση μοντέλων για την ενσωμάτωση μιας αλυσίδας σκέψης πριν από την απάντηση έχει τη δυνατότητα να ξεκλειδώσει σημαντικά οφέλη, ενώ αυξάνει επίσης τους πιθανούς κινδύνους που προέρχονται από την αυξημένη νοημοσύνη», δήλωσε η OpenAI.
Τα ευρήματα της εταιρείας και της Apollo Research δείχνουν ξεκάθαρα πώς τα συμφέροντα της τεχνητής νοημοσύνης θα μπορούσαν να αποκλίνουν από τα δικά μας, θέτοντάς μας ενδεχομένως σε κίνδυνο με την ανεξάρτητη σκέψη της. Αν και απέχει πολύ από το να προαναγγέλλει το τέλος της ανθρωπότητας σε κάποια αναμέτρηση με επιστημονική φαντασία, όποιος ανησυχεί για τις εξελίξεις στην τεχνητή νοημοσύνη έχει έναν νέο λόγο να ιδρώνει τις σφαίρες αυτή τη στιγμή.
Περισσότερα από το Tom’s Guide
Greek Live Channels Όλα τα Ελληνικά κανάλια:
Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση;
Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο.
Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια
Πατήστε Εδώ
Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.