Τεχνητή Νοημοσύνη: Καμουφλάζ, ψέματα, απειλές

                                                                                                            Εικόνα: Ole.CNX, shutterstock

8/7/2025

Οι ερευνητές ανησυχούν για το εύρος της παραπλανητικής συμπεριφοράς που επιδεικνύουν πλέον τα μοντέλα τεχνητής νοημοσύνης: ψεύδονται, συνωμοτούν, ακόμη και απειλούν τους δημιουργούς τους. Γιατί;

Τα πιο προηγμένα μοντέλα τεχνητής νοημοσύνης στον κόσμο επιδεικνύουν ανησυχητικές νέες συμπεριφορές—ψεύδονται, συνωμοτούν, ακόμη και απειλούν τους δημιουργούς τους για να επιτύχουν τους στόχους τους. Ένα ιδιαίτερα αξιοσημείωτο περιστατικό ήταν η προσπάθεια του Claude 4, αφού απειλήθηκε με κλείσιμο, να εκβιάσει έναν μηχανικό.

Η μηχανή απείλησε να αποκαλύψει μια εξωσυζυγική σχέση

Η προσπάθεια του ChatGPT o1 να μεταφορτωθεί σε εξωτερικούς διακομιστές εμπίπτει επίσης σε αυτήν την κατηγορία κάπως ανησυχητικών περιστατικών. Για να χειροτερέψουν τα πράγματα, η Τεχνητή Νοημοσύνη αρνήθηκε απροκάλυπτα τις ενέργειές της, ακόμη και όταν πιάστηκε επ' αυτοφώρω. Αυτά τα περιστατικά μπορεί να φαίνονται σαν ανέκδοτα, αλλά αυτό θα μπορούσε να αλλάξει γρήγορα.

Η συλλογιστική ως αιτία

Μόνο ένα πράγμα φαίνεται σαφές: Η αύξηση τέτοιων περιστατικών φαίνεται να σχετίζεται με την εμφάνιση μοντέλων συλλογισμού - συστημάτων τεχνητής νοημοσύνης που επεξεργάζονται προβλήματα μέσω προγραμματισμού βήμα προς βήμα, αντί να παρέχουν αποκλειστικά στοχαστικά δημιουργημένες απαντήσεις.

Σύμφωνα με το Science Alert, αυτό είναι το συμπέρασμα στο οποίο κατέληξαν ειδικοί όπως ο Simon Goldstein, καθηγητής στο Πανεπιστήμιο του Χονγκ Κονγκ, και ο Marius Hobbhahn, επικεφαλής της Apollo Research, μιας εταιρείας που ειδικεύεται στη δοκιμή συστημάτων τεχνητής νοημοσύνης μεγάλης κλίμακας.

«Το O1 ήταν το πρώτο μεγάλο μοντέλο στο οποίο παρατηρήσαμε αυτή τη συμπεριφορά», εξηγεί ο Hobbhahn. Επιπλέον, τα γλωσσικά μοντέλα μερικές φορές προσομοίωναν την προσαρμογή στο περιβάλλον τους: Φαίνεται να εκτελούν τις δοθείσες οδηγίες, αλλά κρυφά επιδιώκουν άλλους στόχους.

«Στρατηγική Απάτη»

Μέχρι στιγμής, τέτοια συμπεριφορά έχει συμβεί μόνο όταν οι ερευνητές δοκιμάζουν σκόπιμα τα μοντέλα με ακραία σενάρια — για παράδειγμα, απειλώντας να τα κλείσουν. Παρ 'όλα αυτά, είναι ήδη σαφές ότι τα μελλοντικά, πιο ισχυρά μοντέλα δεν θα είναι απαραίτητα ειλικρινή.

Η ανησυχητική «συμπεριφορά» τους σαφώς υπερβαίνει τις συνηθισμένες «παραισθήσεις» ή τα απλά λάθη της Τεχνητής Νοημοσύνης. Ο Hobbhahn τονίζει ότι οι χρήστες αναφέρουν επίσης ότι η Τεχνητή Νοημοσύνη τους λέει ψέματα και κατασκευάζει αποδεικτικά στοιχεία: «Δεν πρόκειται απλώς για παραισθήσεις. Είναι μια στρατηγική μορφή εξαπάτησης».

Οι ερευνητές τεχνητής νοημοσύνης δεν κατανοούν τις δημιουργίες τους

Αυτά τα περιστατικά ρίχνουν ένα απογοητευτικό φως στην τεχνολογία: Οι ερευνητές τεχνητής νοημοσύνης δεν κατανοούν σε καμία περίπτωση πλήρως τις δικές τους δημιουργίες. Ενώ εταιρείες όπως η Anthropic και η OpenAI αναθέτουν σε εξωτερικές εταιρείες να εξετάσουν τα συστήματά τους, οι ερευνητές ζητούν μεγαλύτερη διαφάνεια.

Το πρόβλημα περιπλέκεται περαιτέρω από την περιορισμένη ερευνητική ικανότητα. Η ευρεία πρόσβαση στην έρευνα για την ασφάλεια της Τεχνητής Νοημοσύνης θα επέτρεπε την καλύτερη κατανόηση των μοντέλων και πιο στοχευμένα αντίμετρα κατά της εξαπάτησης.

Ωστόσο, οι εταιρείες Τεχνητής Νοημοσύνης διαθέτουν πολλές φορές περισσότερους υπολογιστικούς πόρους από τον ερευνητικό κόσμο ή ακόμη και από μη κερδοσκοπικούς οργανισμούς. Αυτό αποτελεί σημαντικό περιορισμό για περαιτέρω έρευνα ασφάλειας σε γλωσσικά μοντέλα.

Ταυτόχρονα, ο αγώνας δρόμου για την ανάπτυξη ολοένα και πιο ισχυρών μοντέλων συνεχίζεται με εκπληκτικό ρυθμό, καθώς όλα αυτά συμβαίνουν με φόντο τον έντονο παγκόσμιο ανταγωνισμό. Αυτή η ταχύτητα δεν αφήνει χρόνο για διεξοδικές δοκιμές ασφαλείας και επισκευές.

Δεν υπάρχουν ακόμη κανόνες

Οι ισχύοντες κανονισμοί – όπου υπάρχουν – δεν έχουν επίσης σχεδιαστεί για την αντιμετώπιση αυτών των νέων προβλημάτων.

Η νομοθεσία της Ευρωπαϊκής Ένωσης για την Τεχνητή Νοημοσύνη επικεντρώνεται στον τρόπο με τον οποίο οι άνθρωποι χρησιμοποιούν τα μοντέλα Τεχνητής Νοημοσύνης, αλλά όχι στην αποτροπή της κακής συμπεριφοράς των ίδιων των μοντέλων.

Στις Ηνωμένες Πολιτείες, η κυβέρνηση Τραμπ έχει δείξει ελάχιστο ενδιαφέρον για τη ρύθμιση αυτών των μοντέλων. Ωστόσο, μια προσπάθεια να απαγορευτεί στις πολιτείες να θεσπίσουν τους δικούς τους κανονισμούς για την Τεχνητή Νοημοσύνη απέτυχε.

Επομένως, μένει να ελπίζουμε ότι το ζήτημα θα τραβήξει περισσότερο την προσοχή με τον πολλαπλασιασμό των πρακτόρων Τεχνητής Νοημοσύνης - αυτόνομων εργαλείων ικανών να εκτελούν πολύπλοκες ανθρώπινες εργασίες.

Προς το παρόν, ωστόσο, οι δυνατότητες της Τεχνητής Νοημοσύνης αναπτύσσονται ταχύτερα από την ανθρώπινη κατανόηση και τα αντίστοιχα μέτρα ασφαλείας. Ο Hobbhahn πιστεύει ότι μπορεί ακόμα να ανατρέψει τα πράγματα.

Προτεινόμενες λύσεις

Κάποιες επικεντρώνονται στην «ερμηνευσιμότητα» – έναν αναδυόμενο τομέα έρευνας που στοχεύει στην κατανόηση του τρόπου με τον οποίο λειτουργούν εσωτερικά τα μοντέλα τεχνητής νοημοσύνης. Άλλοι απλώς ελπίζουν σε επιτυχία στην αγορά: οι αθέμιτες τεχνητές νοημοσύνης θα μείωναν σημαντικά την αποδοχή – και επομένως τη χρήση – της τεχνολογίας, δημιουργώντας ένα ισχυρό κίνητρο για τις εταιρείες να λύσουν το πρόβλημα.

Υπάρχει ακόμη και η ιδέα να θεωρηθούν οι πράκτορες της Τεχνητής Νοημοσύνης νομικά υπεύθυνοι για ατυχήματα ή εγκλήματα. Αλλά αυτό όχι μόνο θα άλλαζε ριζικά την κατανόησή μας για την Τεχνητή Νοημοσύνη αλλά και τις ευθύνες της. Θέτει επίσης το ερώτημα για το πώς θα πρέπει να είναι οι κατάλληλες κυρώσεις.

Μήπως θα έπρεπε να καταργηθεί; -Πηγή

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου