Η ανοησία του να κάνεις τέχνη με τη γενετική τεχνητή νοημοσύνη από κείμενο σε εικόνα
Η δημιουργία τέχνης με τη χρήση τεχνητής νοημοσύνης δεν είναι κάτι καινούργιο. Είναι τόσο παλιά όσο και η ίδια η τεχνητή νοημοσύνη.
Αυτό που είναι καινούργιο είναι ότι ένα κύμα εργαλείων επιτρέπει πλέον στους περισσότερους ανθρώπους να δημιουργούν εικόνες εισάγοντας ένα κείμενο. Το μόνο που χρειάζεται να κάνετε είναι να γράψετε “ένα τοπίο στο στυλ του van Gogh” σε ένα πλαίσιο κειμένου, και η τεχνητή νοημοσύνη μπορεί να δημιουργήσει μια όμορφη εικόνα σύμφωνα με τις οδηγίες.
Η δύναμη αυτής της τεχνολογίας έγκειται στην ικανότητά της να χρησιμοποιεί την ανθρώπινη γλώσσα για να ελέγχει τη δημιουργία τέχνης. Αλλά μεταφράζουν αυτά τα συστήματα με ακρίβεια το όραμα ενός καλλιτέχνη; Μπορεί η εισαγωγή της γλώσσας στην καλλιτεχνική δημιουργία να οδηγήσει πραγματικά σε καλλιτεχνικές ανακαλύψεις;
Εκροές μηχανικής
Εργάζομαι με τη γενετική τεχνητή νοημοσύνη ως καλλιτέχνης και επιστήμονας υπολογιστών εδώ και χρόνια και θα υποστήριζα ότι αυτός ο νέος τύπος εργαλείου περιορίζει τη δημιουργική διαδικασία.
Όταν γράφετε μια προτροπή κειμένου για τη δημιουργία μιας εικόνας με ΤΝ, υπάρχουν άπειρες δυνατότητες. Αν είστε περιστασιακός χρήστης, μπορεί να είστε ευχαριστημένος με αυτό που παράγει η ΤΝ για εσάς. Και οι νεοσύστατες επιχειρήσεις και οι επενδυτές έχουν ρίξει δισεκατομμύρια σε αυτή την τεχνολογία, βλέποντάς την ως έναν εύκολο τρόπο να δημιουργηθούν γραφικά για άρθρα, χαρακτήρες βιντεοπαιχνιδιών και διαφημίσεις.
Αντίθετα, ένας καλλιτέχνης μπορεί να χρειαστεί να γράψει μια προτροπή που μοιάζει με δοκίμιο για να δημιουργήσει μια εικόνα υψηλής ποιότητας που να αντικατοπτρίζει το όραμά του – με τη σωστή σύνθεση, το σωστό φωτισμό και τη σωστή σκίαση. Αυτή η μακροσκελής προτροπή δεν είναι απαραίτητα περιγραφική της εικόνας, αλλά συνήθως χρησιμοποιεί πολλές λέξεις-κλειδιά για να επικαλεστεί το σύστημα αυτού που έχει στο μυαλό του ο καλλιτέχνης. Υπάρχει ένας σχετικά νέος όρος γι’ αυτό: μηχανική προτροπών.
Βασικά, ο ρόλος ενός καλλιτέχνη που χρησιμοποιεί αυτά τα εργαλεία περιορίζεται στην αντίστροφη μηχανική του συστήματος για να βρει τις σωστές λέξεις-κλειδιά που θα αναγκάσουν το σύστημα να παράγει την επιθυμητή έξοδο. Χρειάζεται πολλή προσπάθεια και πολλές δοκιμές και λάθη για να βρεθούν οι σωστές λέξεις.
Η τεχνητή νοημοσύνη δεν είναι τόσο έξυπνη όσο φαίνεται
Για να μάθουμε πώς να ελέγχουμε καλύτερα τις εξόδους, είναι σημαντικό να αναγνωρίσουμε ότι τα περισσότερα από αυτά τα συστήματα εκπαιδεύονται με εικόνες και λεζάντες από το διαδίκτυο.
Σκεφτείτε τι λέει μια τυπική λεζάντα εικόνας για μια εικόνα. Οι λεζάντες γράφονται συνήθως για να συμπληρώσουν την οπτική εμπειρία κατά την περιήγηση στο διαδίκτυο.
Για παράδειγμα, η λεζάντα μπορεί να περιγράφει το όνομα του φωτογράφου και του κατόχου των πνευματικών δικαιωμάτων. Σε ορισμένους ιστότοπους, όπως το Flickr, μια λεζάντα περιγράφει συνήθως τον τύπο της φωτογραφικής μηχανής και τον φακό που χρησιμοποιήθηκε. Σε άλλους ιστότοπους, η λεζάντα περιγράφει τη μηχανή γραφικών και το υλικό που χρησιμοποιείται για την απόδοση μιας εικόνας.
Έτσι, για να γράψουν μια χρήσιμη προτροπή κειμένου, οι χρήστες πρέπει να εισάγουν πολλές μη περιγραφικές λέξεις-κλειδιά ώστε το σύστημα τεχνητής νοημοσύνης να δημιουργήσει μια αντίστοιχη εικόνα.
Τα σημερινά συστήματα τεχνητής νοημοσύνης δεν είναι τόσο έξυπνα όσο φαίνονται- είναι ουσιαστικά έξυπνα συστήματα ανάκτησης που διαθέτουν τεράστια μνήμη και λειτουργούν με βάση τον συνειρμό.
Καλλιτέχνες αισθάνονται απογοητευμένοι από την έλλειψη ελέγχου
Είναι πραγματικά αυτό το είδος εργαλείου που μπορεί να βοηθήσει τους καλλιτέχνες να δημιουργήσουν σπουδαία έργα;
Στην Playform AI, μια πλατφόρμα δημιουργικής τεχνητής νοημοσύνης που ίδρυσα, πραγματοποιήσαμε μια έρευνα για να κατανοήσουμε καλύτερα τις εμπειρίες των καλλιτεχνών με τη δημιουργική τεχνητή νοημοσύνη. Συλλέξαμε απαντήσεις από περισσότερους από 500 ψηφιακούς καλλιτέχνες, παραδοσιακούς ζωγράφους, φωτογράφους, εικονογράφους και γραφίστες που είχαν χρησιμοποιήσει πλατφόρμες όπως οι DALL-E, Stable Diffusion και Midjourney, μεταξύ άλλων.
Μόνο το 46% των ερωτηθέντων θεώρησε ότι τέτοια εργαλεία ήταν “πολύ χρήσιμα”, ενώ το 32% τα βρήκε κάπως χρήσιμα, αλλά δεν μπορούσε να τα ενσωματώσει στη ροή εργασίας του. Οι υπόλοιποι χρήστες – 22% – δεν τα βρήκαν καθόλου χρήσιμα.
Ο κύριος περιορισμός που ανέδειξαν οι καλλιτέχνες και οι σχεδιαστές ήταν η έλλειψη ελέγχου. Σε μια κλίμακα από το 0 έως το 10, με το 10 να είναι ο μεγαλύτερος έλεγχος, οι ερωτηθέντες περιέγραψαν την ικανότητά τους να ελέγχουν το αποτέλεσμα μεταξύ 4 και 5. Οι μισοί από τους ερωτηθέντες βρήκαν τα αποτελέσματα ενδιαφέροντα, αλλά όχι αρκετά υψηλής ποιότητας για να τα χρησιμοποιήσουν στην πρακτική τους.
Η καλύτερη εικαστική τέχνη υπερβαίνει τη γλώσσα
Είναι αυτοί οι περιορισμοί θεμελιώδεις ή θα εξαφανιστούν καθώς η τεχνολογία θα βελτιώνεται;
Φυσικά, οι νεότερες εκδόσεις της γενετικής ΤΝ θα δίνουν στους χρήστες μεγαλύτερο έλεγχο στις εκροές, μαζί με υψηλότερες αναλύσεις και καλύτερη ποιότητα εικόνας.
Αλλά για μένα, ο κύριος περιορισμός, όσον αφορά την τέχνη, είναι θεμελιώδης: είναι η διαδικασία της χρήσης της γλώσσας ως κύριας κινητήριας δύναμης για τη δημιουργία της εικόνας.
Οι εικαστικοί καλλιτέχνες, εξ ορισμού, είναι οπτικοί στοχαστές. Όταν φαντάζονται το έργο τους, συνήθως αντλούν από οπτικές αναφορές, όχι από λέξεις – μια ανάμνηση, μια συλλογή φωτογραφιών ή άλλη τέχνη που έχουν συναντήσει.
Όταν η γλώσσα βρίσκεται στη θέση του οδηγού της δημιουργίας εικόνας, βλέπω ένα επιπλέον εμπόδιο μεταξύ του καλλιτέχνη και του ψηφιακού καμβά. Τα pixels θα αποδίδονται μόνο μέσα από τον φακό της γλώσσας. Οι καλλιτέχνες χάνουν την ελευθερία του χειρισμού των εικονοστοιχείων έξω από τα όρια της σημασιολογίας.
Υπάρχει ένας άλλος θεμελιώδης περιορισμός στην τεχνολογία μετατροπής κειμένου σε εικόνα.
Εάν δύο καλλιτέχνες εισάγουν την ίδια ακριβώς προτροπή, είναι πολύ απίθανο το σύστημα να παράγει την ίδια εικόνα. Αυτό δεν οφείλεται σε κάτι που έκανε ο καλλιτέχνης- τα διαφορετικά αποτελέσματα οφείλονται απλώς στο ότι η τεχνητή νοημοσύνη ξεκινά από διαφορετικές τυχαίες αρχικές εικόνες.
Με άλλα λόγια, το αποτέλεσμα του καλλιτέχνη ανάγεται στην τύχη;
Σχεδόν τα δύο τρίτα των καλλιτεχνών που συμμετείχαν στην έρευνα είχαν ανησυχίες ότι οι γενιές της τεχνητής νοημοσύνης τους μπορεί να είναι παρόμοιες με τα έργα άλλων καλλιτεχνών και ότι η τεχνολογία δεν αντικατοπτρίζει την ταυτότητά τους – ή ακόμη και την αντικαθιστά εντελώς.
Το ζήτημα της ταυτότητας του καλλιτέχνη είναι ζωτικής σημασίας όταν πρόκειται για τη δημιουργία και την αναγνώριση της τέχνης. Τον 19ο αιώνα, όταν η φωτογραφία άρχισε να γίνεται δημοφιλής, υπήρξε μια συζήτηση σχετικά με το αν η φωτογραφία ήταν μια μορφή τέχνης. Έφτασε σε μια δικαστική υπόθεση στη Γαλλία το 1861 για να αποφασιστεί αν η φωτογραφία θα μπορούσε να κατοχυρωθεί ως μορφή τέχνης με πνευματικά δικαιώματα. Η απόφαση εξαρτιόταν από το κατά πόσον η μοναδική ταυτότητα ενός καλλιτέχνη μπορούσε να εκφραστεί μέσω των φωτογραφιών.
Τα ίδια ερωτήματα προκύπτουν όταν εξετάζουμε συστήματα τεχνητής νοημοσύνης που διδάσκονται με τις υπάρχουσες εικόνες του διαδικτύου.
Πριν από την εμφάνιση της προτροπής μετατροπής κειμένου σε εικόνα, η δημιουργία τέχνης με ΤΝ ήταν μια πιο περίπλοκη διαδικασία: Οι καλλιτέχνες συνήθως εκπαίδευαν τα δικά τους μοντέλα ΤΝ με βάση τις δικές τους εικόνες. Αυτό τους επέτρεπε να χρησιμοποιούν τα δικά τους έργα ως οπτικές αναφορές και να διατηρούν μεγαλύτερο έλεγχο στα αποτελέσματα, τα οποία αντανακλούσαν καλύτερα το μοναδικό τους στυλ.
Τα εργαλεία μετατροπής κειμένου σε εικόνα μπορεί να είναι χρήσιμα για ορισμένους δημιουργούς και περιστασιακούς καθημερινούς χρήστες που θέλουν να δημιουργήσουν γραφικά για μια παρουσίαση εργασίας ή μια ανάρτηση στα μέσα κοινωνικής δικτύωσης.
Αλλά όταν πρόκειται για την τέχνη, δεν μπορώ να δω πώς το λογισμικό text-to-image μπορεί να αντικατοπτρίζει επαρκώς τις πραγματικές προθέσεις του καλλιτέχνη ή να αποτυπώνει την ομορφιά και τη συναισθηματική απήχηση ή τα έργα που καθηλώνουν τους θεατές και τους κάνουν να δουν τον κόσμο από την αρχή.
Professor of Computer Science and Director of the Art & AI Lab, Rutgers University
Η γενετική τεχνητή νοημοσύνη (AGI) αναφέρεται σε τεχνητή νοημοσύνη που μπορεί να παράγει περιεχόμενο, εικόνες, ακόμη και κώδικα λογισμικού κατόπιν εντολής. Το GPT-3, το ChatGPT, το Stable Diffusion, το Google, το Meta, το Midjourney και το DALL-E του OpenAI είναι όλα εξαιρετικά παραδείγματα.