Καλώς ήρθατε στο νέο σουρεαλιστικό. Πώς το βίντεο που δημιουργείται από τεχνητή νοημοσύνη αλλάζει τον κινηματογράφο.

Παρακολουθήστε την παγκόσμια πρεμιέρα της ταινίας μικρού μήκους The Frost που δημιουργήθηκε από τεχνητή νοημοσύνη.

To The Frost πετυχαίνει την αλλόκοτη, ανησυχητική ατμόσφαιρα από τα πρώτα πλάνα του. Απέραντα παγωμένα βουνά, ένας αυτοσχέδιος καταυλισμός από στρατιωτικού τύπου σκηνές, μια ομάδα ανθρώπων που συνωστίζονται γύρω από μια φωτιά, σκυλιά που γαβγίζουν. Είναι οικεία πράγματα, αλλά αρκετά παράξενα για να φυτέψουν έναν αυξανόμενο σπόρο τρόμου. Κάτι δεν πάει καλά εδώ.

“Δώσε μου την ουρά”, λέει κάποιος. Κόβουμε σε κοντινό πλάνο έναν άντρα δίπλα στη φωτιά να μασουλάει ένα ροζ κομμάτι παστουρμά. Είναι αλλόκοτο. Ο τρόπος που κινούνται τα χείλη του δεν είναι σωστός. Για μια στιγμή μοιάζει σαν να μασάει την ίδια του την παγωμένη γλώσσα.

Καλώς ήρθατε στον ανησυχητικό κόσμο των ταινιών τεχνητής νοημοσύνης. “Φτάσαμε σε ένα σημείο όπου σταματήσαμε να πολεμάμε την επιθυμία για φωτογραφική ακρίβεια και αρχίσαμε να γέρνουμε προς την παραδοξότητα του DALL-E”, λέει ο Stephen Parker από την Waymark, την εταιρεία δημιουργίας βίντεο με έδρα το Ντιτρόιτ που βρίσκεται πίσω από το The Frost.

Το The Frost είναι μια 12λεπτη ταινία στην οποία κάθε πλάνο δημιουργείται από μια τεχνητή νοημοσύνη που δημιουργεί εικόνες. Είναι ένα από τα πιο εντυπωσιακά -και παράξενα- παραδείγματα αυτού του παράξενου νέου είδους. Μπορείτε να παρακολουθήσετε την ταινία παρακάτω σε μια αποκλειστική αποκάλυψη από το MIT Technology Review.

Για την παραγωγή του The Frost, η Waymark πήρε ένα σενάριο που έγραψε ο Josh Rubin, ένας εκτελεστικός παραγωγός της εταιρείας που σκηνοθέτησε την ταινία, και το τροφοδότησε με το μοντέλο παραγωγής εικόνων DALL-E 2 της OpenAI. Μετά από κάποιες δοκιμές και λάθη για να κάνουν το μοντέλο να παράγει εικόνες σε ένα στυλ με το οποίο ήταν ευχαριστημένοι, οι κινηματογραφιστές χρησιμοποίησαν το DALL-E 2 για να δημιουργήσουν κάθε πλάνο. Στη συνέχεια χρησιμοποίησαν το D-ID, ένα εργαλείο τεχνητής νοημοσύνης που μπορεί να προσθέσει κίνηση σε ακίνητες εικόνες, για να ζωντανέψουν αυτά τα πλάνα, κάνοντας τα μάτια να ανοιγοκλείνουν τα μάτια και τα χείλη να κινούνται.

“Φτιάξαμε έναν κόσμο από αυτό που μας έδινε πίσω το DALL-E”, λέει ο Rubin. “Είναι μια παράξενη αισθητική, αλλά την υποδεχτήκαμε με ανοιχτές αγκάλες. Έγινε η εμφάνιση της ταινίας”.

“Αυτή είναι σίγουρα η πρώτη γεννητική ταινία τεχνητής νοημοσύνης που έχω δει όπου το ύφος μοιάζει συνεπές”, λέει ο Souki Mehdaoui, ανεξάρτητος κινηματογραφιστής και συνιδρυτής της Bell & Whistle, μιας εταιρείας συμβούλων που ειδικεύεται στις δημιουργικές τεχνολογίες. “Η παραγωγή ακίνητων εικόνων και η μαριονέτα τους δίνει μια διασκεδαστική ατμόσφαιρα κολάζ”.

Το The Frost έρχεται να προστεθεί σε μια σειρά ταινιών μικρού μήκους που έχουν γυριστεί με τη χρήση διαφόρων εργαλείων δημιουργικής τεχνητής νοημοσύνης και έχουν κυκλοφορήσει τους τελευταίους μήνες. Τα καλύτερα μοντέλα γεννητικών βίντεο μπορούν ακόμα να παράγουν μόνο μερικά δευτερόλεπτα βίντεο. Έτσι, η τρέχουσα συγκομιδή ταινιών παρουσιάζει ένα ευρύ φάσμα στυλ και τεχνικών, που κυμαίνονται από αλληλουχίες ακίνητων εικόνων που μοιάζουν με storyboard, όπως στο The Frost, μέχρι mash-ups πολλών διαφορετικών βίντεο κλιπ διάρκειας δευτερολέπτων.

Τον Φεβρουάριο και τον Μάρτιο, η Runway, μια εταιρεία που κατασκευάζει εργαλεία τεχνητής νοημοσύνης για την παραγωγή βίντεο, φιλοξένησε ένα φεστιβάλ ταινιών τεχνητής νοημοσύνης στη Νέα Υόρκη. Στα σημαντικότερα σημεία περιλαμβάνονται το απόκοσμο PLSTC του Laen Sanches, μια ιλιγγιώδης ακολουθία από παράξενα, πλαστικά τυλιγμένα θαλάσσια πλάσματα που παράγονται από το μοντέλο δημιουργίας εικόνων Midjourney- το ονειρικό Given Again του Jake Oleson, το οποίο χρησιμοποιεί μια τεχνολογία που ονομάζεται NeRF (neural radiance fields) και μετατρέπει 2D φωτογραφίες σε 3D εικονικά αντικείμενα, και η σουρεαλιστική νοσταλγία του Expanded Childhood του Sam Lawton, ένα slideshow με παλιές οικογενειακές φωτογραφίες του Lawton που έβαλε το DALL-E 2 να επεκτείνει πέρα από τα όριά τους, αφήνοντάς τον να παίξει με τις μισο-μνημονευμένες λεπτομέρειες των παλιών εικόνων.

Ο Lawton έδειξε τις εικόνες στον πατέρα του και καταγράφει την αντίδρασή του στην ταινία: “Κάτι δεν πάει καλά. Δεν ξέρω τι είναι αυτό. Μήπως απλά δεν το θυμάμαι;”

Γρήγορα και φτηνά
Οι καλλιτέχνες είναι συχνά οι πρώτοι που πειραματίζονται με τη νέα τεχνολογία. Αλλά το άμεσο μέλλον του γεννητικού βίντεο διαμορφώνεται από τη διαφημιστική βιομηχανία. Η Waymark δημιούργησε το The Frost για να διερευνήσει πώς θα μπορούσε να ενσωματωθεί η δημιουργική τεχνητή νοημοσύνη στα προϊόντα της. Η εταιρεία κατασκευάζει εργαλεία δημιουργίας βίντεο για επιχειρήσεις που αναζητούν έναν γρήγορο και φθηνό τρόπο για να κάνουν διαφημίσεις. Η Waymark είναι μία από τις πολλές νεοσύστατες επιχειρήσεις, μαζί με εταιρείες όπως η Softcube και η Vedia AI, που προσφέρουν διαφημίσεις βίντεο κατά παραγγελία για πελάτες με λίγα μόνο κλικ.

Η τρέχουσα τεχνολογία της Waymark, που ξεκίνησε στις αρχές του έτους, συνδυάζει διάφορες τεχνικές τεχνητής νοημοσύνης, συμπεριλαμβανομένων μεγάλων γλωσσικών μοντέλων, αναγνώρισης εικόνας και σύνθεσης ομιλίας, για να δημιουργήσει μια διαφήμιση βίντεο εν κινήσει. Η Waymark βασίστηκε επίσης στο μεγάλο σύνολο δεδομένων της με διαφημίσεις που δεν έχουν δημιουργηθεί με τεχνητή νοημοσύνη και έχουν δημιουργηθεί για προηγούμενους πελάτες. “Έχουμε εκατοντάδες χιλιάδες βίντεο”, λέει ο διευθύνων σύμβουλος Alex Persky-Stern. “Πήραμε τα καλύτερα από αυτά και το εκπαιδεύσαμε στο πώς μοιάζει ένα καλό βίντεο”.

Για να χρησιμοποιήσετε το εργαλείο της Waymark, το οποίο προσφέρει ως μέρος μιας κλιμακωτής συνδρομητικής υπηρεσίας που ξεκινά από 25 δολάρια το μήνα, οι χρήστες απλώς παρέχουν το όνομα και την τοποθεσία της επιχείρησης. Το εργαλείο ξεκινά με την αναζήτηση κειμένου και εικόνων από τους ιστότοπους και τους λογαριασμούς κοινωνικής δικτύωσης της επιχείρησης. Στη συνέχεια, χρησιμοποιεί αυτά τα δεδομένα για να δημιουργήσει ένα διαφημιστικό σποτ, χρησιμοποιώντας το GPT-3 της OpenAI για να γράψει ένα σενάριο που διαβάζεται δυνατά από μια συνθετική φωνή πάνω από επιλεγμένες εικόνες που αναδεικνύουν την επιχείρηση.

Ένα κομψό διαφημιστικό λεπτών μπορεί να δημιουργηθεί σε δευτερόλεπτα. Οι χρήστες μπορούν να επεξεργαστούν το αποτέλεσμα αν το επιθυμούν, βελτιώνοντας το σενάριο, επεξεργαζόμενοι εικόνες, επιλέγοντας διαφορετική φωνή κ.ο.κ. Η Waymark αναφέρει ότι περισσότεροι από 100.000 άνθρωποι έχουν χρησιμοποιήσει το εργαλείο της μέχρι στιγμής. (Μπορείτε να παρακολουθήσετε ένα από τα διαφημιστικά σποτ που δημιούργησε η τεχνητή νοημοσύνη της Waymark εδώ).

Το πρόβλημα είναι ότι δεν έχει κάθε επιχείρηση ιστοσελίδα ή εικόνες για να αντλήσει, λέει ο Parker. “Ένας λογιστής ή ένας θεραπευτής μπορεί να μην έχει καθόλου περιουσιακά στοιχεία”, λέει.

Η επόμενη ιδέα της Waymark είναι να χρησιμοποιήσει τη δημιουργική τεχνητή νοημοσύνη για να δημιουργήσει εικόνες και βίντεο για τις επιχειρήσεις που δεν έχουν ακόμα -ή δεν θέλουν να χρησιμοποιήσουν αυτά που έχουν. “Αυτή είναι η ώθηση πίσω από τη δημιουργία του The Frost”, λέει ο Parker. “Να δημιουργήσουμε έναν κόσμο, μια ατμόσφαιρα”.

Το Frost έχει μια ατμόσφαιρα, σίγουρα. Αλλά είναι επίσης χαλασμένο. “Δεν είναι ένα τέλειο μέσο ακόμα, σε καμία περίπτωση”, λέει ο Rubin. “Ήταν λίγο δύσκολο να πάρουμε ορισμένα πράγματα από το DALL-E, όπως οι συναισθηματικές αντιδράσεις στα πρόσωπα. Αλλά σε άλλες στιγμές, μας ενθουσίαζε. Λέγαμε: “Θεέ μου, αυτό είναι μαγεία που συμβαίνει μπροστά στα μάτια μας””.

Αυτή η διαδικασία θα βελτιωθεί καθώς η τεχνολογία θα βελτιώνεται. Το DALL-E 2, το οποίο χρησιμοποίησε η Waymark για να γυρίσει το The Frost, κυκλοφόρησε μόλις πριν από ένα χρόνο. Τα εργαλεία δημιουργίας βίντεο που δημιουργούν σύντομα κλιπ υπάρχουν μόλις εδώ και μερικούς μήνες.

Αξιοποίηση των πλεονεκτημάτων της
Είναι αυτή η αρχή μιας νέας εποχής στην κινηματογραφική παραγωγή; Τα σημερινά εργαλεία έχουν περιορισμένη παλέτα. Τόσο το “The Frost” όσο και το “Synthetic Summer” παίζουν με τα δυνατά σημεία της τεχνολογίας που τα δημιούργησε. Το “The Frost” ταιριάζει καλά στην ανατριχιαστική αισθητική του DALL-E 2. Το “Synthetic Summer” έχει πολλά γρήγορα κοψίματα, επειδή τα εργαλεία παραγωγής βίντεο όπως το Gen-2 παράγουν μόνο μερικά δευτερόλεπτα βίντεο κάθε φορά, τα οποία στη συνέχεια πρέπει να ενωθούν. Αυτό λειτουργεί για μια σκηνή πάρτι όπου όλα είναι χαοτικά, λέει ο Boyle. Το Private Island εξέτασε επίσης το ενδεχόμενο να γυρίσει μια ταινία πολεμικών τεχνών, όπου τα γρήγορα κοψίματα ταιριάζουν στο θέμα.

Αυτό μπορεί να σημαίνει ότι θα αρχίσουμε να βλέπουμε το generative video να χρησιμοποιείται σε μουσικά βίντεο και διαφημίσεις. Αλλά πέρα από αυτό, δεν είναι ξεκάθαρο. Εκτός από πειραματικούς καλλιτέχνες και μερικές μάρκες, δεν υπάρχουν πολλοί άλλοι άνθρωποι που το χρησιμοποιούν ακόμα, λέει ο Mehdaoui.

Η συνεχής κατάσταση μεταβολής είναι επίσης απωθητική για τους πιθανούς πελάτες. “Έχω μιλήσει με πολλές εταιρείες που φαίνονται να ενδιαφέρονται αλλά διστάζουν να βάλουν πόρους σε έργα επειδή η τεχνολογία αλλάζει τόσο γρήγορα”, λέει. Η Boyle λέει ότι πολλές εταιρείες είναι επίσης επιφυλακτικές λόγω των συνεχιζόμενων αγωγών σχετικά με τη χρήση εικόνων που προστατεύονται από πνευματικά δικαιώματα στα σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευση μοντέλων όπως το Stable Diffusion.

Κανείς δεν γνωρίζει με βεβαιότητα πού θα οδηγηθεί αυτό, λέει ο Mehdaoui: “Υπάρχουν πολλές υποθέσεις που εκτοξεύονται σαν βελάκια αυτή τη στιγμή, χωρίς να υπάρχουν πολλές αποχρώσεις πίσω από αυτές”.

Εν τω μεταξύ, οι κινηματογραφιστές συνεχίζουν να πειραματίζονται με αυτά τα νέα εργαλεία. Εμπνευσμένη από το έργο του Jake Olseon, ο οποίος είναι φίλος της, η Mehdaoui χρησιμοποιεί εργαλεία δημιουργικής τεχνητής νοημοσύνης για να γυρίσει ένα ντοκιμαντέρ μικρού μήκους που θα συμβάλει στον αποστιγματισμό της διαταραχής χρήσης οπιοειδών.

Η Waymark σχεδιάζει μια συνέχεια του The Frost, αλλά δεν έχει πωληθεί για το DALL-E 2. “Θα έλεγα ότι είναι περισσότερο κάτι σαν ‘watch this space'”, λέει η Persky-Stern. “Όταν κάνουμε το επόμενο, πιθανώς θα χρησιμοποιήσουμε κάποια νέα τεχνολογία και θα δούμε τι μπορεί να κάνει”.

Το Private Island πειραματίζεται και με άλλες ταινίες. Νωρίτερα φέτος δημιούργησε ένα βίντεο με σενάριο που παρήγαγε η ChatGPT και εικόνες που παρήγαγε η Stable Diffusion. Τώρα εργάζεται σε μια ταινία που είναι υβρίδιο, με καλλιτέχνες ζωντανής δράσης που φορούν κοστούμια σχεδιασμένα από τη Stable Diffusion.

“Μας αρέσει πολύ η αισθητική”, λέει ο Boyle, προσθέτοντας ότι είναι μια αλλαγή από την κυρίαρχη εικόνα στην ψηφιακή κουλτούρα, η οποία έχει περιοριστεί στα emoji και το glitch effect. “Είναι πολύ συναρπαστικό να δούμε από πού θα προέλθει η νέα αισθητική. Η δημιουργική τεχνητή νοημοσύνη είναι σαν ένας σπασμένος καθρέφτης μας”.