Αλγόριθμος που αναγνωρίζει αστείες εικόνες

9.1.16

Αλγόριθμος που αναγνωρίζει αστείες εικόνες

Ερευνητική ομάδα του Virginia Tech, με επικεφαλής τον Arjun Chandrasekaran, δημιούργησε αλγόριθμο ο οποίος μπορεί να αναγνωρίζει ή ακόμα και να δημιουργεί αστείες εικόνες. Ο υπολογιστής που χρησιμοποιεί τον αλγόριθμο, σύμφωνα με τους ερευνητές, μπορεί να ξεχωρίσει μια αστεία εικόνα από μια άλλη που δεν είναι αν και δεν έχει γνώση του κοινωνικού υποβάθρου που σχετίζεται με αυτήν ή του τι αυτή απεικονίζει.

Οι ψυχολόγοι έχουν σχετικά μικρή κατανόηση των μηχανισμών πίσω από το χιούμορ. Οι περισσότερες θεωρίες υποστηρίζουν ότι συστατικά στοιχεία του χιούμορ είναι το απρόοπτο, η ασυναρτησία, ο πόνος κοκ. Όταν ένα από αυτά τα στοιχεία ή όλα βρίσκονται σε μια εικόνα, πρόταση ή βίντεο τότε υπάρχει πιθανότητα να προκληθεί γέλιο.

Η ομάδα του Chandrasekaran επικεντρώθηκε στην έρευνα των εικόνων τις οποίες δημιούργησαν με ένα clip art πρόγραμμα. Οι είκοσι εικόνες που σχεδίασαν απεικόνιζαν απλές ανθρώπινες φιγούρες διαφόρων ηλικιών, φύλου και φυλής με ευδιάκριτα άκρα και με οκτώ διαφορετικές εκφράσεις. Επίσης, περιείχαν τριάντα ένα ζώα και εκατό περίπου άλλα αντικείμενα (πόρτες, παράθυρα, τραπέζια, σύννεφα, δέντρα κτλ).

Σημαντικό στην διαδικασία εκμάθησης μηχανής είναι να υπάρχει μια βάση δεδομένων η οποία να περιέχει παραδείγματα από αυτά που πρέπει να «μάθει» ο αλγόριθμος. Αυτό, από μόνο του είναι ιδιαίτερα περίπλοκο, ειδικά όταν πρόκειται για κάτι το υποκειμενικό όπως είναι το χιούμορ.

Η ομάδα το αντιμετώπισε αυτό, ζητώντας από τους εργαζόμενους της υπηρεσίας της Amazon, Mechanical Turk, να δημιουργήσουν αστείες εικόνες με τη χρήση του προγράμματος clip art, μαζί με μια σύντομη φράση που να περιγράφει γιατί νομίζουν ότι οι εικόνες είναι αστείες. Ζήτησαν επίσης από τους turkers, να δημιουργήσουν και μη αστείες εικόνες.

Με αυτόν τον τρόπο, η ομάδα συγκέντρωσε μια βάση δεδομένων από 6.400 εικόνες, οι μισές εκ των οποίων ήταν αστείες και οι άλλες μισές όχι. Η βαθμονόμηση της βάσης δεδομένων έγινε ζητώντας από άλλους turkers να βαθμολογήσουν την κωμικότητα της κάθε εικόνας. Μετά από περαιτέρω ανάλυση, αποδείχθηκε ότι οι σκηνές που ήταν οι πιο αστείες συνδέονταν συνήθως με ζώα ή ανθρώπους που κάνουν κάτι ασυνήθιστο.

Το γεγονός αυτό ώθησε την ομάδα να σκεφτεί τρόπους να μεταβάλει την κωμικότητα μιας εικόνας. Ένας τρόπος για να γίνει αυτό είναι η αντικατάσταση ενός αντικειμένου ή προσώπου που κάνει κάτι ασυνήθιστο από ένα διαφορετικό αντικείμενο ή πρόσωπο. Έτσι, ζήτησαν από τους turkers να αντικαταστήσουν κάποια αντικείμενα με άλλα αντικείμενα τα οποία ήταν όσο το δυνατόν παρόμοια με τα πρώτα αντικείμενα, αλλά έκαναν την εικόνα μη αστεία. «Αυτό μας βοήθησε να καταλάβουμε του πως μπορεί μια συγκεκριμένη κατηγορία αντικειμένων να συμβάλει στην διαδικασία δημιουργίας χιούμορ» όπως είπαν.

Με τον τρόπο αυτό, άλλαξαν κάθε μία από τις 3.000 αστείες φωτογραφίες με πέντε διαφορετικούς τρόπους και δημιούργησαν μια νέα βάση δεδομένων από 15.000 μη αστείες εικόνες.

Με αυτή τη βάση δεδομένων, ο Chandrasekaran και οι συνεργάτες του ξεκίνησαν το έργο της δημιουργίας ενός αλγορίθμου εκμάθησης μηχανής για τον εντοπισμό της διαφοράς μεταξύ μιας αστείας εικόνας και μιας μη αστείας (κρατώντας το 20% της βάσης δεδομένων για να την δοκιμάσουν αργότερα).

Έδωσαν στον υπολογιστή δύο καθήκοντα. Το πρώτο ήταν να προβλέψει την κωμικότητα μίας εικόνας και το δεύτερο ήταν να την τροποποιήσει με την αντικατάσταση ενός αντικειμένου μέσα σε αυτή.

Σε γενικές γραμμές, ο αλγόριθμος εκτέλεσε αρκετά καλά την πρόβλεψη της κωμικότητας της εικόνας, σίγουρα καλύτερα από το αν το έκανε τυχαία.

Το έργο της μεταβολής της κωμικότητας της εικόνας αποτελείτο από δύο μέρη. Το πρώτο ήταν να αναγνωρίσει τα στοιχεία της σκηνής που συμβάλλουν στο χιούμορ και το δεύτερο ήταν να επιλέξει ένα αντικείμενο προς αντικατάσταση έτσι ώστε να μειώσει την κωμικότητα.

Στο πρώτο έργο, ο αλγόριθμος κάνει μια ενδιαφέρουσα πρόοδο. «Παρατηρήσαμε ότι το μοντέλο έμαθε ότι, σε γενικές γραμμές, έμψυχα αντικείμενα όπως οι άνθρωποι και τα ζώα είναι πιο πιθανές πηγές χιούμορ σε σύγκριση με άψυχα αντικείμενα και, επομένως, τείνει να αντικαθιστά αυτά τα αντικείμενα», λένε οι ερευνητές.

Ο αλγόριθμος έκανε πρόοδο και στο δεύτερο έργο επίσης. «Εξαλείφει το χιούμορ στις περισσότερες σκηνές με το να αντικαθιστά τα αντικείμενα που συμβάλλουν στο χιούμορ με άλλα αντικείμενα που «δένουν» στο παρασκήνιο καλά», λέει η ομάδα. Για παράδειγμα, ο αλγόριθμος μπορεί να αντικαταστήσει το ασυνήθιστο αντικείμενο σε μια εσωτερική σκηνή με ένα φυτό που ταιριάζει καλά ή με μια πεταλούδα στις εξωτερικές σκηνές.

Και η τεχνική λειτουργεί καλά. Σε αξιολογήσεις από ανθρώπους, οι εικόνες που έγιναν μη αστείες από τον αλγόριθμο βρέθηκαν να είναι λιγότερο αστείες από την αρχική αστεία εικόνα κατά 95%.

Ο υπολογιστής δεν τα πήγε τόσο καλά στην μετατροπή της εικόνας σε περισσότερο αστεία, αλλά αυτό είναι σαφώς κάτι για βελτίωση σε μελλοντική έρευνα.

Φυσικά, ένα σημαντικό ερώτημα είναι το τι ακριβώς ο υπολογιστής μαθαίνει να κάνει. Σε αυτή την έρευνα, η κωμικότητα μπορεί να είναι μια ένδειξη για κάτι εντελώς διαφορετικό. Πράγματι, αν η ομάδα αντικαθιστούσε την λέξη «κωμικότητα» με την λέξη «σπανιότητα» ή «ασυναρτησία» ή «απροσδόκητο», τα αποτελέσματα δεν θα ήταν λιγότερο έγκυρα.

Πέρα από αυτό, η ομάδα έχει μια ενδιαφέρουσα προσέγγιση που θα μπορούσε να οδηγήσει σε κάποιες συναρπαστικές εφαρμογές. Η ικανότητα να κρίνεται το χιούμορ σε μια εικόνα θα μπορούσε να βοηθήσει τους ερευνητές να αναπτύξουν καλύτερα εργαλεία επεξεργασίας φωτογραφιών, εργαλεία που να επιλέγουν αστείες εικόνες για δημοσίευση στα social media ή ακόμα και έξυπνες κάμερες που να μπορούν να επιλέγουν τις καλύτερες στιγμές για την δημιουργία χιουμοριστικών φωτογραφιών.

Αναφύεται ένα νέο πεδίο, αυτό της υπολογιστικής του χιούμορ, με την χρησιμοποίηση της νοημοσύνης των μηχανών για να μας κάνουν να γελάμε. Ίσως μια μέρα, μηχανές να μπορούν και να λένε αστεία ή ανέκδοτα.

Η έρευνα εδώ.