Το νέο AI της DeepMind μπορεί να εκτελέσει περισσότερες από 600 εργασίες, από παιχνίδια μέχρι έλεγχο ρομπότ – TechCrunch

Το απόλυτο επίτευγμα για ορισμένους στον κλάδο της τεχνητής νοημοσύνης είναι η δημιουργία ενός συστήματος με τεχνητή γενική νοημοσύνη (AGI) ή την ικανότητα κατανόησης και εκμάθησης οποιασδήποτε εργασίας μπορεί ένας άνθρωπος. Από καιρό υποβιβάζεται στον τομέα της επιστημονικής φαντασίας, έχει προταθεί ότι το AGI θα δημιουργούσε συστήματα με την ικανότητα να συλλογίζονται, να σχεδιάζουν, να μαθαίνουν, να αναπαριστούν τη γνώση και να επικοινωνούν σε φυσική γλώσσα.

Δεν είναι όλοι οι ειδικοί πεπεισμένοι ότι το AGI είναι ένας ρεαλιστικός στόχος – ή ακόμα και εφικτός. Αλλά θα μπορούσε να υποστηριχθεί ότι το DeepMind, το ερευνητικό εργαστήριο που υποστηρίζεται από την Alphabet, έκανε ένα βήμα προς αυτό αυτή την εβδομάδα με την κυκλοφορία ενός συστήματος AI που ονομάζεται Γάτα.

Το Gato είναι αυτό που περιγράφει η DeepMind ως σύστημα «γενικής χρήσης», ένα σύστημα που μπορεί να διδαχθεί να εκτελεί πολλούς διαφορετικούς τύπους εργασιών. Οι ερευνητές στο DeepMind εκπαίδευσαν τον Gato για να ολοκληρώσει το 604, για την ακρίβεια, συμπεριλαμβανομένου του να γράφει λεζάντες εικόνων, να συμμετέχει σε διάλογο, να στοιβάζει μπλοκ με έναν πραγματικό βραχίονα ρομπότ και να παίζει παιχνίδια Atari.

Ο Jack Hessel, ερευνητής στο Ινστιτούτο Allen για την τεχνητή νοημοσύνη, επισημαίνει ότι ένα ενιαίο σύστημα τεχνητής νοημοσύνης που μπορεί να λύσει πολλές εργασίες δεν είναι καινούργιο. Για παράδειγμα, η Google άρχισε πρόσφατα να χρησιμοποιεί ένα σύστημα στην Αναζήτηση Google που ονομάζεται ενοποιημένο μοντέλο πολλαπλών εργασιών ή ΜΑΜΑ, το οποίο μπορεί να χειριστεί κείμενο, εικόνες και βίντεο για την εκτέλεση εργασιών, από την εύρεση διαγλωσσικών παραλλαγών στην ορθογραφία μιας λέξης έως τη συσχέτιση ενός ερωτήματος αναζήτησης με μια εικόνα. Αλλά τί είναι Εν δυνάμει νεότερο, εδώ, λέει ο Hessel, είναι η ποικιλομορφία των εργασιών που αντιμετωπίζονται και η μέθοδος εκπαίδευσης.

Η αρχιτεκτονική Gato του DeepMind. Συντελεστές εικόνας: DeepMind

«Έχουμε δει στοιχεία στο παρελθόν ότι τα μεμονωμένα μοντέλα μπορούν να χειριστούν εκπληκτικά διαφορετικά σύνολα εισροών», είπε ο Hessel στο TechCrunch μέσω email. «Κατά την άποψή μου, το βασικό ερώτημα όταν πρόκειται για εκμάθηση πολλαπλών εργασιών… είναι αν οι εργασίες αλληλοσυμπληρώνονται ή όχι. Θα μπορούσατε να οραματιστείτε μια πιο βαρετή περίπτωση εάν το μοντέλο διαχωρίζει σιωπηρά τις εργασίες πριν τις λύσει, π.χ. “Εάν εντοπίσω την εργασία Α ως είσοδο, θα χρησιμοποιήσω το υποδίκτυο Α. Αν αντ’ αυτού εντοπίσω την εργασία Β, θα χρησιμοποιήσω διαφορετικό υποδίκτυο Β. ‘ Για αυτήν την μηδενική υπόθεση, παρόμοια απόδοση θα μπορούσε να επιτευχθεί με την εκπαίδευση των Α και Β χωριστά, κάτι που είναι ανυπόφορο. Αντίθετα, εάν η προπόνηση Α και Β από κοινού οδηγεί σε βελτιώσεις και για το ένα (ή και για τα δύο!), τότε τα πράγματα είναι πιο συναρπαστικά.»

Όπως όλα τα συστήματα τεχνητής νοημοσύνης, ο Gato έμαθε με το παράδειγμα, λαμβάνοντας δισεκατομμύρια λέξεις, εικόνες από περιβάλλοντα πραγματικού κόσμου και προσομοίωσης, πατήματα κουμπιών, ροπές αρθρώσεων και πολλά άλλα με τη μορφή κουπόνι. Αυτά τα διακριτικά χρησίμευαν για να αναπαραστήσουν δεδομένα με τρόπο που ο Gato μπορούσε να καταλάβει, επιτρέποντας στο σύστημα – για παράδειγμα – να ξεκαθαρίσει τη μηχανική του Breakout ή ποιος συνδυασμός λέξεων σε μια πρόταση μπορεί να έχει γραμματικό νόημα.

Ο Γκάτο δεν κάνει απαραίτητα αυτές τις εργασίες Καλά. Για παράδειγμα, όταν συνομιλείτε με ένα άτομο, το σύστημα απαντά συχνά με μια επιφανειακή ή λανθασμένη απάντηση (π.χ. «Μασσαλία» ως απάντηση στο «Ποια είναι η πρωτεύουσα της Γαλλίας;»). Στις λεζάντες των εικόνων, ο Gato παρεξηγεί τους ανθρώπους. Και το σύστημα στοιβάζει σωστά μπλοκ χρησιμοποιώντας ένα ρομπότ πραγματικού κόσμου μόνο στο 60% του χρόνου.

Αλλά σε 450 από τις 604 προαναφερθείσες εργασίες, η DeepMind ισχυρίζεται ότι ο Gato αποδίδει καλύτερα από έναν ειδικό περισσότερο από τις μισές φορές.

«Αν έχετε το μυαλό ότι χρειαζόμαστε έναν στρατηγό [systems]που είναι πολλοί άνθρωποι στον τομέα της τεχνητής νοημοσύνης και της μηχανικής μάθησης, λοιπόν [Gato is] μεγάλη υπόθεση», είπε στο TechCrunch μέσω email ο Μάθιου Γκουζντιάλ, επίκουρος καθηγητής επιστήμης υπολογιστών στο Πανεπιστήμιο της Αλμπέρτα. «Νομίζω ότι οι άνθρωποι που λένε ότι είναι ένα σημαντικό βήμα προς το AGI το υπερθεματίζουν κάπως, καθώς δεν έχουμε ακόμα ανθρώπινη νοημοσύνη και πιθανόν να μην φτάσουμε εκεί σύντομα (κατά τη γνώμη μου). Προσωπικά είμαι περισσότερο στο στρατόπεδο πολλών μικρών μοντέλων [and systems] είναι πιο χρήσιμο, αλλά σίγουρα υπάρχουν πλεονεκτήματα σε αυτά τα γενικά μοντέλα όσον αφορά την απόδοσή τους σε εργασίες εκτός των δεδομένων εκπαίδευσής τους.

Περιέργως, από αρχιτεκτονική άποψη, το Gato δεν διαφέρει δραματικά από πολλά από τα συστήματα AI που παράγονται σήμερα. Μοιράζεται κοινά χαρακτηριστικά με το GPT-3 του OpenAI με την έννοια ότι είναι ένας “Transformer”. Χρονολογείται από το 2017, το Transformer έχει γίνει η αρχιτεκτονική της επιλογής για πολύπλοκες συλλογιστικές εργασίες, επιδεικνύοντας την ικανότητα να συνοψίζει έγγραφα, να δημιουργεί μουσική, να ταξινομεί αντικείμενα σε εικόνες και να αναλύει αλληλουχίες πρωτεϊνών.

DeepMind Gato

Οι διάφορες εργασίες που έμαθε να ολοκληρώνει ο Γκάτο. Συντελεστές εικόνας: DeepMind

Ίσως ακόμη πιο αξιοσημείωτο, το Gato είναι τάξεις μεγέθους μικρότερο από τα συστήματα απλής εργασίας, συμπεριλαμβανομένου του GPT-3, όσον αφορά τον αριθμό παραμέτρων. Οι παράμετροι είναι τα μέρη του συστήματος που μαθαίνονται από τα δεδομένα εκπαίδευσης και ουσιαστικά καθορίζουν την ικανότητα του συστήματος σε ένα πρόβλημα, όπως η δημιουργία κειμένου. Ο Gato έχει μόλις 1,2 δισεκατομμύρια, ενώ το GPT-3 έχει περισσότερα από 170 δισεκατομμύρια.

Οι ερευνητές του DeepMind κράτησαν τον Gato σκόπιμα μικρό, ώστε το σύστημα να μπορεί να ελέγχει έναν βραχίονα ρομπότ σε πραγματικό χρόνο. Αλλά υποθέτουν ότι – εάν κλιμακωθεί – ο Gato θα μπορούσε να αντιμετωπίσει οποιαδήποτε «εργασία, συμπεριφορά και ενσάρκωση ενδιαφέροντος».

Υποθέτοντας ότι αυτό αποδεικνύεται έτσι, θα πρέπει να ξεπεραστούν πολλά άλλα εμπόδια για να γίνει ο Gato ανώτερος σε συγκεκριμένες εργασίες από τα υπερσύγχρονα συστήματα μιας εργασίας, όπως η αδυναμία του Gato να μαθαίνει συνεχώς. Όπως τα περισσότερα συστήματα που βασίζονται σε Transformer, η γνώση του Gato για τον κόσμο βασίζεται σε δεδομένα εκπαίδευσης και παραμένει στατική. Εάν κάνετε στον Gato μια ερώτηση ευαίσθητη στις ημερομηνίες, όπως ο σημερινός πρόεδρος των ΗΠΑ, το πιθανότερο είναι ότι θα απαντηθεί λανθασμένα.

Το Transformer – και το Gato, κατ’ επέκταση – έχει έναν άλλο περιορισμό στο παράθυρο του περιβάλλοντος του, ή τον όγκο των πληροφοριών που μπορεί να «θυμάται» το σύστημα στο πλαίσιο μιας δεδομένης εργασίας. Ακόμη και τα καλύτερα μοντέλα γλώσσας που βασίζονται σε Transformer δεν μπορούν να γράψουν μια εκτενή έκθεση, πολύ περισσότερο ένα βιβλίο, χωρίς να παραλείψουν να θυμηθούν βασικές λεπτομέρειες και έτσι να χάσουν τα ίχνη της πλοκής. Η λήθη συμβαίνει σε κάθε εργασία, είτε γράφοντας είτε ελέγχετε ένα ρομπότ, γι’ αυτό και ορισμένοι ειδικοί το έχουν που ονομάζεται είναι η «αχίλλειος πτέρνα» της μηχανικής μάθησης.

Για αυτούς τους λόγους και άλλους, ο Mike Cook, μέλος της ερευνητικής ομάδας Knives & Paintbrushes, προειδοποιεί να μην υποθέσουμε ότι το Gato είναι ένας δρόμος για πραγματικά τεχνητή νοημοσύνη γενικού σκοπού.

«Πιστεύω ότι το αποτέλεσμα μπορεί να παρερμηνευτεί, κάπως. Ακούγεται συναρπαστικό το γεγονός ότι η τεχνητή νοημοσύνη είναι σε θέση να κάνει όλες αυτές τις εργασίες που ακούγονται πολύ διαφορετικές, γιατί για εμάς ακούγεται ότι η σύνταξη κειμένου είναι πολύ διαφορετική από τον έλεγχο ενός ρομπότ. Αλλά στην πραγματικότητα αυτό δεν είναι πολύ διαφορετικό από το GPT-3 που κατανοεί τη διαφορά μεταξύ συνηθισμένου αγγλικού κειμένου και κώδικα Python», είπε ο Cook στο TechCrunch μέσω email. «Η Gato λαμβάνει συγκεκριμένα δεδομένα εκπαίδευσης σχετικά με αυτές τις εργασίες, όπως και κάθε άλλη τεχνητή νοημοσύνη του τύπου της, και μαθαίνει πώς τα μοτίβα στα δεδομένα σχετίζονται με άλλα, συμπεριλαμβανομένης της εκμάθησης να συσχετίζει ορισμένα είδη εισροών με συγκεκριμένα είδη εξόδων. Αυτό δεν σημαίνει ότι είναι εύκολο, αλλά για τον εξωτερικό παρατηρητή αυτός ο δυνατός ήχος ότι η τεχνητή νοημοσύνη μπορεί επίσης να φτιάξει ένα φλιτζάνι τσάι ή να μάθει εύκολα άλλες δέκα ή πενήντα άλλες εργασίες, και δεν μπορεί να το κάνει αυτό. Γνωρίζουμε ότι οι τρέχουσες προσεγγίσεις για μοντελοποίηση μεγάλης κλίμακας μπορούν να το αφήσουν να μάθει πολλές εργασίες ταυτόχρονα. Νομίζω ότι είναι μια ωραία δουλειά, αλλά δεν με φαίνεται σαν βασικό σκαλοπάτι στο μονοπάτι προς οτιδήποτε.”

Leave a Comment