Στο τελευταίο Συνέδριο AI, είχαμε την ευκαιρία να καθίσουμε με τους Roman Shaposhnik και Tanya Dadasheva, τους συνιδρυτές του Ainekko/AIFoundry, και να συζητήσουμε μαζί τους ένα διφορούμενο θέμα αξίας δεδομένων για τις επιχειρήσεις στην εποχή της τεχνητής νοημοσύνης. Ένα από τα βασικά ερωτήματα από τα οποία ξεκινήσαμε ήταν: οι περισσότερες εταιρείες χρησιμοποιούν τα ίδια μοντέλα τεχνητής νοημοσύνης, η ενσωμάτωση των δεδομένων τους είναι ο μόνος τρόπος για να έχουν την ευκαιρία να διαφοροποιηθούν; Είναι πραγματικά τα δεδομένα μια τάφρο για τις επιχειρήσεις;
Ο Ρομάν θυμάται:Το 2009, όταν ξεκίνησε στην κοινότητα των μεγάλων δεδομένων, όλοι μιλούσαν για το πώς θα μεταμορφώνονταν οι επιχειρήσεις αξιοποιώντας δεδομένα. Εκείνη την εποχή, δεν ήταν καν ψηφιακές επιχειρήσεις. ο ψηφιακός μετασχηματισμός δεν είχε συμβεί ακόμα. Αυτές ήταν ως επί το πλείστον αναλογικές επιχειρήσεις, αλλά ήδη έδιναν έμφαση στην αξία των δεδομένων που συνέλεγαν—δεδομένα για τους πελάτες, τις συναλλαγές, τις αλυσίδες εφοδιασμού και πολλά άλλα. Οι άνθρωποι παρομοίασαν τα δεδομένα με το πετρέλαιο, κάτι με εγγενή αξία που έπρεπε να εξαχθεί για να αξιοποιηθούν οι πραγματικές δυνατότητές του.»
Ωστόσο, το πετρέλαιο είναι ένα εμπόρευμα. Έτσι, αν συγκρίνουμε τα δεδομένα με το πετρέλαιο, υποδηλώνει ότι όλοι έχουν πρόσβαση στα ίδια δεδομένα, αν και σε διαφορετικές ποσότητες και πιο εύκολο στη συγκομιδή για κάποιους. Αυτή η σύγκριση κάνει τα δεδομένα να αισθάνονται σαν εμπόρευμα, διαθέσιμα σε όλους, αλλά υποβάλλονται σε επεξεργασία με διαφορετικούς τρόπους.
Όταν τα δεδομένα βρίσκονται σε μια αποθήκη δεδομένων επιχείρησης στην ακατέργαστη μορφή τους, είναι σαν μια άμορφη σταγόνα — ένα εμπόρευμα που έχουν όλοι. Ωστόσο, μόλις αρχίσετε να το τελειοποιείτε, τότε εμφανίζεται η πραγματική αξία. Δεν είναι μόνο η απόκτηση δεδομένων αλλά η οικοδόμηση μιας διαδικασίας από την εξαγωγή έως τον καθαρισμό όλης της αξίας μέσω του αγωγού.
“Είναι ενδιαφέρον ότι αυτό μου θυμίζει κάτι που μου είπε κάποτε ένα στέλεχος πετρελαϊκών εταιρειών” – μοιράζεται ο Roman. “Αυτό το στέλεχος περιέγραψε την επιχείρηση όχι ως εξόρυξη πετρελαίου αλλά ως αναδιαμόρφωση μορίων άνθρακα. Το πετρέλαιο, για αυτούς, ήταν απλώς μια πηγή άνθρακα. Είχαν κατασκευάσει αλυσίδες εφοδιασμού ικανές να αναδιαμορφώσουν αυτά τα μόρια άνθρακα σε προϊόντα προσαρμοσμένα στις απαιτήσεις της αγοράς σε διαφορετικές τοποθεσίες—πλαστικά, βενζίνη, όποια κι αν ήταν η ανάγκη. Οραματίστηκε διυλιστήρια καθορισμένα από λογισμικό που θα μπορούσαν να προσαρμόσουν τα αποτελέσματα με βάση τις ανάγκες της αγοράς σε πραγματικό χρόνο. Αυτή η ιδέα μου τράβηξε το μυαλό και νομίζω ότι είναι παράλληλη με ό,τι βλέπουμε στα δεδομένα τώρα – φέρνοντας τον υπολογισμό σε δεδομένα, βελτιώνοντάς τα για να λάβετε αυτό που χρειάζεστε, όπου το χρειάζεστε” – ήταν η διορατικότητα του Roman.
Στις επιχειρήσεις, όταν ξεκινάτε να συλλέγετε δεδομένα, συνειδητοποιείτε ότι είναι κατακερματισμένα και σε πολλά σημεία—μερικές φορές κολλάνε σε mainframes ή διάσπαρτα σε συστήματα όπως το Salesforce. Ακόμα κι αν καταφέρετε να το συλλέξετε, υπάρχουν τόσα πολλά σιλό και χρειαζόμαστε μια προσέγγιση σαν fracking για να εξαγάγουμε τα πολύτιμα εξαρτήματα. Ακριβώς όπως το fracking εξάγει λάδι από μέρη που προηγουμένως δεν ήταν προσβάσιμα, χρειαζόμαστε μεθόδους για τη λήψη εταιρικών δεδομένων που διαφορετικά θα είναι κλειδωμένα.
Πολλά εταιρικά δεδομένα εξακολουθούν να βρίσκονται σε mainframes και η απομάκρυνσή τους είναι πρόκληση. Εδώ είναι ένα διασκεδαστικό γεγονός: με μεγάλη πιθανότητα, αν κάνετε κράτηση για πτήση σήμερα, το backend εξακολουθεί να εμφανίζεται σε κεντρικό υπολογιστή. Δεν είναι μόνο η εξαγωγή αυτών των δεδομένων μία φορά. χρειάζεστε συνεχή πρόσβαση σε αυτό. Πολλές εταιρείες δημιουργούν μια επιχείρηση βοηθώντας τις επιχειρήσεις να αποκτήσουν δεδομένα από παλιά συστήματα και εργαλεία όπως το Apache Airflow συμβάλλουν στον εξορθολογισμό αυτών των διαδικασιών.
Αλλά ακόμα κι αν τα δεδομένα δεν είναι πλέον κολλημένα σε mainframes, εξακολουθούν να είναι κατακερματισμένα σε συστήματα όπως υπηρεσίες cloud SaaS ή λίμνες δεδομένων. Αυτό σημαίνει ότι οι επιχειρήσεις δεν έχουν όλα τα δεδομένα τους σε ένα μέρος και σίγουρα δεν είναι τόσο προσβάσιμα ή έγκαιρα όσο χρειάζονται. Ίσως πιστεύετε ότι το να ξεκινήσετε από το μηδέν θα σας έδινε ένα πλεονέκτημα, αλλά ακόμη και νεότερα συστήματα εξαρτώνται από πολλούς συνεργάτες και αυτοί οι συνεργάτες ελέγχουν μέρη των δεδομένων που χρειάζεστε.
Η όλη έννοια των δεδομένων ως τάφρου αποδεικνύεται παραπλανητική τότε. Εννοιολογικά, οι επιχειρήσεις κατέχουν τα δεδομένα τους, αλλά συχνά δεν έχουν πραγματική πρόσβαση. Για παράδειγμα, μια επιχείρηση που χρησιμοποιεί το Salesforce κατέχει τα δεδομένα, αλλά ο πραγματικός έλεγχος και η πρόσβαση σε αυτά τα δεδομένα περιορίζονται από το Salesforce. Η διάκριση μεταξύ κατοχής και κατοχής δεδομένων είναι σημαντική.
“Τα πράγματα γίνονται ακόμη πιο περίπλοκα όταν το AI αρχίζει να εμπλέκεται” – λέει η Tanya Dadasheva, μια άλλη συνιδρυτής του Ainekko και του AIFoundry.org. “Μια επιχείρηση μπορεί να κατέχει δεδομένα, αλλά αυτό δεν σημαίνει απαραίτητα ότι μια εταιρεία όπως η Salesforce μπορεί να τα χρησιμοποιήσει για την εκπαίδευση μοντέλων. Υπάρχει επίσης η συζήτηση σχετικά με το εάν τα ανώνυμα δεδομένα μπορούν να χρησιμοποιηθούν για εκπαίδευση — νομικά, είναι μια γκρίζα περιοχή. Γενικά, όσο περισσότερα δεδομένα είναι ανώνυμα, τόσο λιγότερη αξία έχουν. Κάποια στιγμή, η λήψη ρητής άδειας γίνεται ο μόνος δρόμος προς τα εμπρός“.
Αυτό το ζήτημα ιδιοκτησίας εκτείνεται πέρα από τις επιχειρήσεις. επηρεάζει επίσης τους τελικούς χρήστες. Οι χρήστες συχνά συμφωνούν να μοιράζονται δεδομένα, αλλά ενδέχεται να μην συμφωνούν να χρησιμοποιηθούν για μοντέλα εκπαίδευσης. Υπήρξαν περιπτώσεις αντίστροφης μηχανικής δεδομένων από μοντέλα, που οδήγησαν σε πιθανές παραβιάσεις του απορρήτου.
Σε ένα πρώιμο στάδιο της εξισορρόπησης των παραγωγών δεδομένων, των καταναλωτών δεδομένων και των οντοτήτων που βελτιώνουν τα δεδομένα, νομικά και τεχνολογικά είναι εξαιρετικά περίπλοκο να καταλάβουμε πώς θα λειτουργήσουν αυτές οι σχέσεις. Η Ευρώπη, για παράδειγμα, έχει πολύ αυστηρότερους κανόνες απορρήτου σε σύγκριση με τις Ηνωμένες Πολιτείες (https://artificialintelligenceact.eu/). Στις ΗΠΑ, το νομικό σύστημα συχνά ξεκαθαρίζει τα πράγματα εν κινήσει, ενώ η Ευρώπη προτιμά να θεσπίζει νόμους εκ των προτέρων.
Η Τάνια αναφέρεται στη διαθεσιμότητα δεδομένων εδώ:Όλα αυτά συνδέονται με την αξία των διαθέσιμων δεδομένων. Τα τεράστια γλωσσικά μοντέλα που έχουμε δημιουργήσει έχουν γίνει εντυπωσιακά χάρη στα δημόσια και ημιδημόσια δεδομένα. Ωστόσο, μεγάλο μέρος του νεότερου περιεχομένου είναι πλέον παγιδευμένο σε «περιτοιχισμένους κήπους» όπως το WeChat, το Telegram ή το Discord, όπου δεν είναι προσβάσιμο για εκπαίδευση – πραγματικός σκοτεινός ιστός! Αυτό σημαίνει ότι τα μοντέλα μπορεί να είναι ξεπερασμένα, να μην μπορούν να μάθουν από νέα δεδομένα ή να κατανοήσουν τις νέες τάσεις.
Στο τέλος, κινδυνεύουμε να δημιουργήσουμε μοντέλα που έχουν κολλήσει στο παρελθόν, χωρίς τρόπο να απορροφήσουμε νέες πληροφορίες ή να προσαρμοστούμε σε νέα στυλ συνομιλίας. Θα εξακολουθούν να περιέχουν παλαιότερα δεδομένα και η συμπεριφορά και η κουλτούρα της νεότερης γενιάς δεν θα αντιπροσωπεύονται. Θα είναι σαν να μιλάς με έναν παππού και γιαγιά—ενδιαφέρον, αλλά σίγουρα από άλλη εποχή.”
Ποιοι είναι όμως οι εσωτερικοί χρήστες των δεδομένων σε μια επιχείρηση; Ο Roman υπενθυμίζει τις τρεις εποχές της έννοιας της χρήσης δεδομένων εντός των επιχειρήσεων:Προφανώς, χρησιμοποιείται για πολλές αποφάσεις, γι’ αυτό και υπάρχει όλο το κομμάτι της επιχειρηματικής ευφυΐας. Στην πραγματικότητα όλα ξεκίνησαν με την επιχειρηματική ευφυΐα. Οι εταιρείες έπρεπε να κάνουν προβλέψεις και να υποδείξουν στα χρηματιστήρια τι αναμένουν να συμβεί το επόμενο τρίμηνο ή μερικά τρίμηνα μπροστά. Πολλές από αυτές τις αποφάσεις βασίζονται σε δεδομένα για μεγάλο χρονικό διάστημα. Αυτό είναι το πρώτο επίπεδο χρήσης δεδομένων—πολύ απλό και επιχειρηματικό.
Το δεύτερο επίπεδο ξεκίνησε με την έννοια των ψηφιακά καθορισμένων επιχειρήσεων ή του ψηφιακού μετασχηματισμού. Οι εταιρείες συνειδητοποίησαν ότι ο τρόπος με τον οποίο αλληλεπιδρούν με τους πελάτες τους είναι αυτό που είναι πολύτιμο, όχι απαραίτητα το πραγματικό προϊόν που πωλούν αυτή τη στιγμή. Η σχέση με τον πελάτη είναι η αξία από μόνη της. Ήθελαν αυτή η σχέση να διαρκέσει όσο το δυνατόν περισσότερο, μερικές φορές στο άκρο να σας κρατούν κολλημένους στην οθόνη για όσο το δυνατόν περισσότερο. Έχει να κάνει με τη διαμόρφωση της συμπεριφοράς του καταναλωτή και να τον κάνει να κάνει ορισμένα πράγματα. Αυτό μπορεί να γίνει μόνο με την ανάλυση πολλών διαφορετικών πραγμάτων για εσάς—την κοινωνική και οικονομική σας κατάσταση, την ταυτότητα φύλου σας και άλλα σημεία δεδομένων που τους επιτρέπουν να διατηρήσουν αυτή τη σχέση για όσο περισσότερο μπορούν.
Τώρα, ερχόμαστε στο τρίτο επίπεδο ή στο τρίτο στάδιο του τρόπου με τον οποίο οι επιχειρήσεις μπορούν να επωφεληθούν από τα προϊόντα δεδομένων. Όλοι μιλούν για αυτά τα συστήματα αντιπροσώπων επειδή οι επιχειρήσεις θέλουν πλέον να βοηθηθούν όχι μόνο από το ανθρώπινο δυναμικό. Αν και ακούγεται φουτουριστικό, είναι συχνά τόσο απλό όσο το να καταλάβεις πότε υποτίθεται ότι θα γίνει μια συνάντηση. Πάντα βρισκόμασταν σε καταστάσεις όπου χρειάζονται πέντε διαφορετικά email και τρεις κλήσεις για να καταλάβουμε πώς μπορούν να συναντηθούν δύο άτομα για μεσημεριανό γεύμα. Θα ήταν πολύ πιο εύκολο αν ένας ηλεκτρονικός πράκτορας μπορούσε να διαπραγματευτεί όλα αυτά για εμάς και να βοηθήσει σε αυτό. Αυτό είναι ένα απλό παράδειγμα, αλλά οι επιχειρήσεις έχουν πολλά άλλα. Τώρα πρόκειται για την εξωτερίκευση ορισμένων πλευρών της επιχείρησης σε αυτούς τους πράκτορες. Αυτό μπορεί να γίνει μόνο εάν μπορείτε να εκπαιδεύσετε έναν πράκτορα AI σε πολλούς τύπους μοτίβων που έχει χρησιμοποιήσει η επιχείρηση στο παρελθόν.»
Επιστροφή στο ποιος συλλέγει και ποιος κατέχει και, τελικά, επωφελείται από τα δεδομένα: η πρώτη ματιά αυτού του Ρωμαίου πήρε όταν εργαζόταν πίσω στην Pivotal σε μερικά έργα που αφορούσαν αεροπορικές εταιρείες και εταιρείες που κατασκευάζουν κινητήρες:
«Αυτό που δεν ήξερα εκείνη τη στιγμή είναι ότι προφανώς δεν αγοράζετε τον κινητήρα. μισθώνεις τον κινητήρα. Αυτό είναι το επιχειρηματικό μοντέλο. Και οι εταιρείες που παράγουν τους κινητήρες είχαν όλα αυτά τα δεδομένα — όλη την τηλεμετρία που χρειάζονταν για να βελτιστοποιήσουν τον κινητήρα. Αλλά τότε η αεροπορική εταιρεία είπε: «Περιμένετε ένα λεπτό. Αυτά είναι ακριβώς τα ίδια δεδομένα που χρειαζόμαστε για τη βελτιστοποίηση των δρομολογίων πτήσεων. Και είμαστε αυτοί που συλλέγουμε αυτά τα δεδομένα για εσάς, επειδή στην πραγματικότητα πετάμε το αεροπλάνο. Ο κινητήρας σας παραμένει στο έδαφος μέχρι να βρεθεί ένας πιλότος στο πιλοτήριο που θα πετάξει πραγματικά το αεροπλάνο. Ποιος λοιπόν μπορεί να επωφεληθεί από τα δεδομένα; Ήδη πληρώνουμε πάρα πολλά σε ανθρώπους που κινητήρες για να συντηρήσουν αυτούς τους κινητήρες. Λοιπόν τώρα μας λέτε ότι θα σας δώσουμε τα δεδομένα δωρεάν; Όχι, όχι, όχι.”
Όλο αυτό το επιχείρημα είναι πραγματικά επιτακτικό γιατί αυτό ακριβώς επαναλαμβάνεται τώρα μεταξύ του OpenAI και όλων των μεγάλων επιχειρήσεων. Οι μεγάλες επιχειρήσεις πιστεύουν ότι το OpenAI είναι φοβερό. μπορούν να δημιουργήσουν αυτό το chatbot μέσα σε λίγα λεπτά—αυτό είναι υπέροχο. Αλλά μπορούν πραγματικά να στείλουν αυτά τα δεδομένα στο OpenAI που απαιτούνται για τη λεπτομέρεια και όλα αυτά τα άλλα πράγματα; Και δεύτερον, ας υποθέσουμε ότι αυτές οι εταιρείες μπορούν ακόμη και. Ας υποθέσουμε ότι το είδος των δεδομένων είναι εντάξει, αλλά είναι τα δεδομένα τους – που συλλέγονται από αυτές τις εταιρείες. Σίγουρα αξίζει κάτι για το OpenAI, οπότε γιατί δεν ρίχνουν τον λογαριασμό στο συμπέρασμα για τις εταιρείες που το εισέπραξαν;
Και εδώ μπαίνει το κύριο ερώτημα του σημερινού κόσμου δεδομένων: Είναι το ίδιο με την τεχνητή νοημοσύνη;
Κατά κάποιο τρόπο, είναι, αλλά με σημαντικές αποχρώσεις. Εάν μπορούμε να έχουμε ένα μέλλον όπου ο πυρήνας «κινητήρας» ενός αεροπλάνου, το μοντέλο, θα παράγεται από αυτές τις μεγαλύτερες εταιρείες και στη συνέχεια οι επιχειρήσεις αξιοποιούν τα δεδομένα τους για να τελειοποιήσουν ή να αυξήσουν αυτά τα μοντέλα, τότε θα υπάρξει μια πολύ αρμονική συνύπαρξη ένα πραγματικά πολύπλοκο πράγμα και ένα πιο εξειδικευμένο, ίσως λιγότερο περίπλοκο πράγμα πάνω από αυτό. Εάν αυτό συμβεί και γίνει επιτυχημένο τεχνολογικά, τότε θα είναι μια πολύ πιο εύκολη συζήτηση σε επίπεδο οικονομίας και πολιτικής για το τι ανήκει σε ποιον και πώς χωρίζουμε τα σύνολα δεδομένων.
Ως παράδειγμα, ο Roman παραθέτει τη συνομιλία του με έναν ειδικό που σχεδιάζει αυτοκίνητα για να ζήσει:Είπε ότι υπάρχουν βασικά δύο τύποι σχεδιαστών αυτοκινήτων: ένας που σχεδιάζει ένα αυτοκίνητο για έναν κινητήρα και ο άλλος που σχεδιάζει ένα αυτοκίνητο και στη συνέχεια ψωνίζει για έναν κινητήρα. Εάν παράγετε ένα αυτοκίνητο σήμερα, είναι πολύ πιο εύκολο να αποκτήσετε τον κινητήρα, επειδή ο κινητήρας είναι το πιο περίπλοκο μέρος του αυτοκινήτου. Ωστόσο, σίγουρα δεν καθορίζει το προϊόν. Ωστόσο, ο τρόπος με τον οποίο λειτουργεί η βιομηχανία: είναι πολύ πιο εύκολο να πω, καλά, δεδομένων των περιορισμών, επιλέγω έναν κινητήρα και μετά σχεδιάζω μια ολόκληρη σειρά αυτοκινήτων γύρω από αυτόν τον κινητήρα ή τουλάχιστον αυτόν τον τύπο κινητήρα.”
Αυτό μας οδηγεί στην ακόλουθη ιδέα: πιστεύουμε ότι έτσι θα μοιάζει ο κόσμος δεδομένων που βασίζεται στην τεχνητή νοημοσύνη. Θα υπάρχει η κατασκήνωση «Google» και η «Meta camp» και θα επιλέξετε ένα από αυτά τα ανοιχτά μοντέλα – όλα θα είναι αρκετά καλά. Και στη συνέχεια, όλα τα πράγματα που σας ενδιαφέρουν ως επιχείρηση, χτίζονται πάνω από αυτό όσον αφορά την εφαρμογή των δεδομένων σας και την τεχνογνωσία σας για το πώς να τα τελειοποιήσετε και να ενημερώνετε συνεχώς αυτά τα μοντέλα από διαφορετικά «στρατόπεδα». . Σε περίπτωση που αυτό λειτουργήσει τεχνολογικά και οικονομικά, θα αναδυθεί ένας γενναίος νέος κόσμος.
VIA: DataConomy.com