Το Πανεπιστήμιο του Χάρβαρντ, σε συνεργασία με την Google, θα κυκλοφορήσει ένα σύνολο δεδομένων περίπου ενός εκατομμυρίου βιβλίων δημόσιου τομέα για χρήση στην εκπαίδευση μοντέλων τεχνητής νοημοσύνης, σύμφωνα με ΣΥΡΜΑΤΟ. Αυτή η πρωτοβουλία, γνωστή ως The Institutional Data Initiative, έχει εξασφαλίσει χρηματοδότηση τόσο από τη Microsoft όσο και από το OpenAI. Το σύνολο δεδομένων περιλαμβάνει έργα που δεν προστατεύονται πλέον από πνευματικά δικαιώματα, που προέρχονται από τις εκτεταμένες προσπάθειες σάρωσης βιβλίων της Google.
Το Χάρβαρντ και η Google παρέχουν ένα εκατομμύριο βιβλία για εκπαίδευση τεχνητής νοημοσύνης
Η ανακοίνωση ήρθε στις 12 Δεκεμβρίου 2024, με το σύνολο δεδομένων, το οποίο περιλαμβάνει ένα ευρύ φάσμα ειδών, γλωσσών και συγγραφέων, συμπεριλαμβανομένων αξιοσημείωτων προσωπικοτήτων όπως ο Ντίκενς, ο Δάντης και ο Σαίξπηρ. Ο εκτελεστικός διευθυντής του Χάρβαρντ για την πρωτοβουλία, Greg Leppert, τόνισε ότι το σύνολο δεδομένων στοχεύει να «ισοπεδώσει τους όρους ανταγωνισμού», επιτρέποντας την πρόσβαση σε ερευνητικά εργαστήρια και νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης για να ενισχύσουν τις προσπάθειες ανάπτυξης γλωσσικών μοντέλων. Το σύνολο δεδομένων προορίζεται για όποιον θέλει να εκπαιδεύσει μεγάλα γλωσσικά μοντέλα (LLM), αν και η συγκεκριμένη ημερομηνία και μέθοδος κυκλοφορίας δεν έχουν ακόμη αποκαλυφθεί.
Καθώς οι τεχνολογίες τεχνητής νοημοσύνης βασίζονται όλο και περισσότερο σε τεράστιες ποσότητες δεδομένων κειμένου, αυτό το σύνολο δεδομένων χρησιμεύει ως κρίσιμος πόρος. Τα βασικά μοντέλα όπως το ChatGPT επωφελούνται σημαντικά από δεδομένα εκπαίδευσης υψηλής ποιότητας. Ωστόσο, η αναγκαιότητα για δεδομένα έχει προκαλέσει προκλήσεις για εταιρείες όπως το OpenAI, οι οποίες αντιμετωπίζουν νομικό έλεγχο σχετικά με τη μη εξουσιοδοτημένη χρήση υλικού που προστατεύεται από πνευματικά δικαιώματα. Οι αγωγές από μεγάλους εκδότες, συμπεριλαμβανομένης της Wall Street Journal και των New York Times, υπογραμμίζουν τις συνεχιζόμενες εντάσεις σχετικά με τη χρήση περιεχομένου και την παραβίαση πνευματικών δικαιωμάτων στην εκπαίδευση τεχνητής νοημοσύνης.
Αν και το προσεχές σύνολο δεδομένων θα είναι πλεονεκτικό, δεν είναι ακόμα σαφές εάν ένα εκατομμύριο βιβλία θα είναι αρκετά για να ανταποκριθούν στις απαιτήσεις της εκπαίδευσης μοντέλων AI, ειδικά καθώς οι σύγχρονες αναφορές και η ενημερωμένη αργκό δεν καλύπτονται σε αυτά τα ιστορικά κείμενα. Οι εταιρείες τεχνητής νοημοσύνης θα συνεχίσουν να αναζητούν πρόσθετες πηγές δεδομένων, ιδιαίτερα αποκλειστικές ή ενημερωμένες πληροφορίες, για να διακρίνουν τα μοντέλα τους από τους ανταγωνιστές.
- Η Πρωτοβουλία Θεσμικών Δεδομένων του Χάρβαρντ στοχεύει στην παροχή προσβάσιμων δεδομένων για την ανάπτυξη τεχνητής νοημοσύνης.
- Η χρηματοδότηση από τη Microsoft και το OpenAI στηρίζει το έργο.
- Το σύνολο δεδομένων περιλαμβάνει κλασικά λογοτεχνικά κείμενα και λιγότερο οικεία κείμενα.
- Τα μοντέλα τεχνητής νοημοσύνης απαιτούν εκτεταμένα δεδομένα. τρέχουσες διαμάχες γύρω από τα δικαιώματα χρήσης δεδομένων.
Οι προγραμματιστές στον τομέα της τεχνητής νοημοσύνης δεν περιορίζονται μόνο σε ιστορικά κείμενα. Αρκετές πλατφόρμες, συμπεριλαμβανομένων των Reddit και X, έχουν αρχίσει να περιορίζουν την πρόσβαση στα δεδομένα τους καθώς αναγνωρίζουν την αυξανόμενη αξία τους. Η Reddit έχει συνάψει συμφωνίες αδειοδότησης με εταιρείες όπως η Google, ενώ η X διατηρεί αποκλειστικές ρυθμίσεις περιεχομένου για χρήση δεδομένων σε πραγματικό χρόνο. Αυτή η αλλαγή στην προσβασιμότητα περιεχομένου αντανακλά το ανταγωνιστικό τοπίο όπου οι εταιρείες τεχνητής νοημοσύνης αγωνίζονται να αποκτήσουν επαρκή και σχετικά δεδομένα εκπαίδευσης χωρίς να αντιμετωπίζουν νομικές επιπτώσεις.
Η εκτέλεση της Πρωτοβουλίας για τα Θεσμικά Δεδομένα είναι ένα βήμα προς την άμβλυνση αυτών των πιέσεων παρέχοντας μια νομικά ασφαλή δεξαμενή ιστορικών κειμένων, επιτρέποντας την υπεύθυνη κατάρτιση μοντέλων. Ωστόσο, θα εξακολουθήσουν να είναι απαραίτητες ολοκληρωμένες στρατηγικές για να διασφαλιστεί ότι τα μοντέλα τεχνητής νοημοσύνης είναι ανταγωνιστικά και ικανά να κατανοούν τη σύγχρονη γλώσσα και αναφορές.
Το πόσο αποτελεσματικά αυτός ο πόρος θα ικανοποιήσει τη συνεχιζόμενη ζήτηση για ολοκληρωμένα και ποικίλα δεδομένα παραμένει ένα ερώτημα καθώς συνεχίζονται οι έρευνες για τη χρήση δεδομένων.
Πίστωση επιλεγμένης εικόνας: Τράπεζες αργίλου/Αποσπάσιμο
VIA: Πηγή Άρθρου
Greek Live Channels Όλα τα Ελληνικά κανάλια:
Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση;
Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο.
Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια
Πατήστε Εδώ
Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.