Η Google και το Χάρβαρντ ρίχνουν 1 εκατομμύριο βιβλία για να εκπαιδεύσουν μοντέλα τεχνητής νοημοσύνης

13 Δεκεμβρίου, 2024

131

Η Google και το Χάρβαρντ ρίχνουν 1 εκατομμύριο βιβλία για να εκπαιδεύσουν μοντέλα τεχνητής νοημοσύνης

Το Πανεπιστήμιο του Χάρβαρντ, σε συνεργασία με την Google, θα κυκλοφορήσει ένα σύνολο δεδομένων περίπου ενός εκατομμυρίου βιβλίων δημόσιου τομέα για χρήση στην εκπαίδευση μοντέλων τεχνητής νοημοσύνης, σύμφωνα με ΣΥΡΜΑΤΟ. Αυτή η πρωτοβουλία, γνωστή ως The Institutional Data Initiative, έχει εξασφαλίσει χρηματοδότηση τόσο από τη Microsoft όσο και από το OpenAI. Το σύνολο δεδομένων περιλαμβάνει έργα που δεν προστατεύονται πλέον από πνευματικά δικαιώματα, που προέρχονται από τις εκτεταμένες προσπάθειες σάρωσης βιβλίων της Google.

Το Χάρβαρντ και η Google παρέχουν ένα εκατομμύριο βιβλία για εκπαίδευση τεχνητής νοημοσύνης

Η ανακοίνωση ήρθε στις 12 Δεκεμβρίου 2024, με το σύνολο δεδομένων, το οποίο περιλαμβάνει ένα ευρύ φάσμα ειδών, γλωσσών και συγγραφέων, συμπεριλαμβανομένων αξιοσημείωτων προσωπικοτήτων όπως ο Ντίκενς, ο Δάντης και ο Σαίξπηρ. Ο εκτελεστικός διευθυντής του Χάρβαρντ για την πρωτοβουλία, Greg Leppert, τόνισε ότι το σύνολο δεδομένων στοχεύει να «ισοπεδώσει τους όρους ανταγωνισμού», επιτρέποντας την πρόσβαση σε ερευνητικά εργαστήρια και νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης για να ενισχύσουν τις προσπάθειες ανάπτυξης γλωσσικών μοντέλων. Το σύνολο δεδομένων προορίζεται για όποιον θέλει να εκπαιδεύσει μεγάλα γλωσσικά μοντέλα (LLM), αν και η συγκεκριμένη ημερομηνία και μέθοδος κυκλοφορίας δεν έχουν ακόμη αποκαλυφθεί.

Καθώς οι τεχνολογίες τεχνητής νοημοσύνης βασίζονται όλο και περισσότερο σε τεράστιες ποσότητες δεδομένων κειμένου, αυτό το σύνολο δεδομένων χρησιμεύει ως κρίσιμος πόρος. Τα βασικά μοντέλα όπως το ChatGPT επωφελούνται σημαντικά από δεδομένα εκπαίδευσης υψηλής ποιότητας. Ωστόσο, η αναγκαιότητα για δεδομένα έχει προκαλέσει προκλήσεις για εταιρείες όπως το OpenAI, οι οποίες αντιμετωπίζουν νομικό έλεγχο σχετικά με τη μη εξουσιοδοτημένη χρήση υλικού που προστατεύεται από πνευματικά δικαιώματα. Οι αγωγές από μεγάλους εκδότες, συμπεριλαμβανομένης της Wall Street Journal και των New York Times, υπογραμμίζουν τις συνεχιζόμενες εντάσεις σχετικά με τη χρήση περιεχομένου και την παραβίαση πνευματικών δικαιωμάτων στην εκπαίδευση τεχνητής νοημοσύνης.

Αν και το προσεχές σύνολο δεδομένων θα είναι πλεονεκτικό, δεν είναι ακόμα σαφές εάν ένα εκατομμύριο βιβλία θα είναι αρκετά για να ανταποκριθούν στις απαιτήσεις της εκπαίδευσης μοντέλων AI, ειδικά καθώς οι σύγχρονες αναφορές και η ενημερωμένη αργκό δεν καλύπτονται σε αυτά τα ιστορικά κείμενα. Οι εταιρείες τεχνητής νοημοσύνης θα συνεχίσουν να αναζητούν πρόσθετες πηγές δεδομένων, ιδιαίτερα αποκλειστικές ή ενημερωμένες πληροφορίες, για να διακρίνουν τα μοντέλα τους από τους ανταγωνιστές.

Η Πρωτοβουλία Θεσμικών Δεδομένων του Χάρβαρντ στοχεύει στην παροχή προσβάσιμων δεδομένων για την ανάπτυξη τεχνητής νοημοσύνης.
Η χρηματοδότηση από τη Microsoft και το OpenAI στηρίζει το έργο.
Το σύνολο δεδομένων περιλαμβάνει κλασικά λογοτεχνικά κείμενα και λιγότερο οικεία κείμενα.
Τα μοντέλα τεχνητής νοημοσύνης απαιτούν εκτεταμένα δεδομένα. τρέχουσες διαμάχες γύρω από τα δικαιώματα χρήσης δεδομένων.

Οι προγραμματιστές στον τομέα της τεχνητής νοημοσύνης δεν περιορίζονται μόνο σε ιστορικά κείμενα. Αρκετές πλατφόρμες, συμπεριλαμβανομένων των Reddit και X, έχουν αρχίσει να περιορίζουν την πρόσβαση στα δεδομένα τους καθώς αναγνωρίζουν την αυξανόμενη αξία τους. Η Reddit έχει συνάψει συμφωνίες αδειοδότησης με εταιρείες όπως η Google, ενώ η X διατηρεί αποκλειστικές ρυθμίσεις περιεχομένου για χρήση δεδομένων σε πραγματικό χρόνο. Αυτή η αλλαγή στην προσβασιμότητα περιεχομένου αντανακλά το ανταγωνιστικό τοπίο όπου οι εταιρείες τεχνητής νοημοσύνης αγωνίζονται να αποκτήσουν επαρκή και σχετικά δεδομένα εκπαίδευσης χωρίς να αντιμετωπίζουν νομικές επιπτώσεις.

Η εκτέλεση της Πρωτοβουλίας για τα Θεσμικά Δεδομένα είναι ένα βήμα προς την άμβλυνση αυτών των πιέσεων παρέχοντας μια νομικά ασφαλή δεξαμενή ιστορικών κειμένων, επιτρέποντας την υπεύθυνη κατάρτιση μοντέλων. Ωστόσο, θα εξακολουθήσουν να είναι απαραίτητες ολοκληρωμένες στρατηγικές για να διασφαλιστεί ότι τα μοντέλα τεχνητής νοημοσύνης είναι ανταγωνιστικά και ικανά να κατανοούν τη σύγχρονη γλώσσα και αναφορές.

Το πόσο αποτελεσματικά αυτός ο πόρος θα ικανοποιήσει τη συνεχιζόμενη ζήτηση για ολοκληρωμένα και ποικίλα δεδομένα παραμένει ένα ερώτημα καθώς συνεχίζονται οι έρευνες για τη χρήση δεδομένων.

Πίστωση επιλεγμένης εικόνας: Τράπεζες αργίλου/Αποσπάσιμο

VIA: Πηγή Άρθρου

Greek Live Channels Όλα τα Ελληνικά κανάλια:
Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση;
Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο.
Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια Πατήστε Εδώ

Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.

Προηγούμενο άρθρο

Οι Ρώσοι κυβερνοκατάσκοποι στοχεύουν χρήστες Android με νέο λογισμικό κατασκοπείας

Διάφορα από την ίδια κατηγορία

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Η Google και το Χάρβαρντ ρίχνουν 1 εκατομμύριο βιβλία για να εκπαιδεύσουν μοντέλα τεχνητής νοημοσύνης

Το Χάρβαρντ και η Google παρέχουν ένα εκατομμύριο βιβλία για εκπαίδευση τεχνητής νοημοσύνης

Οι Ρώσοι κυβερνοκατάσκοποι στοχεύουν χρήστες Android με νέο λογισμικό κατασκοπείας

Πόσο καλοί είστε στην ελληνική μυθολογία; Δοκιμάστε τις γνώσεις σας και κάντε το 3 στα 3

Αυτός είναι ο πιο βάναυσος προβολέας λέιζερ 4K από τη Xiaomi και τη Formovie

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Δημοφιλείς Άρθρα

Σκάνδαλο με αναθέσεις στο νοσοκομείο «Ερυθρός Σταυρός»

Ιδέα δώρου: Σετ Blu-Ray Box της Columbo με μεγάλη έκπτωση στο Amazon

Αφαίρεση Android από Huawei Gadgets:

Φρανκενστάιν κατσαρίδες: Το νέο τρόμο στο σπίτι σας

Τελευταία Νέα

Οι Ρώσοι κυβερνοκατάσκοποι στοχεύουν χρήστες Android με νέο λογισμικό κατασκοπείας

Πόσο καλοί είστε στην ελληνική μυθολογία; Δοκιμάστε τις γνώσεις σας και κάντε το 3 στα 3

Ομόλογα: Συνεχίζεται το sell οff στα αμερικανικά – «Τσίμπησε» το κόστος δανεισμού στην ΕΕ –

SUNNIGOO N3L Max : E-Scooter με κάθισμα, τροχούς 10″ και μοτέρ 800W στα 454€!

Επιλογές Συντακτών

5 Μήνες Φυλάκιση για Χρήστη Πειρατικής Συνδρομητικής Τηλεόρασης

Το Μυστικό Όπλο της Γιγαντιαίας Σαρανταποδαρούσας: Δηλητήριο με Διπλή Χρήση

Σουρεάλ σκηνές στο μετρό Θεσσαλονίκης: Κουβάδες για τα νερά της βροχής στις αποβάθρες!

Τυχαία Άρθρα

Quordle today – οι συμβουλές και οι απαντήσεις μου για την Πέμπτη 12 Δεκεμβρίου (παιχνίδι #1053)

ΗΠΑ ανησυχούν για ρωσικό δορυφόρο-πλατφόρμα όπλων στο διάστημα

Δώρο για τον αρχάριο χρήστη: Εκμάθηση των βασικών λειτουργιών του υπολογιστή

POPULAR CATEGORY

ABOUT US

FOLLOW US