Το Google AI ξεπερνά το GPT-4 του OpenAI

16 Νοεμβρίου, 2024

10

Το Google AI ξεπερνά το GPT-4 του OpenAI

Το Chatbot Arena είναι μια ανοικτή πλατφόρμα για συγκριτική αξιολόγηση Τεχνητής Νοημοσύνης από το κοινό. Τα τελευταία δύο χρόνια, τα μοντέλα του OpenAI παρέμεναν στην κορυφή των περισσότερων συγκριτικών αξιολογήσεων τεχνητής νοημοσύνης. Σε ορισμένες κατηγορίες, τα μοντέλα Gemini της Google και τα μοντέλα Claude της Anthropic σημείωσαν καλύτερα αποτελέσματα από τα μοντέλα του OpenAI, αλλά συνολικά τα μοντέλα του OpenAI διατηρήθηκαν άνετα στην κορυφή.

Ωστόσο τώρα, το Chatbot Arena αποκάλυψε ένα νέο πειραματικό μοντέλο από την Google με την ονομασία Gemini-Exp-1114 που δοκιμάστηκε με πάνω από 6.000 ψήφους της κοινότητας κατά τη διάρκεια της προηγούμενης εβδομάδας και τώρα βρίσκεται από κοινού στην 1η θέση μαζί με το ChatGPT-4o-latest (2024-09-03) του OpenAI. Σε σύγκριση με το τελευταίο μοντέλο Gemini, η συνολική βαθμολογία στο Arena αυξήθηκε από 1301 σε 1344. Είναι σημαντικό να σημειωθεί ότι η βαθμολογία αυτού του νέου μοντέλου ξεπερνά ακόμη και το μοντέλο o1-preview του OpenAI.

Σύμφωνα με το Chatbot Arena, το Gemini-Exp-1114 κατατάσσεται πλέον στο Νο. 1 του πίνακα κατάταξης Vision. Κατατάσσεται επίσης στο Νο. 1 στις ακόλουθες κατηγορίες:

Μαθηματικά
Δημιουργική γραφή
Μακρύτερο ερώτημα
Παρακολούθηση οδηγιών
Πολλαπλές εναλλαγές
Δύσκολες προτροπές

Αυτό το νέο μοντέλο κατατάσσεται στο Νο. 3 στην κωδικοποίηση και στις Δύσκολες Προτροπές με Έλεγχο Στυλ. Το μοντέλο o1-preview του OpenAI ηγείται στην κατηγορία κωδικοποίησης και ελέγχου στυλ. Όταν το Gemini συγκρίνεται με άλλα παρόμοια AI μοντέλα όσον αφορά τον γενικό πίνακα ποσοστού νίκης, κερδίζει κατά 50% έναντι του GPT-4o-latest, κατά 56% έναντι του o1-preview και κατά 62% έναντι του Claude-3.5-Sonnet.

Τον περασμένο Σεπτέμβριο, η Google κυκλοφόρησε τα ανανεωμένα μοντέλα της σειράς Gemini 1.5 που προσφέρουν αύξηση ~7% στο MMLU-Pro, βελτίωση ~20% στα benchmarks MATH και HiddenMath και βελτιώσεις ~2-7% στις περιπτώσεις χρήσης όρασης και κώδικα. Η συνολική χρησιμότητα των απαντήσεων των μοντέλων έχει επίσης βελτιωθεί. Η Google ισχυρίζεται ότι το νέο μοντέλο απαντά με πιο συνοπτικό ύφος. Επίσης, το προεπιλεγμένο μήκος εξόδου των ενημερωμένων μοντέλων είναι ~5-20% μικρότερο από τα προηγούμενα μοντέλα.

Οι προγραμματιστές μπορούν να δοκιμάσουν αυτό το μοντέλο στο Google AI Studio αυτή τη στιγμή, ενώ σύντομα θα είναι διαθέσιμο και μέσω του API.

[via]

VIA: TechGear.gr

Προηγούμενο άρθρο

Η NVIDIA στοχεύει σε 200 δισ. δολάρια έσοδα το 2025 με υπερβολικά επιθετική στρατηγική ASP

Επόμενο άρθρο

Η Google κυκλοφορεί εφαρμογή Gemini AI για iPhone

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Το Google AI ξεπερνά το GPT-4 του OpenAI

Apple προετοιμάζει νέο AirTag 2 και M4 MacBook Air με Ultra Wideband Chip

Η Apple στοχεύει στην κατασκευή της δικής της τηλεόρασης με προϋποθέσεις για την επιτυχία του Smart Home Hub.

Apple επανεξετάζει την κατασκευή της δικής της τηλεόρασης

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Δημοφιλείς Άρθρα

Gigabit Voucher: Ξεκινά η διάθεση κουπονιών για φθηνότερες συνδέσεις οπτικής ίνας – Όλες οι λεπτομέρειες

Μυστηριώδεις Ραδιοεκρήξεις από Γιγάντιους Γαλαξίες – Νέα Επιστημονική Έρευνα

Forever Chemicals: Νέα Έρευνα Αποκαλύπτει Επικίνδυνες Επιπτώσεις στη Νεφρική Λειτουργία

Ένα γρήγορο πάνελ UI 7 για ακόμα πιο προσαρμόσιμο

Τελευταία Νέα

“Θυμάσαι την ελληνική μυθολογία;” – FOXreport.gr

Καθρέφτης μακιγιάζ Jordan & Judy με φωτισμό και μπαταρία: Μόνο 17€

Apple προετοιμάζει νέο AirTag 2 και M4 MacBook Air με Ultra Wideband Chip

Ανακοίνωση νέας Xbox κονσόλας για ανταγωνισμό με το PS5 Pro

Επιλογές Συντακτών

Xiaomi vs Apple: Η Κινεζική Εταιρεία Κατακτά τη Δεύτερη Θέση στην Παγκόσμια Αγορά Smartphones

Gmail με Νέα Λειτουργία “Shielded Email”

H SpaceX ετοιμάζει την 6η πτήση του megarocket Starship για τις 19 Νοεμβρίου

Τυχαία Άρθρα

Απόρρητη Έκθεση: Οι 21 Φαινόμενα UFO που Έκαναν το Πεντάγωνο να Εξετάσει

Impossible βαπτίζεται και αποκτά το πρώτο του trailer

Η Google χρησιμοποίησε εκατομμύρια τηλέφωνα Android για να χαρτογραφήσει τον χειρότερο εχθρό του GPS

POPULAR CATEGORY

ABOUT US

FOLLOW US