Google Dakwa Gemini 2.5 Mengungguli Model Terbaik daripada OpenAI, DeepSeek dan Gergasi Teknologi AI Lain

Google baru sahaja memperkenalkan Gemini 2.5, yang mana syarikat itu memanggilnya sebagai "model AI paling pintar lagi." Versi pertama model itu ialah Gemini 2.5 Pro, yang mencapai markah penanda aras yang mengagumkan dalam banyak ujian.

Google mendakwa Gemini 2.5 mengatasi model terbaik daripada OpenAI, DeepSeek dan gergasi teknologi AI yang lain

Gemini 2.5 Pro kini tersedia melalui Google AI Studio dan dalam apl Gemini jika anda seorang pengguna Gemini Advanced . Gemini 2.5 Pro juga akan tersedia melalui Vertex AI dalam masa terdekat.

Google belum berkongsi harga untuk Gemini 2.5 Pro atau model Gemini 2.5 yang lain pada masa ini.

Semua model yang menggunakan Gemini 2.5 adalah "model pemikiran", bermakna mereka boleh memproses proses pemikiran sebelum menjana respons. Model "penaakulan" ini adalah langkah besar seterusnya dalam ruang AI kerana ia menghasilkan respons yang lebih kompleks dan selalunya lebih tepat.

"Kini, dengan Gemini 2.5, kami telah mencapai tahap prestasi baharu dengan menggabungkan model asas yang dipertingkatkan dengan ketara dengan latihan pasca yang dipertingkatkan ," kata Google.

"Pada masa hadapan, kami akan membina keupayaan pemikiran ini terus ke dalam semua model kami supaya mereka boleh menangani masalah yang lebih kompleks dan menyokong ejen dengan kesedaran konteks yang lebih baik . "

Bagaimanakah Gemini 2.5 dibandingkan dengan model OpenAI?

Google Dakwa Gemini 2.5 Mengungguli Model Terbaik daripada OpenAI, DeepSeek dan Gergasi Teknologi AI Lain
Penanda Aras Google Gemini 2.5

Model Gemini 2.5 Pro Google mengatasi model teratas sebelumnya daripada OpenAI dan DeepSeek.

Markah penanda aras untuk Gemini 2.5 yang dikongsi oleh Google agak mengagumkan. Gemini 2.5 Pro Experimental mendapat markah 18.5% dalam Peperiksaan Terakhir Kemanusiaan.

Skor itu bermakna, sekurang-kurangnya buat masa ini, Gemini 2.5 Pro Experimental ialah model terbaik mengikut metrik tersebut. Skornya mengatasi OpenAI 03-mini (14%) dan DeepSeek R1 (8.6%).

Ujian tertentu itu dianggap sukar, walaupun ia bukan satu-satunya cara untuk mengukur prestasi model AI.

Google juga menyerlahkan keupayaan pengaturcaraan Gemini 2.5 Pro dan penanda aras model dalam matematik dan sains. Gemini 2.5 Pro kini mendahului dalam penanda aras matematik dan sains seperti yang diukur melalui GPQA dan AIME 2025.

Adakah mungkin untuk memprogram dalam Gemini 2.5?

Pengaturcaraan adalah fokus utama Gemini 2.5. Google mendakwa "lonjakan besar ke hadapan daripada 2.0" dan mengusik lebih banyak peningkatan sedang dalam perjalanan.

Model baharu Google boleh mencipta aplikasi web dan aplikasi kod agen. Demo daripada Google menunjukkan Gemini 2.5 Pro digunakan untuk mencipta permainan daripada gesaan satu baris.

4 Sebab Mengapa Gemini 2.5 Pro Google Penting untuk AI Perusahaan

Berikut ialah empat perkara utama yang perlu diingat untuk pasukan perusahaan apabila menilai Gemini 2.5 Pro.

1. Penaakulan berstruktur dan telus – piawaian baharu untuk kejelasan pemikiran

Apa yang membezakan Gemini 2.5 Pro bukan hanya kecerdasannya – ia adalah cara kecerdasan itu menunjukkan kerjanya dengan jelas. Kaedah latihan langkah demi langkah Google mencipta aliran pemikiran (CoT) berstruktur yang tidak menyerupai bertele-tele atau tekaan, seperti apa yang telah kita lihat daripada model seperti DeepSeek . CoT ini tidak dipotong menjadi ringkasan cetek seperti model OpenAI. Model Gemini baharu mempersembahkan idea dalam langkah bernombor, dengan sub-peluru dan logik dalaman yang sangat jelas dan telus.

Dari segi praktikal, ini adalah satu kejayaan dalam kebolehpercayaan dan kebolehlayaran. Pengguna perniagaan yang menilai output untuk tugas kritikal - seperti menyemak implikasi dasar, logik pengekodan atau meringkaskan penyelidikan yang kompleks - kini boleh melihat cara model itu menghasilkan jawapan. Ini bermakna mereka boleh mengesahkan, membetulkan atau mengubah hala jawapan dengan lebih yakin. Ini adalah satu langkah besar ke hadapan daripada rasa "kotak hitam" yang masih berterusan dalam banyak keluaran model bahasa besar (LLM) .

Untuk panduan yang lebih mendalam tentang prestasi model ini, lihat pecahan video di mana Gemini 2.5 Pro diuji secara langsung. Satu contoh dibincangkan: Apabila ditanya tentang batasan model bahasa yang besar, Gemini 2.5 Pro menunjukkan kesedaran yang luar biasa. Ia menggariskan kelemahan biasa dan mengkategorikannya ke dalam bidang seperti "intuisi fizikal," "sintesis konsep baharu," "perancangan jangka panjang" dan "nuansa etika," menyediakan rangka kerja yang membantu pengguna memahami perkara yang diketahui model dan cara untuk mendekati masalah.

Pasukan kejuruteraan perusahaan boleh memanfaatkan keupayaan ini untuk:

  • Nyahpepijat rantaian logik kompleks dalam aplikasi kritikal misi
  • Pemahaman yang lebih baik tentang batasan model dalam domain tertentu
  • Menyediakan keputusan yang didayakan AI yang lebih telus kepada pihak berkepentingan
  • Meningkatkan pemikiran kritis mereka sendiri dengan mengkaji pendekatan model

Satu had yang ketara ialah walaupun penaakulan berstruktur ini tersedia dalam apl Gemini dan Google AI Studio, ia tidak boleh diakses pada masa ini melalui API — kelemahan untuk pembangun yang ingin mengintegrasikan keupayaan ini ke dalam aplikasi perusahaan.

2. Pesaing sebenar untuk teknologi canggih - bukan hanya dalam teori

Model itu kini mendahului papan pendahulu Arena Chatbot dengan margin yang ketara – lebih daripada 35 mata Elo di hadapan model terbaik seterusnya, terutamanya kemas kini OpenAI 4o yang dilancarkan sehari selepas Gemini 2.5 Pro dilancarkan. Dan sementara penguasaan penanda aras selalunya sekejap (sebagai model baharu dilancarkan setiap minggu), Gemini 2.5 Pro benar-benar terasa berbeza.

Google Dakwa Gemini 2.5 Mengungguli Model Terbaik daripada OpenAI, DeepSeek dan Gergasi Teknologi AI Lain

Ia cemerlang dalam tugas yang memberi ganjaran kepada penaakulan yang mendalam: pengekodan, penyelesaian masalah yang bernuansa, meringkaskan merentas dokumen, dan juga perancangan abstrak. Dalam ujian dalaman, ia menunjukkan prestasi yang sangat baik pada penanda aras yang sukar sebelum ini seperti "Peperiksaan Terakhir Kemanusiaan," penanda aras popular untuk mengesan kelemahan LLM dalam bidang abstrak dan bernuansa.

Kumpulan perniagaan mungkin tidak peduli model mana yang memenangi kedudukan akademik mana. Tetapi mereka akan mengambil berat bahawa model ini boleh berfikir - dan menunjukkan kepada anda cara ia berfikir. Ujian getaran adalah sangat penting.

Seperti yang dinyatakan oleh jurutera AI yang dihormati, Nathan Lambert, "Google mempunyai model terbaik sekali lagi, kerana mereka sepatutnya memulakan keseluruhan ledakan AI ini. Kesilapan besar telah diperbaiki." Pengguna perniagaan harus melihat ini bukan sahaja Google mengejar pesaing, tetapi berpotensi mengatasi mereka dalam keupayaan yang penting untuk aplikasi perniagaan.

3. Akhir sekali, permainan penyulitan Google adalah kukuh

Secara tradisinya, Google telah ketinggalan di belakang OpenAI dan Anthropic dari segi sokongan pengekodan tertumpu pembangun. Gemini 2.5 Pro mengubahnya.

Dalam ujian hands-on, ia menunjukkan keupayaan satu pukulan yang kuat pada cabaran pengekodan, termasuk membina permainan Tetris yang berfungsi yang dijalankan pada percubaan pertama apabila dieksport ke Replit — tiada penyahpepijatan diperlukan. Lebih hebat lagi, ia menerangkan dengan jelas struktur kod, melabel pembolehubah dan langkah dengan teliti, dan membentangkan pendekatannya sebelum menulis satu baris kod.

Model ini bersaing dengan Anthropic's Claude 3.7 Sonnet, yang dianggap sebagai peneraju dalam penjanaan kod dan merupakan sebab utama kejayaan Anthropic dalam perusahaan. Tetapi Gemini 2.5 menawarkan satu kelebihan penting: Tetingkap konteks token besar-besaran sehingga 1 juta. Claude 3.7 Sonnet pada masa ini hanya menawarkan 500,000 token.

Tetingkap konteks yang besar ini membuka kemungkinan baharu untuk membuat pertimbangan merentas keseluruhan pangkalan kod, membaca dokumentasi dalam talian dan bekerja pada berbilang fail yang saling bergantung. Pengalaman jurutera perisian Simon Willison menunjukkan kelebihan ini.

Apabila menggunakan Gemini 2.5 Pro untuk melaksanakan ciri baharu merentas pangkalan kod kami, model itu mengenal pasti perubahan yang diperlukan merentas 18 fail berbeza dan menyelesaikan keseluruhan projek dalam kira-kira 45 minit, dengan purata kurang daripada 3 minit bagi setiap fail yang diubah suai. Ini adalah alat yang serius untuk perniagaan yang bereksperimen dengan rangka kerja ejen atau persekitaran pembangunan dikuasakan AI.

4. Integrasi pelbagai kaedah dengan tingkah laku seperti ejen

Walaupun sesetengah model seperti 4o terbaru OpenAI mungkin menunjukkan lebih banyak kilat dengan penjanaan imej yang menarik perhatian, Gemini 2.5 Pro merasakan ia secara senyap-senyap mentakrifkan semula rupa penaakulan multimodal berasaskan.

Dalam satu contoh, percubaan langsung oleh Ben Dickson untuk VentureBeat menunjukkan keupayaan model untuk mengekstrak maklumat penting daripada kertas teknikal tentang algoritma carian dan menjana gambar rajah aliran SVG yang sepadan — kemudian perbaiki rajah aliran tersebut apabila ditunjukkan versi yang dipaparkan dengan ralat visual. Tahap penaakulan multimodal ini membolehkan penciptaan aliran kerja baharu yang sebelum ini tidak boleh dilakukan dengan model teks sahaja.

Dalam contoh lain, pemaju Sam Witteveen memuat naik tangkapan skrin ringkas peta Las Vegas dan bertanya apakah acara Google yang berlaku berdekatan pada 9 April. Model itu mengenal pasti lokasi, membuat kesimpulan niat pengguna, mencari dalam talian dan mengembalikan butiran tepat tentang Google Cloud Next, termasuk tarikh, lokasi dan petikan. Semua ini dilakukan tanpa rangka kerja ejen tersuai, hanya model teras dan carian terbina dalam.

Malah, model penaakulan input multimodal ini melangkaui hanya melihatnya. Ia mencadangkan rupa aliran kerja perniagaan dalam masa 6 bulan: Muat naik dokumen, rajah dan papan pemuka, dan biarkan model mensintesis, merancang atau mengambil tindakan yang bermakna berdasarkan kandungan.

Leave a Comment

Gmail menambah tanda semak biru untuk mengesahkan penghantar bereputasi.

Gmail menambah tanda semak biru untuk mengesahkan penghantar bereputasi.

Untuk masa yang lama, dengan perkembangan dan populariti platform rangkaian sosial, "tanda biru" secara beransur-ansur menjadi salah satu watak paling berkuasa di dunia internet.

Chromecast secara rasmi telah mati

Chromecast secara rasmi telah mati

Barisan Chromecast Google telah lama menjadi pilihan popular jika anda ingin menggantikan pengalaman TV pintar anda atau menukar mana-mana TV menjadi TV pintar.

Google menambah ciri untuk membuka apl secara automatik selepas pemasangan di Gedung Play

Google menambah ciri untuk membuka apl secara automatik selepas pemasangan di Gedung Play

Google menambah ciri baharu yang kecil tetapi lama ditunggu-tunggu pada Gedung Play.

Google Mengumumkan Android XR, Platform OS Baharu untuk Kacamata AR dan VR

Google Mengumumkan Android XR, Platform OS Baharu untuk Kacamata AR dan VR

Selepas bertahun-tahun diabaikan, Google akhirnya memutuskan untuk memfokuskan semula pelaburannya pada peranti realiti lanjutan (XR) seperti set kepala dan cermin mata.

5 Sebab Mencuba Google Gemini

5 Sebab Mencuba Google Gemini

Walaupun tidak dibincangkan secara meluas seperti beberapa pesaingnya, Gemini AI Google mempunyai banyak perkara untuknya — dan berikut ialah lima sebab Gemini patut mendapat perhatian anda.

Pengeluar telefon pintar manakah yang mempunyai kemas kini Android terbaik?

Pengeluar telefon pintar manakah yang mempunyai kemas kini Android terbaik?

Terdapat banyak pengeluar Android, tetapi tidak semuanya memberi perhatian kepada kemas kini perisian. Walaupun keadaan telah bertambah baik sejak sedekad yang lalu, tidak semua pengeluar telefon pintar menyediakan sokongan perisian yang hebat.

Gemini Google Membalas Dengan Kata-kata Karut Pelik dan Berulang kepada Sesetengah Pengguna

Gemini Google Membalas Dengan Kata-kata Karut Pelik dan Berulang kepada Sesetengah Pengguna

Baru-baru ini, sesetengah pengguna menyedari bahawa Google Gemini telah memberikan teks berulang, aksara pelik dan karut lengkap dalam beberapa respons.

Google Mengalih Keluar Akses Gemini Daripada Apl Google untuk iPhone

Google Mengalih Keluar Akses Gemini Daripada Apl Google untuk iPhone

Apl Google untuk iPhone akan menjadi kurang berguna kerana Google baru-baru ini mengalih keluar akses kepada Gemini AI daripada apl itu.

Apa yang berlaku jika anda kehilangan akaun Google anda?

Apa yang berlaku jika anda kehilangan akaun Google anda?

Kehilangan akses kepada akaun Google anda boleh membawa akibat yang serius selain daripada tidak dapat menghantar dan menerima e-mel.

Google Melancarkan Ciri Penciptaan Video AI pada Gemini

Google Melancarkan Ciri Penciptaan Video AI pada Gemini

Google baru sahaja mengumumkan bahawa pengguna kini boleh membuat video menggunakan kecerdasan buatan melalui chatbot Gemini dan alat eksperimen Whisk yang dilancarkan baru-baru ini.

Google Melancarkan Career Dreamer, Alat AI Terkini untuk Membantu Memilih Kerjaya Yang Sempurna

Google Melancarkan Career Dreamer, Alat AI Terkini untuk Membantu Memilih Kerjaya Yang Sempurna

Sama ada anda memulakan langkah pertama anda ke dalam tenaga kerja atau beralih kepada industri baharu, Career Dreamer percubaan Google direka untuk menghubungkan anda dengan peranan yang serasi.

Google membangunkan algoritma AI yang boleh mendiagnosis penyakit kulit dan tuberkulosis

Google membangunkan algoritma AI yang boleh mendiagnosis penyakit kulit dan tuberkulosis

Google semakin menunjukkan minat dalam bidang aplikasi kecerdasan buatan dalam bidang perubatan.

Google mengesahkan isu dengan Chromecast generasi kedua dan Audio Chromecast

Google mengesahkan isu dengan Chromecast generasi kedua dan Audio Chromecast

Selepas beberapa hari kekeliruan, Google telah secara rasmi mengesahkan isu itu dengan kedua-dua Chromecast generasi kedua dan Audio Chromecast.

Dokumentasi Terbitan Google Secara Tidak Sengaja tentang Cara Carian Berfungsi

Dokumentasi Terbitan Google Secara Tidak Sengaja tentang Cara Carian Berfungsi

Pada hari Isnin, dokumen dalaman yang menerangkan faktor yang dipertimbangkan oleh Carian Google apabila kedudukan dan paparan hasil web dibocorkan.

Samsung melancarkan teknologi bunyi 3D Eclipsa Audio, bersaing secara langsung dengan Dolby Atmos

Samsung melancarkan teknologi bunyi 3D Eclipsa Audio, bersaing secara langsung dengan Dolby Atmos

Samsung Electronics telah mengumumkan rancangan untuk menyepadukan Eclipsa Audio, teknologi audio 3D serba baharu, yang dibangunkan melalui perkongsian dengan Google, ke dalam barisan TV dan bar bunyi 2025.

Cara Membaiki Microsoft Teams Di Mana Boleh Cari Ralat Team

Cara Membaiki Microsoft Teams Di Mana Boleh Cari Ralat Team

Bosan dengan ralat Microsoft Teams Where to Find Team yang mengecewakan? Dapatkan pembetulan langkah demi langkah untuk desktop, web dan mudah alih. Selesaikannya dengan cepat dengan panduan pakar kami—tiada kemahiran teknikal diperlukan!

Cara Membaiki Ralat Bantuan Cara Menggunakan Microsoft Teams

Cara Membaiki Ralat Bantuan Cara Menggunakan Microsoft Teams

Bosan dengan Ralat Bantuan Microsoft Teams yang mengecewakan yang menyekat aliran kerja anda? Dapatkan pembetulan langkah demi langkah yang berfungsi pada versi terkini. Kosongkan cache, kemas kini dan banyak lagi—tiada kemahiran teknikal diperlukan!

Cara Membaiki Ralat Log Masuk Microsoft Teams pada Chromebook

Cara Membaiki Ralat Log Masuk Microsoft Teams pada Chromebook

Menghadapi ralat log masuk Microsoft Teams pada Chromebook? Temui penyelesaian langkah demi langkah untuk menyelesaikan masalah log masuk dengan cepat. Kosongkan cache, kemas kini aplikasi dan banyak lagi untuk kerja berpasukan yang lancar. Berfungsi pada OS Chrome terkini!

Menyelesaikan Masalah Kelewatan Persidangan Video Microsoft Teams pada Wi-Fi

Menyelesaikan Masalah Kelewatan Persidangan Video Microsoft Teams pada Wi-Fi

Bergelut dengan kelewatan persidangan video Microsoft Teams semasa menggunakan Wi-Fi? Panduan penyelesaian masalah muktamad ini memberikan penyelesaian pantas, petua lanjutan dan pengoptimuman Wi-Fi untuk memulihkan panggilan video yang jelas serta-merta.

Mengapa Status Microsoft Teams Saya Tersekat?

Mengapa Status Microsoft Teams Saya Tersekat?

Kecewa dengan status Microsoft Teams anda yang tersekat pada Away? Ketahui sebab utama seperti tamat masa melahu dan tetapan kuasa, serta pembetulan langkah demi langkah untuk kembali ke Available dengan pantas. Dikemas kini dengan ciri Teams terkini.

Menyelesaikan Ralat Sertai Mesyuarat Microsoft Teams melalui Pautan Langsung

Menyelesaikan Ralat Sertai Mesyuarat Microsoft Teams melalui Pautan Langsung

Bergelut dengan Ralat Sertai Mesyuarat Microsoft Teams? Temui langkah-langkah terbukti untuk menyelesaikannya melalui pautan langsung. Penyelesaian pantas untuk penyertaan yang lancar – tiada kemahiran teknikal diperlukan!

Di Mana Boleh Cari Kod QR Microsoft Teams untuk Log Masuk Mudah Alih Pantas

Di Mana Boleh Cari Kod QR Microsoft Teams untuk Log Masuk Mudah Alih Pantas

Ketahui dengan tepat di mana untuk mencari Kod QR Microsoft Teams untuk log masuk mudah alih yang sangat pantas. Panduan langkah demi langkah dengan visual untuk memudahkan anda berhubung dalam beberapa saat—tiada kata laluan diperlukan!

Cara Membaiki Ralat Main Semula Media Microsoft Teams pada tahun 2026

Cara Membaiki Ralat Main Semula Media Microsoft Teams pada tahun 2026

Bosan dengan ralat main balik media Microsoft Teams yang merosakkan mesyuarat 2026 anda? Ikuti panduan pakar langkah demi langkah kami untuk membetulkan gangguan audio, video dan perkongsian dengan pantas—tiada kemahiran teknikal diperlukan. Kolaborasi yang lancar menanti!

Di manakah Kunci Pendaftaran Microsoft Teams Terletak pada Windows 11?

Di manakah Kunci Pendaftaran Microsoft Teams Terletak pada Windows 11?

Buka kunci lokasi tepat kunci pendaftaran Microsoft Teams pada Windows 11. Panduan langkah demi langkah untuk mencari, mengakses dan mengubahnya dengan selamat untuk prestasi dan penyelesaian masalah yang optimum. Penting untuk profesional IT dan peminat Teams.

Menyelesaikan Masalah Gelung Permulaan Skrin Aluan Microsoft Teams

Menyelesaikan Masalah Gelung Permulaan Skrin Aluan Microsoft Teams

Kecewa dengan gelung permulaan skrin alu-aluan Microsoft Teams? Ikuti langkah penyelesaian masalah yang terbukti untuk gelung permulaan skrin alu-aluan Microsoft Teams kami: kosongkan cache, tetapkan semula aplikasi, pasang semula. Kembali ke kolaborasi yang lancar dalam beberapa minit!

Penyelesaian Masalah Ralat Proksi Microsoft Teams

Penyelesaian Masalah Ralat Proksi Microsoft Teams

Bergelut dengan Ralat Proksi Microsoft Teams? Ketahui Penyelesaian Masalah Ralat Proksi Microsoft Teams yang terbukti Langkah-langkah pembetulan. Kosongkan cache, laraskan tetapan proksi dan kembali kepada panggilan lancar dalam beberapa minit dengan panduan pakar kami.

Di manakah Microsoft Teams dalam Outlook? Mencari Ikon yang Hilang

Di manakah Microsoft Teams dalam Outlook? Mencari Ikon yang Hilang

Kecewa dengan ikon Microsoft Teams yang hilang dalam Outlook? Ketahui dengan tepat di mana untuk mencarinya, mengapa ia hilang dan langkah-langkah terbukti untuk memulihkannya untuk mesyuarat yang mudah. ​​Dikemas kini untuk versi terkini!

Mengapa Microsoft Teams Begitu Perlahan? 10 Petua untuk Mempercepatkannya pada Tahun 2026

Mengapa Microsoft Teams Begitu Perlahan? 10 Petua untuk Mempercepatkannya pada Tahun 2026

Kecewa dengan Microsoft Teams yang lambat? Ketahui mengapa Microsoft Teams begitu perlahan dan gunakan 10 petua terbukti ini untuk mempercepatkannya secara dramatik pada tahun 2026 untuk kolaborasi yang lancar.

Cara Log Masuk ke Pusat Pentadbiran Microsoft Teams dengan Betul

Cara Log Masuk ke Pusat Pentadbiran Microsoft Teams dengan Betul

Kuasai cara log masuk ke Pusat Pentadbiran Microsoft Teams dengan betul dengan panduan langkah demi langkah kami yang tepat. Betulkan ralat biasa, pastikan keselamatan dan uruskan Teams dengan mudah untuk pentadbir di mana-mana sahaja.

Cara Muat Turun Microsoft Teams untuk Mac dan MacBook Air/Pro

Cara Muat Turun Microsoft Teams untuk Mac dan MacBook Air/Pro

Temui cara paling mudah untuk memuat turun Microsoft Teams untuk Mac, MacBook Air dan MacBook Pro. Arahan langkah demi langkah, keperluan sistem dan petua penyelesaian masalah untuk pemasangan yang lancar dalam versi terkini. Mulakan sekarang!