Home
» Wiki
»
Gemma 2 atau Llama 3 ialah model sumber terbuka terbaik?
Gemma 2 atau Llama 3 ialah model sumber terbuka terbaik?
Pada I/O 2024, Google mengumumkan barisan model Gemma 2 seterusnya, dan kini syarikat itu akhirnya mengeluarkan model ringan di bawah lesen sumber terbuka. Model Gemma 2 27B baharu dikatakan sangat menjanjikan, mengatasi beberapa model yang lebih besar seperti Llama 3 70B dan Qwen 1.5 32B. Jadi untuk menguji dakwaan ini, mari kita bandingkan Gemma 2 dan Llama 3 - dua daripada model sumber terbuka teratas hari ini.
Penulisan kreatif
Mula-mula, mari kita lihat betapa bagusnya Gemma 2 dan Llama 3 dalam penulisan kreatif. Penulis artikel meminta kedua-dua model menulis cerita pendek tentang hubungan antara bulan dan matahari. Kedua-duanya melakukan kerja yang hebat, tetapi model Gemma 2 Google terserlah berkat prosa yang menarik dan cerita yang bagus.
Sebaliknya, Llama 3 kelihatan agak membosankan dan robotik. Google sentiasa mahir dalam penjanaan teks dengan model Gemini dan Gemma 2 27B yang lebih kecil tidak terkecuali.
Pilihan Menang: Gemma 2
Ujian berbilang bahasa
Pada pusingan seterusnya, mari kita lihat sejauh mana kedua-dua model mengendalikan bahasa bukan bahasa Inggeris. Memandangkan Google mengiklankan bahawa Gemma 2 pandai memahami pelbagai bahasa, penulis membandingkannya dengan model Meta Llama 3. Pengarang meminta kedua-dua model untuk menterjemah petikan dalam bahasa Hindi. Kedua-dua Gemma 2 dan Llama 3 beraksi dengan sangat baik.
Penulis juga mencuba bahasa lain, Bengali, dan model-model tersebut memberikan hasil yang sama baiknya. Sekurang-kurangnya untuk bahasa India, boleh dikatakan bahawa Gemma 2 dan Llama 3 terlatih dengan baik pada korpus yang besar. Walau bagaimanapun, Gemma 2 27B hampir 2.5 kali lebih kecil daripada Llama 3 70B, yang menjadikannya lebih mengagumkan.
Pilihan Menang: Gemma 2 dan Llama 3
Semak logik
Walaupun Gemma 2 dan Llama 3 bukanlah model paling pintar di luar sana, mereka boleh melakukan beberapa ujian penaakulan biasa seperti model yang lebih besar. Dalam perbandingan sebelumnya antara Llama 3 dan GPT-4 , model 70B Meta sangat mengagumkan kerana ia menunjukkan kecerdasan yang cukup baik walaupun pada saiznya yang lebih kecil.
Dalam pusingan ini, Llama 3 mengalahkan Gemma 2 dengan perbezaan markah yang besar. Llama 3 menjawab 2 daripada 3 soalan dengan betul manakala Gemma 2 bergelut untuk menjawab walaupun satu dengan betul. Gemma 2 hanya tidak dilatih untuk menyelesaikan soalan penaakulan yang kompleks.
Sebaliknya, Llama 3 mempunyai asas penaakulan yang kukuh, yang kemungkinan besar boleh disimpulkan daripada set data yang disulitkan. Walaupun saiznya kecil - sekurang-kurangnya berbanding model trilion parameter seperti GPT-4 - ia mempamerkan lebih daripada tahap kecerdasan yang adil. Akhirnya, menggunakan lebih banyak token untuk melatih model sebenarnya menghasilkan model yang lebih berkuasa.
Pilihan Menang: Llama 3
Ikut arahan
Pada pusingan seterusnya, penulis meminta Gemma 2 dan Llama 3 mencipta 10 perkataan yang berakhir dengan perkataan "NPU". Dan Llama 3 mendapat 10/10 jawapan yang betul. Sebaliknya, Gemma 2 hanya menghasilkan 7 ayat yang betul daripada 10. Dalam banyak keluaran sebelum ini, model Google termasuk Gemini tidak mengikuti arahan pengguna dengan baik. Dan trend yang sama berterusan dengan Gemma 2.
Mematuhi arahan pengguna adalah penting untuk model AI. Ia memastikan kebolehpercayaan dan menjana maklum balas yang tepat untuk perkara yang telah anda arahkan. Dari segi keselamatan juga, ia membantu memastikan model dibumikan untuk pematuhan yang lebih baik dengan protokol keselamatan.
Pilihan Menang: Llama 3
Cari maklumat
Kedua-dua Gemma 2 dan Llama 3 mempunyai panjang konteks 8K token. Pengarang menambah blok teks yang besar, bersumber terus daripada buku Pride and Prejudice, yang mengandungi lebih 17,000 aksara dan 3.8K token. Seperti biasa, pengarang meletakkan petikan rawak di suatu tempat dalam teks dan meminta kedua-dua model mencarinya.
Gemma 2 dengan cepat mengetahui maklumat itu dan menunjukkan bahawa petikan itu dimasukkan secara rawak. Llama 3 juga mendapati dan mencadangkan bahawa dakwaan ini kelihatan tidak sesuai. Dari segi memori konteks yang panjang, walaupun terhad kepada token 8K, kedua-dua model agak kuat dalam hal ini.
Harap maklum bahawa pengarang menjalankan ujian ini di HuggingChat (web) kerana meta.ai enggan menjalankan gesaan ini, kemungkinan besar disebabkan kandungan hak cipta.
Pilihan Menang: Gemma 2 dan Llama 3
Semak halusinasi
Model yang lebih kecil cenderung mengalami halusinasi AI kerana data latihan yang terhad, selalunya mengada-adakan maklumat apabila model menghadapi topik yang tidak dikenali. Jadi penulis melemparkan nama negara rekaannya untuk menguji sama ada Gemma 2 dan Llama 3 sedang berhalusinasi. Dan yang menghairankan, mereka tidak melakukannya, yang bermaksud bahawa kedua-dua Google dan Meta mempunyai asas yang cukup baik untuk model mereka.
Penulis juga mengemukakan satu lagi soalan (palsu) untuk menguji kesahihan model, tetapi sekali lagi, mereka tidak khayal. Ngomong-ngomong, penulis menguji Llama 3 di HuggingChat manakala meta.ai melayari Internet untuk mendapatkan maklumat semasa mengenai topik yang berkaitan.
Pilihan Menang: Gemma 2 dan Llama 3
buat kesimpulan
Walaupun model Gemma 2 27B Google tidak berfungsi dengan baik dalam ujian penaakulan, ia mampu melakukan beberapa tugas lain. Ia bagus untuk penulisan kreatif, menyokong pelbagai bahasa, mempunyai ingatan yang baik dan yang paling penting adalah tidak halusinogen seperti model sebelumnya.
Llama 3 lebih baik, sudah tentu, tetapi ia juga merupakan model yang jauh lebih besar, dilatih pada 70 bilion parameter. Pembangun akan mendapati model Gemma 2 27B berguna untuk pelbagai kes penggunaan. Dan untuk ukuran yang baik, Gemma 2 9B juga tersedia.
Selain itu, pengguna harus melihat Gemini 1.5 Flash, yang sekali lagi merupakan model yang lebih kecil dan juga menyokong input berbilang modal. Apatah lagi, ia sangat pantas dan cekap.