Meta Melancarkan Llama 4: LLM Pelbagai Modal Terunggul
Siri ini termasuk tiga versi: Llama 4 Scout, Llama 4 Maverick dan Llama 4 Behemoth.
Pada awal April 2025, Meta melancarkan Llama 4 , siri model AI terkini yang direka untuk membawa syarikat ke peringkat seterusnya. Setiap model Llama 4 baharu mempunyai peningkatan yang ketara berbanding pendahulunya, dan ini adalah ciri baharu yang menonjol untuk dicuba.
3. Seni Bina Campuran Pakar (KPM).
Salah satu ciri yang paling ketara bagi model Llama 4 ialah seni bina MoE baharu, yang pertama untuk siri Llama, yang menggunakan pendekatan berbeza daripada model sebelumnya. Dalam seni bina baharu, hanya sebahagian kecil daripada parameter model yang diaktifkan untuk setiap token, tidak seperti dalam model pengubah padat tradisional seperti Llama 3 dan ke bawah, di mana semua parameter diaktifkan untuk setiap tugas.
Sebagai contoh, Llama 4 Maverick hanya menggunakan 17 bilion parameter aktif daripada 400 bilion, dengan 128 pakar dihalakan dan seorang pakar dikongsi. Llama 4 Scout, yang terkecil dalam siri ini, mempunyai sejumlah 109 bilion parameter, mengaktifkan hanya 17 bilion dengan 16 pakar.
Versi terbesar trio, Llama 4 Behemoth, menggunakan 288 bilion parameter aktif (dengan 16 pakar) daripada jumlah hampir dua trilion parameter. Terima kasih kepada seni bina baharu ini, hanya dua pakar ditugaskan untuk setiap tugas.
Terima kasih kepada perubahan seni bina, model dalam siri Llama 4 lebih cekap dari segi pengiraan semasa latihan dan inferens. Mendayakan hanya sebahagian kecil parameter mengurangkan kos perkhidmatan dan kependaman. Terima kasih kepada seni bina MoE, Meta mendakwa bahawa Llama boleh berjalan pada satu GPU Nvidia H100, satu pencapaian yang mengagumkan memandangkan bilangan parameter. Walaupun tiada metrik khusus, adalah dipercayai bahawa setiap pertanyaan kepada ChatGPT menggunakan berbilang GPU Nvidia, yang menghasilkan overhed yang lebih besar dalam hampir setiap metrik yang boleh diukur.
2. Keupayaan pemprosesan berbilang modal asli
Satu lagi kemas kini penting untuk model AI Llama 4 ialah pemprosesan multimodal asli, bermakna ketiga-tiga mereka boleh memahami teks dan imej secara serentak.
Ini adalah terima kasih kepada gabungan yang dilakukan dalam fasa latihan awal, di mana token teks dan visual disepadukan ke dalam seni bina bersatu. Model dilatih menggunakan sejumlah besar teks, imej dan data video yang tidak berlabel.
Ia tidak menjadi lebih baik daripada ini. Jika anda masih ingat, peningkatan Llama 3.2 Meta , yang dikeluarkan pada September 2024, memperkenalkan beberapa model baharu (10 kesemuanya), termasuk 5 model penglihatan multimodal dan 5 model teks. Dengan generasi ini, syarikat tidak perlu mengeluarkan model teks dan penglihatan yang berasingan berkat keupayaan pemprosesan multimodal asli.
Selain itu, Llama 4 menggunakan pengekod visual yang dipertingkatkan, membolehkan model mengendalikan tugas inferens visual yang kompleks dan input berbilang imej, menjadikannya mampu mengendalikan aplikasi yang memerlukan pemahaman lanjutan tentang teks dan imej. Pemprosesan multimodal juga membolehkan model LLama 4 digunakan dalam pelbagai aplikasi.
1. Tetingkap kontekstual peneraju industri
Model AI Llama 4 mempunyai tetingkap kontekstual yang belum pernah berlaku sebelum ini sehingga 10 juta token. Semasa Llama 4 Behemoth masih dalam pembangunan pada masa penerbitan, Llama 4 Scout telah menetapkan penanda aras industri baharu dengan keupayaannya untuk menyokong sehingga 10 juta token dalam panjang konteks, membolehkan anda memasukkan teks lebih panjang daripada 5 juta perkataan.
Panjang konteks lanjutan ini ialah peningkatan ketara daripada token 8k Llama 3 apabila ia mula-mula dilancarkan dan juga pengembangan seterusnya kepada 128k selepas peningkatan Llama 3.2. Dan bukan hanya 10 juta panjang konteks Pengakap Llama 4 yang menarik; Malah Llama 4 Maverick, dengan satu juta panjang konteksnya, adalah pencapaian yang mengagumkan.
Llama 3.2 kini merupakan salah satu chatbot AI terbaik untuk perbualan lanjutan. Walau bagaimanapun, tetingkap konteks Llama 4 yang diperluas meletakkan Llama di hadapan, mengatasi tetingkap konteks token 2 juta teratas Gemini sebelumnya, 200K Sonnet Claude 3.7 dan 128K GPT-4.5.
Dengan tetingkap konteks yang besar, siri Llama 4 boleh mengendalikan tugasan yang memerlukan input dengan jumlah maklumat yang besar. Tetingkap besar itu berguna untuk tugas seperti menganalisis dokumen yang panjang dan berbilang, menganalisis asas kod yang besar secara terperinci dan membuat penaakulan pada set data yang besar.
Ia juga membolehkan Llama 4 menjalankan perbualan lanjutan, tidak seperti model dan model Llama sebelumnya daripada syarikat AI lain. Jika salah satu sebab Gemini 2.5 Pro ialah model penaakulan terbaik ialah tetingkap konteksnya yang besar, anda boleh bayangkan betapa hebatnya tetingkap konteks 5x atau 10x.
Model Llama 3 siri Meta telah menjadi antara LLM terbaik di pasaran. Tetapi dengan keluaran siri Llama 4, Meta mengambil langkah lebih jauh dengan bukan sahaja memfokuskan pada prestasi inferens yang dipertingkatkan (terima kasih kepada tetingkap konteks peneraju industri baharu) tetapi juga memastikan model yang paling cekap mungkin dengan menggunakan seni bina MoE baharu semasa latihan dan inferens.
Keupayaan pemprosesan multimodal asli Llama 4, seni bina MoE yang cekap dan tetingkap konteks besar meletakkannya sebagai model AI berwajaran berat yang terbuka, berprestasi tinggi, fleksibel yang boleh bersaing dengan atau mengatasi model terkemuka untuk inferens, pengekodan dan banyak tugas lain.
TV pintar benar-benar telah melanda dunia. Dengan begitu banyak ciri hebat dan sambungan internet, teknologi telah mengubah cara kita menonton TV.
Peti sejuk adalah peralatan biasa dalam isi rumah. Peti ais biasanya mempunyai 2 kompartmen iaitu ruang sejuk yang luas dan mempunyai lampu yang menyala secara automatik setiap kali pengguna membukanya, manakala ruang peti sejuk beku pula sempit dan tiada cahaya.
Rangkaian Wi-Fi dipengaruhi oleh banyak faktor di luar penghala, lebar jalur dan gangguan, tetapi terdapat beberapa cara pintar untuk meningkatkan rangkaian anda.
Jika anda ingin kembali kepada iOS 16 yang stabil pada telefon anda, berikut ialah panduan asas untuk menyahpasang iOS 17 dan menurunkan taraf daripada iOS 17 kepada 16.
Yogurt adalah makanan yang indah. Adakah baik untuk makan yogurt setiap hari? Apabila anda makan yogurt setiap hari, bagaimana badan anda akan berubah? Mari kita ketahui bersama!
Artikel ini membincangkan jenis beras yang paling berkhasiat dan cara memaksimumkan manfaat kesihatan bagi mana-mana beras yang anda pilih.
Menetapkan jadual tidur dan rutin waktu tidur, menukar jam penggera anda dan melaraskan diet anda ialah beberapa langkah yang boleh membantu anda tidur dengan lebih lena dan bangun tepat pada waktunya pada waktu pagi.
Tolong Sewa! Landlord Sim ialah permainan mudah alih simulasi pada iOS dan Android. Anda akan bermain sebagai tuan tanah kompleks pangsapuri dan mula menyewa sebuah apartmen dengan matlamat untuk menaik taraf bahagian dalam pangsapuri anda dan menyediakannya untuk penyewa.
Dapatkan kod permainan Bathroom Tower Defense Roblox dan tebus untuk ganjaran yang menarik. Mereka akan membantu anda menaik taraf atau membuka kunci menara dengan kerosakan yang lebih tinggi.
Mari belajar tentang struktur, simbol dan prinsip operasi transformer dengan cara yang paling tepat.
Daripada kualiti gambar dan bunyi yang lebih baik kepada kawalan suara dan banyak lagi, ciri dikuasakan AI ini menjadikan TV pintar lebih baik!
Pada mulanya, orang ramai menaruh harapan yang tinggi untuk DeepSeek. Sebagai chatbot AI yang dipasarkan sebagai pesaing kuat kepada ChatGPT, ia menjanjikan keupayaan dan pengalaman sembang pintar.
Sangat mudah untuk terlepas butiran penting semasa mencatat perkara penting lain, dan cuba mencatat nota semasa bersembang boleh mengganggu. Fireflies.ai adalah penyelesaiannya.
Axolot Minecraft akan menjadi pembantu yang hebat untuk pemain semasa beroperasi di bawah air jika mereka tahu cara menggunakannya.
Tempat yang Tenang: Konfigurasi The Road Ahead dinilai agak tinggi, jadi anda perlu mempertimbangkan konfigurasi sebelum membuat keputusan untuk memuat turun.