Nvidia baru sahaja mengumumkan keluaran model bahasa besar (LLM) sumber terbuka yang dikatakan berprestasi setanding dengan model proprietari terkemuka daripada OpenAI, Anthropic, Meta dan Google.
Model baharu ini dipanggil NVLM-D-72B dengan 72 bilion parameter, dan merupakan sebahagian daripada keluarga besar model bahasa NVLM 1.0 yang dikeluarkan baru-baru ini oleh Nvidia. NVLM 1.0 pada asasnya ialah keluarga model bahasa multimodal besar dan sempadan yang mencapai hasil terkini mengenai tugas bahasa visual, bersaing dengan model proprietari terkemuka (mis., GPT-4o) serta model akses terbuka.
Keluarga model bahasa besar baharu ini dilaporkan mempunyai "keupayaan multimodal gred industri," dengan prestasi unggul pada pelbagai tugas visual dan bahasa, di samping menambah baik maklum balas berasaskan teks dengan ketara. "Untuk mencapai matlamat ini, kami mencipta dan menyepadukan set data teks sahaja yang berkualiti tinggi ke dalam proses latihan multimodal, bersama-sama dengan sejumlah besar data matematik dan penaakulan multimodal, menghasilkan keupayaan matematik dan pengekodan yang dipertingkatkan merentas pelbagai modaliti," jelas penyelidik Nvidia dalam satu kenyataan.
Hasilnya ialah LLM berprestasi tinggi yang boleh melaksanakan tugas semudah menerangkan sebab meme itu lucu, sehinggalah kepada persamaan matematik yang kompleks, langkah demi langkah. Nvidia juga berjaya meningkatkan ketepatan teks sahaja model dengan purata 4.3 mata di atas penanda aras industri, berkat gaya latihan multimodalnya.

Nvidia nampaknya serius untuk memastikan model ini memenuhi takrifan "sumber terbuka" terbaharu Inisiatif Sumber Terbuka, dengan bukan sahaja membuat pemberat latihan awam untuk semakan komuniti, tetapi juga berjanji untuk mengeluarkan kod sumber model dalam masa terdekat. Ini adalah pergeseran yang ketara daripada pendekatan pesaing seperti OpenAI dan Google, yang telah sangat menutup mulut tentang merahsiakan butiran tentang berat dan kod sumber model LLM mereka. Dengan berbuat demikian, Nvidia telah meletakkan NVLM tidak semestinya sebagai pesaing langsung kepada ChatGPT-4o dan Gemini 1.5 Pro, tetapi sebaliknya sebagai platform untuk pembangun pihak ketiga untuk membina chatbots dan aplikasi AI mereka sendiri.