Permulaan AI China DeepSeek baru sahaja mengeluarkan model bahasa besar (LLM) terbaharunya, DeepSeek-V3-0324. Dengan kapasiti sehingga 641GB, model ini diumumkan pada platform AI Hugging Face tanpa banyak maklumat didedahkan, selari dengan gaya berahsia tentang produk baharu yang selalu diaplikasikan oleh syarikat setakat ini.
Keistimewaan model ini ialah lesen MIT, yang membenarkan penggunaan percuma untuk tujuan komersial. Keputusan penanda aras awal menunjukkan bahawa DeepSeek-V3-0324 mampu berjalan pada konfigurasi perkakasan arus perdana, seperti Apple Mac Studio dengan cip M3 Ultra. Saintis AI Awni Hannun melaporkan bahawa adalah mungkin untuk mencapai kelajuan pemprosesan lebih daripada 20 token sesaat menggunakan konfigurasi ini. Keupayaan untuk menjalankan model bahasa yang besar pada perkakasan komoditi di premis ini sangat berbeza dengan pendekatan tradisional menggunakan infrastruktur pusat data besar-besaran untuk menyokong model AI lanjutan.

Menurut maklumat daripada DeepSeek, ujian awal telah menunjukkan peningkatan yang ketara berbanding versi sebelumnya. Model ini telah diuji dengan teliti oleh pihak berkepentingan dalaman dan menunjukkan prestasi cemerlang, malah mengatasi semua model pesaing lain dan menewaskan Claude Sonnet 3.5 Anthropic dalam tugasan yang tidak memerlukan pemikiran mendalam. Walau bagaimanapun, tidak seperti model gaya Sonnet yang memerlukan langganan berbayar, DeepSeek-V3-0324 adalah percuma untuk dimuat turun dan digunakan.
Secara teknikal, DeepSeek-V3-0324 menggunakan seni bina campuran pakar (MoE). Ia menonjol kerana keupayaannya untuk secara terpilih menggunakan kira-kira 37 bilion daripada 685 bilion parameter setiap tugas, meningkatkan kecekapan dengan mengurangkan permintaan pengiraan sambil mengekalkan prestasi. Model ini juga menggunakan teknologi Multi-Head Latent Attention (MLA) dan Multi-Token Prediction (MTP), yang menyumbang kepada meningkatkan memori konteks dan mempercepatkan output.
Pengguna boleh mengakses DeepSeek-V3-0324 melalui Hugging Face, antara muka sembang OpenRouter dan API, serta platform sembang DeepSeek jika mahu. Pembekal perkhidmatan inferens Hyperbolic Labs juga menyediakan akses kepada model.
Dengan keluaran DeepSeek-V3-0324, syarikat itu terus menegaskan kedudukannya dalam perlumbaan untuk membangunkan model bahasa yang besar, sambil menyediakan pilihan yang berkuasa dan boleh diakses untuk komuniti penyelidikan dan pembangunan AI. Keupayaan untuk berjalan pada perkakasan komoditi ditambah dengan lesen percuma pastinya akan membuka banyak peluang aplikasi praktikal untuk model ini dalam masa terdekat.