OpenAI Mengumumkan GPT-4.1 - Model Paling Pintar untuk Tugasan Kompleks

OpenAI secara rasminya telah memperkenalkan tiga model baharu: GPT-4.1, GPT-4.1 mini dan GPT-4.1 nano. Model ini disertakan dengan keupayaan pemprosesan konteks yang besar sehingga 1 juta token dan had pengetahuan yang dikemas kini sehingga Jun 2024.

Syarikat itu berkata model ini mengatasi prestasi GPT-4o dan GPT-4o mini yang dikemas kini baru-baru ini, yang dilancarkan Julai lalu. Pada masa ini GPT-4.1 hanya tersedia melalui API, jadi anda tidak akan dapat menggunakannya secara langsung dalam ChatGPT lagi.

OpenAI menyatakan bahawa GPT-4.1 hanya akan tersedia melalui API. Dalam ChatGPT, banyak penambahbaikan dalam pematuhan arahan, pengaturcaraan dan kecerdasan telah disepadukan secara beransur-ansur ke dalam versi terkini GPT-4o, dan syarikat akan terus menambah lebih banyak lagi dalam keluaran akan datang.

OpenAI Mengumumkan GPT-4.1 - Model Paling Pintar untuk Tugasan Kompleks

Penanda aras menunjukkan peningkatan luar biasa yang dibawa oleh GPT-4.1. Model ini mendapat markah 54.6% pada SWE-bench Verified, peningkatan 21.4 mata berbanding GPT-4o. Model ini mendapat markah 38.3% pada MultiChallenge — penanda aras yang mengukur pematuhan garis panduan — dan menetapkan rekod baharu untuk pemahaman video dalam bentuk panjang dengan skor 72.0% pada penanda aras Video-MME, di mana model menganalisis video sehingga satu jam tanpa kapsyen.

OpenAI juga telah bekerjasama dengan rakan kongsi alpha untuk menguji prestasi GPT-4.1 dalam kes penggunaan dunia sebenar.

  • Thomson Reuters menguji GPT-4.1 dengan pembantu AI sahnya CoCounsel. Berbanding dengan GPT-4o, GPT-4.1 merekodkan peningkatan 17% dalam ketepatan dalam penilaian berbilang dokumen. Jenis kerja ini sangat bergantung pada keupayaan untuk menjejak konteks merentas pelbagai sumber dan mengenal pasti perhubungan yang kompleks seperti istilah yang bercanggah atau kebergantungan tersembunyi, dan GPT-4.1 telah menunjukkan prestasi yang kukuh secara konsisten.
  • Carlyle menggunakan GPT-4.1 untuk mengekstrak data kewangan daripada dokumen yang panjang dan kompleks, termasuk fail Excel dan PDF. Menurut penanda aras dalaman syarikat, model tersebut berprestasi 50% lebih baik daripada model sebelumnya dalam pengambilan dokumen. Ia merupakan model pertama yang menangani masalah dengan pasti seperti mencari "jarum dalam timbunan jerami", kehilangan maklumat di tengah-tengah dokumen dan hujah yang memerlukan maklumat penyambungan merentas berbilang fail.

Prestasi adalah satu perkara, tetapi kelajuan adalah sama penting. OpenAI berkata GPT-4.1 mengembalikan token pertama dalam masa kira-kira 15 saat apabila memproses 128,000 token, dan sehingga 30 saat pada sejuta token penuh. GPT-4.1 mini dan nano adalah lebih pantas.

GPT-4.1 nano biasanya bertindak balas dalam masa kurang daripada 5 saat kepada gesaan dengan 128,000 token input. Caching segera boleh mengurangkan lagi kependaman sambil menjimatkan kos.

Pemahaman imej juga mencapai kemajuan yang ketara. Khususnya, GPT-4.1 mini mengatasi GPT-4o pada pelbagai penanda aras visual.

  • Pada MMMU (termasuk graf, rajah dan peta), GPT-4.1 mini mendapat markah 73%. Ini lebih tinggi daripada GPT-4.5 dan jauh melebihi 56% GPT-4o mini.
  • Pada MathVista (yang menguji keupayaan untuk menyelesaikan masalah imej), kedua-dua GPT-4.1 dan GPT-4.1 mini memperoleh 57%, jauh mengatasi 37% GPT-4o mini.
  • Mengenai CharXiv-Reasoning , di mana model menjawab soalan berdasarkan graf saintifik, GPT-4.1 terus mendahului.
  • Pada Video-MME (video panjang tanpa sari kata), GPT-4.1 mencapai 72%, peningkatan ketara berbanding 65% GPT-4o.

Mengenai harga:

  • GPT-4.1 berharga $2 setiap 1 juta input token dan $8 untuk output.
  • GPT-4.1 mini berharga $0.40 untuk input dan $1.60 untuk output.
  • GPT-4.1 nano berharga $0.10 input dan $0.40 output.

Menggunakan caching segera atau API Batch boleh mengurangkan lagi kos ini, yang bagus untuk aplikasi berskala besar. OpenAI juga sedang bersedia untuk menghentikan sokongan untuk Pratonton GPT-4.5 pada 14 Julai 2025, memetik prestasi GPT-4.1 yang lebih baik, kependaman yang lebih rendah dan kos yang lebih rendah.

Sign up and earn $1000 a day ⋙

Leave a Comment

Alibaba Memperkenalkan QwQ-32b, Pesaing Layak untuk DeepSeek

Alibaba Memperkenalkan QwQ-32b, Pesaing Layak untuk DeepSeek

Sama ada dakwaan Alibaba akan menjadi kenyataan masih belum dapat dilihat, tetapi nampaknya ChatGPT dan DeepSeek kini mempunyai pesaing baharu yang layak.

OpenAI Mencabar Google Chrome Dengan Penyemak Imbas Baharunya

OpenAI Mencabar Google Chrome Dengan Penyemak Imbas Baharunya

OpenAI dilaporkan sedang mengusahakan projek pelayar web yang berpotensi bersaing secara langsung dengan Google Chrome.

Samsung bekerjasama dengan OpenAI untuk membangunkan AI TV, menjanjikan banyak ciri menarik

Samsung bekerjasama dengan OpenAI untuk membangunkan AI TV, menjanjikan banyak ciri menarik

Samsung Electronics dilaporkan bekerjasama dengan OpenAI dalam projek bersama yang bercita-cita tinggi untuk membangunkan TV AI yang menggabungkan teknologi kecerdasan buatan yang menerajui industri.

Microsoft akan terus melabur banyak dalam OpenAI pada penilaian lebih daripada $100 bilion

Microsoft akan terus melabur banyak dalam OpenAI pada penilaian lebih daripada $100 bilion

Microsoft telah melabur berbilion dolar dalam OpenAI sejak 2019, walaupun gergasi perisian berasaskan Redmond itu bukanlah pelabur utama dalam permulaan AI yang inovatif.

OpenAI ditetapkan untuk memperoleh Windsurf - salah satu editor kod AI yang paling berkuasa di dunia

OpenAI ditetapkan untuk memperoleh Windsurf - salah satu editor kod AI yang paling berkuasa di dunia

OpenAI sedang berbincang untuk memperoleh Windsurf, editor kod berkuasa AI terkemuka dalam industri.

O1-pro ialah model AI OpenAI yang paling mahal setakat ini

O1-pro ialah model AI OpenAI yang paling mahal setakat ini

OpenAI telah mengeluarkan versi yang lebih berkuasa bagi model AI penaakulan o1nya, o1-pro, dalam API pembangunnya.

OpenAI Mengumumkan Pelan ChatGPT Pro untuk $200 sebulan

OpenAI Mengumumkan Pelan ChatGPT Pro untuk $200 sebulan

OpenAI kini menawarkan empat tahap langganan ChatGPT untuk memenuhi keperluan kumpulan pelanggan yang berbeza.

OpenAI Memperkenalkan Projek ChatGPT: Ciri Baharu untuk Menyusun Perbualan Lebih Pintar

OpenAI Memperkenalkan Projek ChatGPT: Ciri Baharu untuk Menyusun Perbualan Lebih Pintar

Dengan mencipta projek, pengguna boleh menyimpan perbualan, fail dan arahan penyesuaian semuanya di satu tempat. Ini membolehkan mereka dengan mudah kembali kepada apa yang mereka lakukan.

OpenAI Mengumumkan Inisiatif untuk Membina Piawaian AI untuk Industri

OpenAI Mengumumkan Inisiatif untuk Membina Piawaian AI untuk Industri

OpenAI baru sahaja mengumumkan Program Perintis – usaha untuk mempromosikan aplikasi AI dalam situasi dunia sebenar.

Softbank merancang untuk mengatasi Microsoft untuk menjadi pelabur terbesar OpenAI

Softbank merancang untuk mengatasi Microsoft untuk menjadi pelabur terbesar OpenAI

Gergasi pelaburan Jepun Softbank merancang untuk melabur $15 hingga $25 bilion dalam OpenAI. Sekiranya perjanjian itu berjaya, Softbank akan menjadi pelabur terbesar OpenAI, menggantikan Microsoft, yang kini memegang jawatan itu.

Pengguna boleh bersembang dengan Santa menggunakan Mod Suara ChatGPT

Pengguna boleh bersembang dengan Santa menggunakan Mod Suara ChatGPT

ChatGPT akan membantu anda melakukan sesuatu dengan lebih baik, memberi anda peluang untuk bersembang terus dengan Santa Claus.

OpenAI untuk Melancarkan Orion, Model AI Besar Seterusnya, pada bulan Disember

OpenAI untuk Melancarkan Orion, Model AI Besar Seterusnya, pada bulan Disember

OpenAI merancang untuk melancarkan Orion, model AI utama seterusnya, pada bulan Disember, menurut The Verge.

Alibaba Melancarkan Model AI Yang Boleh Membaca Emosi Manusia

Alibaba Melancarkan Model AI Yang Boleh Membaca Emosi Manusia

Gergasi e-dagang China Alibaba terus menjadi tajuk utama dengan melancarkan model AI baharu yang didakwanya mampu membaca emosi manusia.

OpenAI Melancarkan GPT Store dan Pasukan ChatGPT, Membawa Ekosistem ChatGPT ke Tahap Seterusnya

OpenAI Melancarkan GPT Store dan Pasukan ChatGPT, Membawa Ekosistem ChatGPT ke Tahap Seterusnya

Selepas menunggu lama dan khabar angin yang tidak terkira banyaknya, OpenAI akhirnya mengumumkan pelancaran GPT Store dan Pasukan ChatGPT yang telah lama ditunggu-tunggu.

8 Perkara Yang Anda Tidak Tahu Boleh Anda Lakukan dalam Apl Galeri Samsung

8 Perkara Yang Anda Tidak Tahu Boleh Anda Lakukan dalam Apl Galeri Samsung

Apl Galeri Samsung lebih berkebolehan daripada yang anda fikirkan, tetapi itu mungkin tidak jelas dengan serta-merta.

Telefon pintar boleh lipat Microsoft tidak akan mempunyai lipatan

Telefon pintar boleh lipat Microsoft tidak akan mempunyai lipatan

Microsoft dikatakan semakin hampir untuk melancarkan telefon pintar boleh lipat pertamanya apabila ia diberikan paten untuk telefon boleh lipat dengan keupayaan untuk melipat 360 darjah tetapi tanpa menimbulkan kedutan pada skrin pada 1 Oktober.

Google menguji tanda semak biru dalam carian

Google menguji tanda semak biru dalam carian

Google sedang menguji ciri pengesahan baharu melalui tanda semak biru dalam carian. Ciri ini akan membantu pengguna mengelak daripada mengklik pada pautan tapak web palsu atau penipuan.

Membezakan Microsoft 365 dan Office 2024

Membezakan Microsoft 365 dan Office 2024

Pada pandangan pertama, Microsoft 365 dan Office 2024 mungkin kelihatan sangat serupa, kerana kedua-duanya memberi anda akses kepada aplikasi Microsoft yang popular dan digunakan secara meluas.

Kod Elemental Dungeons Terkini dan Cara Memasukkan Kod

Kod Elemental Dungeons Terkini dan Cara Memasukkan Kod

Kod Elemental Dungeons ialah bentuk ganjaran yang diperlukan untuk pemain. Seperti mana-mana permainan dalam talian lain di Roblox, pemain boleh menerima bantuan ini sebagai pertukaran wang atau barangan lain.

Bagaimana untuk mengulangi bar tajuk jadual dalam Word

Bagaimana untuk mengulangi bar tajuk jadual dalam Word

Apabila anda mencetak dokumen Word, cipta jadual dalam Word, mengulangi tajuk dalam Word membantu kami menjejak tajuk dengan lebih mudah, membaca tajuk dokumen dengan lancar merentas halaman yang berbeza, terutamanya dengan tajuk yang panjang.

Cara membuat mesej animasi pada iMessage iOS 18

Cara membuat mesej animasi pada iMessage iOS 18

iOS 18 iMessage baharu dikemas kini dengan mesej animasi, kesan teks dengan banyak pilihan untuk digunakan untuk mesej yang anda hantar.

Mengapa babi adalah musuh ular?

Mengapa babi adalah musuh ular?

Terdapat fakta menarik tentang babi yang tidak semua orang tahu: babi dianggap musuh ular, kerana apabila kedua-dua haiwan ini bertemu, kebanyakan ular akan menjadi makanan untuk babi.

Berapakah jarak dari Bumi ke Musytari - planet terbesar dalam Sistem Suria?

Berapakah jarak dari Bumi ke Musytari - planet terbesar dalam Sistem Suria?

Berapakah jarak dari Bumi ke Musytari? Jika anda tidak tahu, artikel ini akan memberitahu anda sejauh mana Musytari dari Bumi.

Temui jeneral meta musim S1 2023 Lien Quan Mobile

Temui jeneral meta musim S1 2023 Lien Quan Mobile

Jeneral manakah yang keluar daripada meta Mobile Alliance? Jom explore sekarang

Graves DTCL musim 7.5: Item standard, skuad Graves Loi Long

Graves DTCL musim 7.5: Item standard, skuad Graves Loi Long

Graves DTCL dari musim 1, musim 3 dan musim 6 semuanya berharga 1 emas dan nampaknya cuma juara tambahan untuk merangsang klan, peranan utama dalam early game masih digunakan tetapi tidak banyak. Setakat DTCL musim 7.5, Graves telah melonjakkan harganya kepada 4 emas dan pastinya merupakan pembawa yang sangat diperlukan jika anda memutuskan untuk bermain Thunder Dragon atau Gunner.

Cara menggunakan bunyi aplikasi berasingan pada Samsung

Cara menggunakan bunyi aplikasi berasingan pada Samsung

Dengan telefon Samsung, anda harus menggunakan ciri bunyi apl yang berasingan. Contohnya, anda boleh memainkan Apple Music dan telefon anda akan menghalakan audio melalui pembesar suara kereta anda.

Petikan yang baik tentang kerja, status yang baik tentang kerja memberi inspirasi kepada anda untuk mencapai kejayaan

Petikan yang baik tentang kerja, status yang baik tentang kerja memberi inspirasi kepada anda untuk mencapai kejayaan

Terdapat banyak status yang baik tentang kerja di Internet. Artikel ini akan meringkaskan untuk anda status pekerjaan yang baik dan bermakna.

Kapsyen ulang tahun perkahwinan, status ulang tahun perkahwinan yang bermakna dan manis

Kapsyen ulang tahun perkahwinan, status ulang tahun perkahwinan yang bermakna dan manis

Apakah kapsyen ulang tahun perkahwinan yang baik dan bermakna? Artikel itu akan meringkaskan untuk anda kapsyen ulang tahun yang ringkas dan padat yang boleh membuatkan pasangan anda ingat selama-lamanya.

Senarai kod Dai Hiep Phong Van terkini dan cara menebus kod

Senarai kod Dai Hiep Phong Van terkini dan cara menebus kod

Code Dai Hiep Phong Van membantu pemain menggunakan ganjaran yang menarik walaupun mereka baru mula mengembara ke seluruh dunia dalam permainan.