Google DeepMind telah membuat kemajuan yang mantap dalam bidang AI dengan kemas kini yang kerap dan dipandang tinggi untuk Gemini, Imagen, Veo, Gemma dan AlphaFold. Hari ini, pasukan AI Google terus menjadi tajuk utama dengan mengumumkan secara rasmi kemasukannya ke dalam industri robotik dengan pelancaran dua model baharu berdasarkan Gemini 2.0: Gemini Robotics dan Gemini Robotics-ER.
Robotik Gemini: Model Penglihatan-Bahasa-Tindakan Lanjutan
Gemini Robotics ialah model tindakan penglihatan-bahasa (VLA) lanjutan yang dibangunkan berdasarkan Gemini 2.0, dengan penambahan tindakan fizikal sebagai kaedah keluaran baharu untuk kawalan robot. Google mendakwa bahawa model baharu ini boleh memahami situasi yang belum pernah ditemui semasa latihan.
Berbanding dengan model VLA terkemuka yang lain, Gemini Robotics berprestasi dua kali ganda pada set penanda aras generalisasi yang komprehensif. Memandangkan ia dibina pada model Gemini 2.0, ia mampu memahami pelbagai jenis bahasa semula jadi, yang bermaksud ia boleh memahami perintah manusia dengan lebih tepat.
Dari segi ketangkasan, Google mendakwa bahawa Robotik Gemini boleh mengendalikan tugasan yang kompleks dan berbilang langkah yang memerlukan manipulasi yang tepat. Sebagai contoh, model ini boleh melipat origami atau meletakkan makanan ringan dalam beg Ziploc.
Gemini Robotics-ER: Model Bahasa Visual yang Memfokuskan pada Penaakulan Ruang
Gemini Robotics-ER ialah model visual-linguistik lanjutan yang memfokuskan pada penaakulan spatial, membenarkan ahli robotik untuk berintegrasi dengan pengawal peringkat rendah sedia ada mereka. Menggunakan model ini, pakar robot akan mempunyai semua langkah untuk mengawal robot sekali gus, termasuk persepsi, anggaran keadaan, pemahaman spatial, perancangan dan penjanaan kod.
Masa Depan Robotik Gemini
Google bekerjasama dengan Apptronik untuk membina robot humanoid berdasarkan model Gemini 2.0. Google juga bekerjasama dengan beberapa rakan kongsi ujian yang dipercayai, termasuk Robot Agile, Robotik Ketangkasan, Dinamik Boston dan Alat Terpesona, untuk membimbing pembangunan Gemini Robotics-ER pada masa hadapan.
Dengan membolehkan robot memahami dan melaksanakan tugas yang kompleks dengan ketepatan dan kebolehsuaian yang lebih tinggi, Google DeepMind sedang membuka jalan untuk masa depan di mana robot boleh menyepadukan dengan lancar ke dalam banyak aspek kehidupan kita.