EMO (Emotive Portrait Alive) ialah AI generatif baharu yang diselidik oleh Institut Pengkomputeran Pintar (IIC) Alibaba dengan keupayaan untuk "secara ajaib" mengubah sebarang imej kepada bercakap dan menyanyi secara realistik.
Dengan kata lain, AI Alibaba boleh menukar imej rujukan statik dan audio suara menjadi video yang boleh bercakap dan menyanyi dengan ekspresi semula jadi.
AI sebelumnya hanya mengubah bentuk mulut dan sebahagian muka, manakala EMO boleh mencipta ekspresi muka, ekspresi mulut semula jadi, penyegerakan bibir yang tepat, menggerakkan kening, mata berkerut atau bergoyang mengikuti muzik.
Alibaba telah mengeluarkan beberapa video yang menunjukkan bagaimana imej akan bertukar menjadi video dan menyanyikan lagu yang diimport dengan cepat. EMO menyokong bahasa Inggeris, Cina dan banyak bahasa lain.
Alibaba mendedahkan bahawa agar EMO dapat mencipta ekspresi muka yang realistik, ia dilatih dengan sejumlah besar data imej, audio dan video melalui model penyebarannya sendiri yang dipanggil Audio2Video.
Untuk menangani cabaran utama semasa realisme dan ekspresif dalam penjanaan video daripada imej dan bunyi, pasukan penyelidik menumpukan pada hubungan dan nuansa antara isyarat audio dan pergerakan muka, memintas hubungan model 3D pertengahan atau tanda tempat muka, peralihan bingkai dengan lancar dan mengekalkan konsistensi dalam video.
Alibaba tidak mendedahkan bila ia akan mengeluarkan AI ini kepada umum, tetapi telah menerbitkan data EMO di Github, dan kertas penyelidikan yang disiarkan di ArXiv.