Amazon hari ini memperkenalkan Nova Sonic, model pertuturan ke pertuturan lanjutan yang membolehkan pembangun membina aplikasi yang boleh bercakap dengan suara seperti manusia dalam masa nyata. Amazon mendakwa model audio baharu ini mempunyai prestasi harga terkemuka industri dan kependaman rendah.
Biasanya, membangunkan aplikasi berdaya suara memerlukan pembangun bekerja dengan berbilang model pada masa yang sama:
- Model pengecaman pertuturan untuk menukar audio kepada teks.
- Model Bahasa Besar (LLM) untuk memahami dan menjana respons.
- Model teks ke pertuturan.
Pendekatan ini bukan sahaja kompleks, tetapi juga sering terlepas konteks akustik yang penting seperti nada, prosodi, dan gaya pertuturan.

Nova Sonic menangani cabaran ini dengan menyepadukan pemahaman dan penjanaan yang kukuh ke dalam satu model. Pendekatan bersatu membantu model menangkap nada, gaya dan input audio, mewujudkan lebih banyak dialog semula jadi. Ia juga menentukan masa tindak balas yang sesuai dan mengendalikan masuk dengan lebih baik.
Nova Sonic menyokong suara lelaki dan perempuan dengan banyak loghat Inggeris seperti Amerika, Inggeris. Pembangun boleh mengakses model melalui Amazon Bedrock menggunakan API penstriman dua arah yang menyokong panggilan fungsi. Model ini juga dilengkapi dengan ciri perlindungan terbina dalam seperti penyederhanaan kandungan dan penanda air.
Dalam hal ini, OpenAI bulan lepas mengumumkan model pertuturan ke teks generasi baharu – gpt-4o-transcribe dan gpt-4o-mini-transcribe – dengan peningkatan ketara dalam kadar ralat perkataan, pengecaman bahasa dan ketepatan berbanding model Whisper sebelumnya.