Google Rilis Gemini Omni, AI yang Bisa Edit Video via Prompt Teks

31 Mei 2026 4 Min Read

Google kembali mengguncang panggung kecerdasan buatan lewat peluncuran Gemini Omni dalam ajang Google I/O 2026. Teknologi AI terbaru ini membawa gebrakan besar: pengguna kini dapat mengedit video hanya dengan mengetikkan perintah teks sederhana. Tanpa perlu membuka perangkat lunak editing yang rumit, Gemini Omni hadir sebagai asisten kreatif yang memahami niat pengguna dari berbagai jenis masukan—teks, gambar, audio, hingga video.

Mengenal Gemini Omni: Model AI Multimodal Generasi Baru

CEO Google, Sundar Pichai, menyebut Gemini Omni sebagai langkah lanjutan perusahaan dalam menciptakan model AI multimodal yang benar-benar terpadu. “(Gemini Omni) bisa menciptakan apa pun dari input apa pun,” ujarnya dalam sesi briefing media. Pernyataan ini mencerminkan ambisi Google untuk menghadirkan AI yang tidak hanya piawai memahami perintah, tetapi juga menghasilkan konten dalam berbagai format secara serempak.

Berbeda dengan pendahulunya yang biasanya terpisah-pisah, Gemini Omni dirancang untuk memproses dan menghasilkan teks, gambar, audio, serta video dalam satu sistem. Artinya, pengguna bisa menggabungkan beberapa elemen sekaligus dalam satu prompt, misalnya menyisipkan foto produk, klip suara latar, dan instruksi teks, lalu AI akan merangkainya menjadi video yang konsisten secara naratif dan visual.

Kemampuan Edit Video dan Foto Lewat Perintah Teks

Fitur utama yang langsung mencuri perhatian adalah kemampuan mengedit video secara instan. Pengguna cukup menuliskan apa yang ingin diubah—seperti “hapus objek di latar belakang” atau “ubah warna baju menjadi merah”—dan Gemini Omni akan mengeksekusinya. Kemampuan ini juga berlaku untuk foto, mirip dengan fitur Nano Banana yang sebelumnya sudah diperkenalkan Google untuk penyuntingan gambar berbasis teks.

Namun, Gemini Omni bukan sekadar “menempelkan” berbagai media. Model ini diklaim memahami konteks lebih dalam: unsur fisika, budaya, sejarah, hingga sains. Dalam salah satu demo, Omni diminta membuat “video claymation tentang protein folding”. Hasilnya adalah animasi stop-motion lengkap dengan narasi suara yang menjelaskan proses pelipatan protein secara ilmiah—menunjukkan bahwa AI tidak hanya menghasilkan visual, tetapi juga narasi yang terdidik.

Kolaborasi Gemini dan Veo untuk Kualitas Video Realistis

Di balik layar, Gemini Omni menggabungkan kecerdasan model Gemini dengan kemampuan rendering video dari model media Google, termasuk Google Veo. Director of Product Management Google DeepMind, Nicole Brichtova, menegaskan bahwa Omni bukan sekadar pembaruan dari Veo. “Ini adalah langkah berikutnya dalam menggabungkan kecerdasan Gemini dengan kemampuan rendering model media kami,” jelasnya. Integrasi ini memungkinkan video yang dihasilkan memiliki konsistensi visual tinggi serta pemahaman naratif yang lebih matang.

Dengan fondasi tersebut, Google optimistis Gemini Omni bisa melayani beragam kebutuhan kreatif, mulai dari konten media sosial pendek hingga proyek profesional yang memerlukan akurasi visual. Meski demikian, versi awal yang dirilis masih memiliki batasan durasi—hanya 10 detik per video—bukan karena keterbatasan teknis model, melainkan keputusan strategis agar lebih banyak pengguna dapat segera mencoba dan memberikan umpan balik.

Avatar Digital Pribadi dan Pencegahan Deepfake

Google juga memperkenalkan fitur avatar digital pribadi yang memungkinkan pengguna membuat video dengan wajah mereka sendiri. Fitur ini mengingatkan pada Cameos yang sempat populer di aplikasi Sora milik OpenAI. Namun, untuk mencegah penyalahgunaan, Google menerapkan proses verifikasi ketat. Pengguna wajib merekam wajah sambil mengucapkan serangkaian angka tertentu sebelum avatar digital dibuat dan disimpan.

Seluruh video buatan Gemini Omni juga akan dibekali watermark digital SynthID. Teknologi ini memungkinkan siapa pun memverifikasi apakah sebuah konten video dihasilkan oleh AI Google. Langkah ini menjadi bagian dari komitmen Google untuk membangun ekosistem AI yang bertanggung jawab, di tengah meningkatnya kekhawatiran publik terhadap deepfake dan misinformasi visual.

Ketersediaan dan Rencana ke Depan

Model pertama yang dirilis adalah Gemini Omni Flash, yang sudah tersedia di aplikasi Gemini, YouTube Shorts, dan studio kreatif AI bernama Flow. Versi Flash ini memang dibatasi untuk video pendek, namun cukup untuk menjajal kemampuan dasar pengeditan dan pembuatan konten secara instan. Google juga menyiapkan akses bagi kalangan profesional dan bisnis melalui API yang akan dibuka dalam beberapa pekan ke depan, sehingga developer dan perusahaan dapat mengintegrasikan Omni ke dalam alur kerja mereka.

Untuk kebutuhan yang lebih berat, Google telah menyiapkan versi lebih canggih bernama Omni Pro. Model ini diklaim memiliki performa lebih tinggi dan ditujukan untuk penggunaan profesional, meski jadwal peluncuran pastinya belum diumumkan. Langkah ini menunjukkan bahwa Google tidak hanya bermain di ranah konsumen, tetapi juga serius merambah pasar enterprise dengan solusi AI multimodal yang komprehensif.

Mengapa Gemini Omni Penting bagi Pengguna?

Kehadiran Gemini Omni menandai pergeseran besar dalam cara kita berinteraksi dengan alat kreatif. Jika sebelumnya pengeditan video memerlukan keahlian teknis dan perangkat lunak khusus, kini hambatan itu runtuh. Siapa pun dengan ide dan kemampuan menulis prompt dapat menghasilkan konten visual berkualitas. Ini membuka peluang bagi kreator pemula, pelaku UMKM, hingga pendidik untuk memproduksi materi audio-visual tanpa bergantung pada editor profesional.

Lebih dari itu, integrasi pemahaman multimodal membuat AI tidak hanya menjadi alat, tetapi mitra kreatif yang memahami konteks. Baik untuk membuat konten pemasaran, materi pembelajaran, atau sekadar berekspresi, Gemini Omni menjanjikan efisiensi dan kebebasan baru. Dengan tetap mengedepankan keamanan lewat SynthID dan verifikasi avatar, Google berusaha menjawab kebutuhan zaman tanpa mengabaikan tanggung jawab etis. Kini, masa depan editing video ada dalam genggaman—cukup dengan kata-kata.