Internasional Google Menimbang ‘Project Ellmann’ Menggunakan Gemini AI untuk Menceritakan Kisah Hidup

Google Menimbang ‘Project Ellmann’ Menggunakan Gemini AI untuk Menceritakan Kisah Hidup

3
0

Sebuah tim di Google telah mengusulkan penggunaan teknologi kecerdasan buatan untuk menciptakan “pandangan luas” kehidupan pengguna menggunakan data ponsel seperti foto dan pencarian.

Dijuluki “Proyek Ellmann”, diambil dari nama penulis biografi dan kritikus sastra Richard David Ellmann, idenya adalah menggunakan LLM seperti Gemini untuk mencerna hasil pencarian, mendeteksi pola dalam foto pengguna, membuat chatbot, dan “menjawab pertanyaan yang sebelumnya mustahil”, menurut a salinan presentasi yang dilihat oleh CNBC. Tujuan Ellmann, katanya, adalah menjadi “Pencerita kehidupan Anda”.

Tidak jelas apakah perusahaan berencana untuk mengintegrasikan kemampuan ini ke Google Foto atau produk lainnya. Google Foto memiliki lebih dari 1 miliar pengguna dan 4 miliar foto dan video, menurut postingan blog perusahaan.

Project Ellman hanyalah salah satu dari banyak cara yang diusulkan Google untuk membuat atau meningkatkan produknya dengan teknologi AI. Pada hari Rabu, Google memperkenalkan model AI terbarunya yang paling mumpuni dan canggih, Gemini, yang dalam beberapa kasus mengungguli GPT-4 OpenAI. Perusahaan berencana untuk melisensikan Gemini kepada berbagai pelanggan melalui Google Cloud agar mereka dapat menggunakannya dalam aplikasi mereka sendiri. Salah satu fitur menonjol Gemini adalah multimodal, artinya ia dapat memproses dan memahami informasi di luar teks, termasuk gambar, video, dan audio.

Seorang manajer produk untuk Google Foto-foto menunjukkan Proyek Ellman dengan tim Gemini pada pertemuan internal baru-baru ini, menurut dokumen yang dilihat oleh CNBC. Mereka menulis bahwa selama beberapa bulan terakhir, tim telah menentukan bahwa model bahasa besar adalah teknologi yang ideal untuk mewujudkan gambaran menyeluruh tentang kisah hidup seseorang.

Ellmann dapat menarik konteks menggunakan biografi, momen masa lalu, dan foto berikutnya untuk mendeskripsikan foto pengguna lebih dalam daripada “hanya piksel dengan tag dan metadata,” kata presentasi tersebut. Ini menyarankan untuk mengidentifikasi serangkaian momen seperti tahun-tahun di universitas, tahun-tahun di Bay Area, dan tahun-tahun sebagai orang tua.

“Kami tidak bisa menjawab pertanyaan-pertanyaan sulit atau menceritakan kisah-kisah bagus tanpa pandangan sekilas tentang hidup Anda,” demikian bunyi salah satu keterangan di samping foto seorang anak kecil yang sedang bermain dengan seekor anjing di tanah.

“Kami menyaring foto-foto Anda, melihat tag dan lokasinya untuk mengidentifikasi momen yang bermakna,” demikian bunyi slide presentasi. “Saat kami melangkah mundur dan memahami kehidupan Anda secara keseluruhan, kisah menyeluruh Anda menjadi jelas.”

Presentasi tersebut mengatakan bahwa model bahasa besar dapat menyimpulkan momen seperti kelahiran anak pengguna. “LLM ini dapat menggunakan pengetahuan dari tingkat yang lebih tinggi untuk menyimpulkan bahwa ini adalah kelahiran Jack, dan bahwa dia adalah anak pertama dan satu-satunya dari James dan Gemma.”

“Salah satu alasan mengapa LLM sangat berguna untuk pendekatan luas ini adalah karena LLM mampu mengambil konteks tidak terstruktur dari semua ketinggian yang berbeda pada pohon ini dan menggunakannya untuk meningkatkan cara LLM menafsirkan wilayah lain dalam memahami pohon tersebut,” sebuah slide terbaca, di samping ilustrasi berbagai “momen” dan “bab” kehidupan pengguna.

Presenter memberikan contoh lain untuk menetapkan bahwa salah satu pengguna baru-baru ini menghadiri reuni kelas. “Tepat 10 tahun sejak dia lulus dan penuh dengan wajah-wajah yang sudah 10 tahun tidak terlihat, jadi mungkin reuni,” pungkas tim dalam presentasinya.

Tim juga mendemonstrasikan “Ellmann Chat” dengan deskripsi: “Bayangkan membuka ChatGPT, tetapi ia sudah mengetahui segalanya tentang hidup Anda. Apa yang akan Anda tanyakan?”

Ini menampilkan contoh obrolan di mana pengguna bertanya “Apakah saya punya hewan peliharaan?” Yang menjawab ya, pengguna memiliki seekor anjing yang mengenakan jas hujan merah, dan kemudian memberikan nama anjing tersebut dan nama dua anggota keluarga yang paling sering terlihat bersamanya.

Contoh lain dari obrolan tersebut adalah pengguna menanyakan kapan terakhir kali saudara mereka berkunjung. Yang lain memintanya untuk membuat daftar kota-kota yang mirip dengan tempat tinggal mereka karena mereka sedang mempertimbangkan untuk pindah. Ellmann menawarkan jawaban untuk keduanya.

Ellmann juga menyajikan ringkasan kebiasaan makan pengguna, seperti yang ditunjukkan pada slide lain. “Sepertinya kamu menikmati makanan Italia. Ada beberapa gambar hidangan pasta, serta gambar pizza.” Dikatakan juga bahwa pengguna tersebut tampak menikmati makanan baru karena salah satu foto mereka memiliki menu dengan hidangan yang tidak dia kenali.

Teknologi ini juga menentukan produk mana yang ingin dibeli pengguna, minat mereka, rencana kerja dan perjalanan berdasarkan tangkapan layar pengguna, kata presentasi tersebut. Mereka juga menyarankan agar mereka dapat mengetahui situs web dan aplikasi favorit mereka, misalnya Google Docs, Reddit, dan Instagram.

Juru bicara Google mengatakan kepada CNBC: “Google Foto selalu menggunakan AI untuk membantu orang mencari foto dan video mereka, dan kami gembira dengan potensi LLM untuk membuka pengalaman yang lebih bermanfaat. Ini adalah ‘eksplorasi internal awal dan, sebagai selalu, jika kami memutuskan untuk meluncurkan fitur-fitur baru, kami akan meluangkan waktu untuk memastikan fitur-fitur tersebut berguna bagi banyak orang, dan dirancang untuk melindungi privasi dan keamanan pengguna sebagai prioritas utama kami.”

Perlombaan Teknologi Besar untuk Menciptakan ‘Kenangan’ Berbasis AI

Proyek Ellmann yang diusulkan dapat membantu Google dalam perlombaan senjata di antara raksasa teknologi untuk menciptakan kenangan hidup yang lebih personal.

Selama bertahun-tahun, Google Foto dan Apple Foto telah menyajikan “kenangan” dan menghasilkan album berdasarkan tren dalam foto.

Pada bulan November, Google mengumumkan bahwa Google Foto, menggunakan AI, kini dapat mengelompokkan foto-foto serupa dan mengatur tangkapan layar ke dalam album yang mudah ditemukan.

Apple mengumumkan pada bulan Juni bahwa pembaruan perangkat lunak terbarunya akan mencakup kemampuan aplikasi Foto untuk mengenali orang, anjing, dan kucing di foto mereka. Itu sudah memilah wajah dan memungkinkan pengguna untuk mencarinya berdasarkan nama.

menarik juga mengumumkan Aplikasi Jurnal yang akan datang, yang akan menggunakan AI pada perangkat untuk membuat saran yang dipersonalisasi guna meminta pengguna menulis bagian yang menggambarkan kenangan dan pengalaman mereka berdasarkan foto, lokasi, musik, dan olahraga terkini.

Namun Apple, Google, dan raksasa teknologi lainnya masih berjuang mengatasi kerumitan dalam menampilkan dan mengidentifikasi gambar dengan tepat.

Misalnya, Apple dan Google masih menghindari pelabelan gorila setelah laporan pada tahun 2015 menemukan bahwa perusahaan tersebut telah salah memberi label pada orang kulit hitam sebagai gorila. Investigasi New York Times tahun ini menemukan bahwa perangkat lunak Android Apple dan Google, yang menggerakkan sebagian besar ponsel pintar di dunia, mematikan kemampuan untuk mencari primata secara visual karena takut salah mengira seseorang sebagai binatang.

Perusahaan termasuk Google, Facebook dan Apple telah menambahkan kontrol dari waktu ke waktu untuk meminimalkan pengingat yang tidak diinginkan, namun pengguna telah melaporkan bahwa terkadang pengingat tersebut masih muncul dan mengharuskan pengguna menelusuri berbagai pengaturan untuk meminimalkannya.

Jangan lewatkan cerita ini dari CNBC PRO:

Tinggalkan Balasan