Perusahaan Teknologi Besar perlu menjadi kreatif karena kehabisan data untuk melatih model AI-nya. Berikut beberapa solusi terliarnya.

Lebih banyak lagi dalam hal AI. Semakin banyak data yang dilatih pada sistem AI, maka akan semakin kuat pula sistem tersebut.

Namun seiring memanasnya perlombaan senjata AI, raksasa teknologi seperti Meta, Google, dan OpenAI menghadapi masalah: Mereka kehabisan data untuk melatih model mereka.

Banyak sistem AI terkemuka telah dilatih mengenai pasokan data online yang sangat besar. Namun pada tahun 2026, semua data berkualitas tinggi bisa habis, menurut Epoch, sebuah lembaga penelitian AI.

Oleh karena itu, perusahaan teknologi besar mencari sumber data baru agar sistem mereka terus belajar. Berikut ini beberapa opsi paling kreatif yang sedang dipertimbangkan oleh perusahaan teknologi.

Google mempertimbangkan untuk memanfaatkan data konsumen yang tersedia di Google Dokumen, Spreadsheet, dan Slide.

google docs

Musim panas lalu, departemen hukum di Google mulai meminta karyawan untuk memperluas pemahaman seputar penggunaan data konsumen, Times melaporkan. Beberapa karyawan diberi tahu bahwa perusahaan ingin menggunakan data dari Google Dokumen versi konsumen gratis, Google Spreadsheet, Google Slide, dan bahkan ulasan restoran di Google Maps.

Meskipun Google memperbarui kebijakan privasinya pada Juli 2023, perusahaan tersebut mengatakan tidak memperluas jenis data yang digunakan untuk melatih model AI.

Menghabiskan uang di rumah penerbitan, Simon & Schuster.

Simon & Schuster

Di Meta, berkurangnya pasokan data yang dapat digunakan sangat mengkhawatirkan para eksekutif sehingga mereka bertemu hampir setiap hari pada bulan Maret dan April tahun lalu untuk bertukar pikiran tentang alternatif lain, Times melaporkan.

Salah satu ide yang muncul pada pertemuan ini adalah membeli Simon & Schuster. Penerbit terkenal ini telah bekerja sama dengan penulis seperti Stephen King dan Jennifer Weiner dan dibeli oleh perusahaan ekuitas swasta KKR seharga $1,62 miliar tahun lalu.

Peserta lain menyarankan opsi yang lebih ramah anggaran dengan membayar $10 per buku untuk mendapatkan hak lisensi penuh atas judul baru.

Menghasilkan data sintetis

Stock image from Getty

Data sintetis adalah data yang dihasilkan oleh sistem AI, dan OpenAI menganggapnya sebagai opsi untuk modelnya.

“Selama Anda dapat mengatasi peristiwa data sintetik, di mana model tersebut cukup pintar untuk membuat data sintetik yang baik, semuanya akan baik-baik saja,” kata CEO OpenAI Sam Altman pada konferensi teknologi Mei lalu, menurut Times.

Masalah dengan pelatihan sistem AI pada data sintetis adalah bahwa hal itu dapat memperkuat beberapa kesalahan dan keterbatasan AI, lapor Times. OpenAI sedang mengerjakan proses untuk mengatasi hal ini di mana satu sistem AI menghasilkan data, dan sistem AI lainnya menilainya.

Whisper, alat pengenalan suara yang menerjemahkan video YouTube

YouTube logo music

OpenAI juga telah membangun Whisper, alat pengenalan suara yang dapat menerjemahkan video dan podcast YouTube. Model bahasa besar terbarunya, GPT-4, telah dilatih pada lebih dari satu juta jam video YouTube yang ditranskripsi oleh Whisper.

Presiden OpenAI, Greg Brockman, adalah pengembang utama Whisper dan mengatakan kepada Times bahwa OpenAI bergantung pada “banyak sumber” data untuk sistemnya.

Photobucket: Harta karun berupa foto dari Myspace dan Friendster

myspace 2009

Photobucket pernah menjadi “situs hosting gambar terbaik di dunia” dan menguasai hampir separuh pasar foto online AS, menurut Reuters. Salah satu alasannya adalah karena situs ini menampung foto-foto untuk situs media sosial awal seperti Myspace dan Friendster.

Basis data gambarnya kini mungkin akan segera dilisensikan kepada perusahaan teknologi untuk melatih sistem AI mereka, menurut laporan Reuters. Photobucket menolak mengidentifikasi calon pembeli kepada Reuters.

Sumber: businessinsider.com

Alamat Lengkap Kami

Email:  info@konsultanpendidikan.com