
Ada keuntungan besar di jantung web: Sepotong kecil kode yang menjaga ketertiban selama beberapa dekade.
Robots.txt memungkinkan pemilik situs web memilih apakah akan membiarkan Google dan raksasa teknologi lainnya menghapus konten online mereka. Sebagian besar situs membiarkan Google melakukan hal ini karena perusahaan mendistribusikan begitu banyak lalu lintas yang berharga.
Kemudian, perang AI dimulai. Ternyata semua konten ini telah disimpan dalam kumpulan data yang menjadi dasar untuk melatih model AI yang kuat, termasuk dari OpenAI, Google, Meta, dan lainnya. Model ini sering kali menjawab pertanyaan pengguna secara langsung, sehingga lebih sedikit lalu lintas yang didistribusikan dan tawar-menawar web yang besar mulai terurai.
Salah satu respons Google adalah meluncurkan alat baru yang memungkinkan situs web memblokir perusahaan menggunakan konten mereka untuk melatih model AI. Ini disebut Google-Diperluas. Itu keluar pada bulan September, dan mendapatkan beberapa pickup.
Data yang dibagikan oleh Originality.ai menunjukkan cuplikan Google-Diperluas digunakan oleh sekitar 10% dari 1.000 situs web teratas, pada akhir Maret.

The New York Times telah mengaktifkan pemblokir Google-Extended, menurut tinjauan file robots.txt-nya. Publikasi tersebut, yang sedang dalam pertarungan sengit hak cipta AI dengan OpenAI, juga telah memblokir akses startup tersebut ke kontennya.
Perusahaan ini sedang berselisih dengan perusahaan lain yang memanfaatkan data online untuk pelatihan model AI, atau mengompilasi jenis data ini untuk digunakan orang lain dengan cara serupa.
“Penggunaan perangkat, alat, atau proses apa pun yang dirancang untuk menambang data atau mengikis konten menggunakan cara otomatis dilarang tanpa izin tertulis sebelumnya,” NYT menyatakan di halaman robots.txt-nya.
Penggunaan yang dilarang mencakup “pengembangan perangkat lunak apa pun, pembelajaran mesin, kecerdasan buatan (AI), dan/atau model bahasa besar (LLM),” tambah penerbitnya. Juru bicara NYT menolak berkomentar.
Untuk Google-Extend, situs web lain juga telah mengaktifkan fitur ini, termasuk CNN, BBC, Yelp, dan Business Insider, penerbit artikel ini.
Namun, Google-Exended memiliki perolehan yang jauh lebih sedikit dibandingkan GPTBot OpenAI, yang berada di sekitar 32% dari 1.000 situs web teratas. CCBot, yang ditawarkan oleh Common Crawl, juga telah lebih banyak diaktifkan.
BI bertanya kepada CEO Originality.ai Jonathan Gillham mengapa Google-Extend digunakan lebih sedikit dibandingkan pemblokir data pelatihan AI lainnya.
Dia mengatakan ada risiko jika situs web memblokir akses Google ke data pelatihan, kontennya tidak akan disertakan dalam keluaran model AI perusahaan di masa mendatang.
“Jika pertanyaannya adalah ‘Pizza deep-dish apa yang terbaik di Chicago?’ dan sebuah toko Pizza mengecualikan AI Google dari penggunaan data situs webnya untuk berlatih, maka toko tersebut tidak akan mengetahui apa pun tentang restoran tersebut dan tidak dapat memasukkannya ke dalam responsnya,” jelas Gillham.
Google menekankan bahwa penggunaan Google-Extend tidak memengaruhi tampilan situs web di hasil Penelusuran. Hal ini termasuk versi Search baru yang didukung genAI, yang disebut Search Generative Experience, atau SGE, yang sedang dalam tahap pengujian awal.
Tidak jelas apakah Google akan meluncurkan SGE sepenuhnya di masa depan, atau seberapa besar perbedaannya dengan mesin pencari Google tradisional.
Keputusan-keputusan tersebut akan sangat menentukan masa depan web di dunia AI baru ini.
Sumber: businessinsider.com
Email: info@konsultanpendidikan.com


