AI Unicorn Anthropic Rilis Claude 3, Model yang Diklaim Bisa Mengalahkan OpenAI Terbaik

Dalam sebuah wawancara, pendiri Dario dan Daniela Amodei mengatakan kepada Forbes bahwa model baru Anthropic yang berfokus pada perusahaan, yang dirilis Senin, mengungguli pesaingnya GPT-4 dan Google Gemini 1.0 Ultra.

Anthropic hari ini mengumumkan serangkaian model bahasa besar baru yang diklaim oleh perusahaan kecerdasan buatan sebagai yang paling cerdas di dunia hingga saat ini, mengungguli penawaran pesaing dari OpenAI dan Google.

Disebut Claude 3, “keluarga” model baru Anthropic hadir dalam tiga versi — Opus, Sonnet, dan Haiku — yang bervariasi berdasarkan performa dan harga. Opus, versi paling kuat dan termahal untuk dijalankan, mengungguli OpenAI GPT-4 dan Google Gemini 1.0 Ultra dalam serangkaian tolok ukur yang mengukur kecerdasan, kata perusahaan itu. Itu dan Sonnet, penawaran tingkat menengah, tersedia pada hari Senin, sementara Haiku akan dirilis pada tanggal yang diumumkan kemudian.

Dalam sebuah wawancara, salah satu pendiri dan CEO Dario Amodei mengatakan keluarga model ini dirancang dengan mempertimbangkan kasus penggunaan bisnis yang berbeda. “Claude 3 Opus, setidaknya menurut evaluasi, dalam banyak hal merupakan model dengan kinerja terbaik di dunia dalam berbagai tugas,” tambahnya.

Pada sejumlah mata pelajaran tes populer termasuk pengetahuan umum tingkat sarjana (MMLU), matematika sekolah dasar (GSM8K), kode komputer (HumanEval) dan pengetahuan tanya jawab (ARC-Challenge), Claude 3 Opus mengungguli OpenAI GPT-4 dan Gemini 1.0 Ultra dari Google, sesuai tolok ukur yang dibagikan perusahaan. Pada tolok ukur pengetahuan umum, Claude 3 Opus juga mengungguli Mistral Large, model rilisan teratas dari unicorn AI open-source Mistral, yang dirilis minggu lalu.

Namun, versi Claude 3 yang akan dilihat sebagian besar pengguna, Claude 3 Soneta, memiliki performa yang lebih setara dengan GPT-4: unggul dalam beberapa tolok ukur, dan tertinggal dalam tolok ukur lainnya. Dan Amodei mengakui bahwa tolok ukur Anthropic tidak memperhitungkan pembaruan terkini dari OpenAI dan Google (GPT-4 Turbo dan Gemini 1.5 Pro) karena rekan-rekan mereka belum menerbitkan evaluasi pengujian terkait. “Saya akan terkejut jika kami tidak tampil kompetitif,” katanya.

Dengan input $15 per juta token — setara dengan teks 2.500 halaman buku — dan output $75 per juta token, Claude 3 Opus lebih mahal daripada versi pratinjau GPT-4 Turbo OpenAI, yang masing-masing berharga $10 dan $30 per juta token. . Amodei dan salah satu pendiri serta saudara perempuannya Daniela Amodei mengatakan kepada Forbes bahwa mereka mengharapkan Opus digunakan oleh bisnis yang membutuhkan kinerja paling mutakhir untuk fungsi-fungsi seperti analisis data yang kompleks dan penelitian biomedis.

Claude 3 Sonnet, sebagai perbandingan – yang lima kali lebih murah – akan masuk akal untuk sebagian besar tugas, mereka menambahkan, dengan kegunaan mulai dari pencarian dan pengambilan di penyimpanan data besar, perkiraan penjualan dan pemasaran bertarget serta pembuatan kode.

Model berbiaya terendah, Claude 3 Haiku, harganya hanya sebagian kecil dari itu, berguna untuk interaksi langsung dengan pelanggan, moderasi konten, dan manajemen inventaris logistik. Versi Haiku masih tampil setara dengan versi andalan terakhir Anthropic, Claude 2, model pendahulunya yang dirilis delapan bulan lalu, Dario Amodei mengatakan: “Ini sangat kompetitif dengan model lain di kelas yang sama. Ini adalah keuntungan besar.”

Ketiga model tersebut akan memungkinkan permintaan hingga 200.000 token (kira-kira seukuran buku), lebih dari 128.000 yang didukung oleh GPT-4 Turbo. Pengguna Opus akan dapat meminta batas 1 juta token untuk beberapa penggunaan, kata Anthropic, sesuai dengan batas atas yang ditawarkan Google kepada beberapa pengguna Gemini 1.5 Pro.

Dibentuk oleh tujuh peneliti yang keluar dari OpenAI, Anthropic secara historis bertujuan untuk memisahkan diri dari nenek moyangnya dan perusahaan lain di bidangnya melalui fokus yang lebih dalam pada keamanan AI. Beberapa orang dalam industri bertanya-tanya apakah hal ini telah memperlambat perusahaan dan mempertanyakan kinerja modelnya dalam beberapa bulan terakhir, termasuk di media sosial. Pada papan peringkat penilai manusia crowdsourcing yang populer, Claude 1 saat ini memiliki peringkat lebih tinggi daripada penerusnya Claude 2.0 dan Claude 2.1 yang diperbarui.

Dario Amodei mengabaikan peringkat tersebut hanya sebagai evaluasi berbasis manusia terhadap sejumlah tugas konsumen yang terbatas. Dia mengakui bahwa meskipun Claude 2 lebih aman dibandingkan pendahulunya dengan cara yang memuaskan para peneliti Anthropic, hal ini mengakibatkan “penolakan yang salah” yang lebih tinggi, atau penolakan terhadap perintah yang diyakini oleh model tersebut terlalu dekat dengan batasan keselamatannya. Keluarga Claude 3 berkinerja jauh lebih baik daripada pendahulunya dalam tidak melayani penolakan tersebut, klaim Anthropic. Perintah tidak berbahaya yang kontennya mendekati batas keamanannya ditolak sekitar 10%, dibandingkan dengan 25% untuk Claude 2.1. “Sekarang kami membuat kemajuan menuju keseimbangan yang lebih baik antara keduanya, sesuatu yang membawa manfaat terbaik bagi kedua dunia,” kata Amodei. “Sangat sulit untuk menarik batasan yang rumit dengan cara yang benar. Kami selalu berusaha melakukannya dengan lebih baik.”

Sementara perusahaan seperti Inflection, Character.AI, dan bahkan OpenAI telah merambah lebih jauh ke dalam kasus penggunaan konsumen, Anthropic berfokus pada pelanggan bisnis. Pengguna chatbot konsumen gratis, juga disebut Claude, kini akan mendapatkan akses ke Sonnet, sementara individu yang ingin mencoba Opus harus berlangganan versi berbayar $20 per bulan. Namun rilis Claude 3 dibuat lebih untuk kasus penggunaan bisnis, kata Daniela Amodei. Pelanggan Claude termasuk perusahaan teknologi Gitlab, Notion, Quora dan Salesforce (seorang investor Anthropic); raksasa keuangan Bridgewater dan konglomerat SAP, serta portal penelitian bisnis LexisNexis, perusahaan telekomunikasi SK Telecom, dan Dana-Farber Cancer Institute.

Di antara pengguna uji awal Claude 3, pembuat perangkat lunak produktivitas Asana menemukan peningkatan 42% dalam waktu respons awal, kata eksekutif yang berfokus pada AI Eric Pelz dalam sebuah pernyataan. Rekan perusahaan perangkat lunaknya, Airtable, mengatakan bahwa mereka telah mengintegrasikan Claude 3 Sonnet ke dalam alat AI miliknya untuk membantu pembuatan konten dan peringkasan data yang lebih cepat.

Mengenai berapa biaya pelatihan Claude 3 – berapa banyak komputasi, dan berapa lama – salah satu pendiri Anthropic menolak untuk mengatakannya. Meskipun Claude 2 dirilis pada bulan Juli lalu, Amodei mengatakan bahwa hal tersebut bukanlah hal yang mudah, karena perusahaan terkadang melatih beberapa model sekaligus, bergantung pada ketersediaan cluster unit pemrosesan grafis, atau GPU.

Anthropic — yang baru-baru ini mengumpulkan $750 juta dengan penilaian $18,4 miliar, seperti yang dilaporkan Forbes — berencana untuk menambahkan fitur termasuk interpretasi kode, fungsi pencarian, dan kutipan sumber dalam beberapa bulan mendatang. “Kami akan terus memperluas model kami dan menjadikannya lebih cerdas, namun juga terus mencoba membuat model yang lebih kecil dan lebih murah menjadi lebih cerdas dan efisien,” kata Amodei. “Akan ada pembaruan besar dan kecil sepanjang tahun.”

Sumber: forbes.com

Alamat Lengkap Kami

Email:  info@konsultanpendidikan.com

Published by

melpadia

ig: @melpadia

Tinggalkan Balasan