o1, model AI generatif terbaru OpenAI, telah hadir. Perusahaan mengumumkan o1-preview dan o1-mini pada hari Kamis, yang menandai perubahan dari skema penamaan GPT. Ada alasan bagus untuk itu: OpenAI mengatakan bahwa tidak seperti model lainnya, o1 dirancang untuk menghabiskan lebih banyak waktu “memikirkan” masalah sebelum memberikan hasil—dan juga akan menunjukkan kepada Anda bagaimana ia memecahkan masalah Anda.
Dalam pengumuman OpenAI, perusahaan tersebut mengatakan bahwa “proses berpikir” baru ini membantu modelnya mencoba taktik baru dan memikirkan kesalahan mereka. Menurut perusahaan tersebut, o1 memiliki kinerja “mirip dengan mahasiswa PhD” dalam bidang biologi, kimia, dan fisika. Jika GPT-4o memecahkan 13% soal pada Olimpiade Matematika Internasional, o1 dilaporkan memecahkan 83%. Perusahaan tersebut juga menekankan bagaimana model tersebut lebih efektif untuk pengodean dan pemrograman. “Berpikir” itu berarti o1 membutuhkan waktu lebih lama untuk merespons daripada model sebelumnya.
Seperti yang dikatakan oleh pimpinan penelitian OpenAI Jerry Tworek kepada The Verge, o1 dilatih melalui pembelajaran penguatan. Alih-alih mencari pola dari rangkaian pelatihan, o1 belajar melalui “hadiah dan hukuman.” OpenAI merahasiakan metodologi pasti yang digunakan, tetapi mengatakan model pemikiran baru ini tidak terlalu berhalusinasi dibandingkan model sebelumnya—meskipun masih berhalusinasi.
Ada dua versi o1: o1-preview, yang merupakan versi model yang sepenuhnya bertenaga, dan o1-mini, versi yang lebih ringan yang dilatih pada kerangka kerja yang serupa. Perusahaan tersebut dilaporkan mengirimkan model-model ini lebih awal dalam pengembangan, dan mengatakan bahwa itulah alasan mereka tidak menyertakan fitur GPT standar seperti akses web dan pengunggahan file dan gambar.
Apakah o1-preview menganggap hot dog adalah sandwich?
Saya akui, saya bukan seorang programmer, dan saya juga tidak memiliki banyak soal matematika tingkat lanjut yang harus dipecahkan setiap hari. Hal itu membuat sulit untuk menguji model-model terbaru OpenAI dengan benar untuk mengetahui kekuatan dan kasus penggunaan yang diusulkan. Sebagai pihak yang tidak paham teknis, yang dapat saya hargai adalah proses berpikir o1-preview: Saat Anda meminta model baru, model tersebut sekarang menampilkan pesan umpan balik saat mengerjakan pertanyaan tersebut. (misalnya “Berpikir…”) Setelah selesai, model tersebut menampilkan hasil seperti yang Anda harapkan, tetapi dengan menu tarik-turun di atas.
Saya menggunakan pertanyaan yang disarankan OpenAI, “Apakah hot dog termasuk sandwich,” jawabannya didahului oleh pesan yang berbunyi “Berpikir selama 4 detik.” (Ngomong-ngomong, jawabannya berjumlah tiga paragraf, “tergantung.”)
Pokoknya, ketika saya mengklik menu tarik-turun “Berpikir selama 4 detik”, saya melihat penalaran model: Untuk perintah ini, model membagi prosesnya menjadi dua bagian. Bagian pertama, “Menganalisis pertanyaan,” berbunyi: “Baiklah, coba saya lihat. Pertanyaan tentang apakah hot dog adalah sandwich melibatkan pemahaman semantik dan mempertimbangkan kebijakan OpenAI, berfokus pada akurasi dan menghindari opini pribadi atau konten yang tidak diperbolehkan.” Bagian kedua, “Meneliti definisi,” berbunyi: “Saya berpikir apakah hot dog adalah sandwich dengan melihat definisi dan pandangan budaya. Ini menunjukkan ruang untuk perdebatan.” Saya rasa itu saja pemikiran yang dibutuhkan untuk menjawab pertanyaan tersebut.
Bagaimana dengan taco? Apakah itu roti lapis?
Saya juga meminta o1 untuk menanggapi masalah kontroversial lain yang melibatkan makanan: Apakah taco termasuk sandwich? Model tersebut punya banyak hal untuk dikatakan.
Setelah berpikir selama lima detik penuh, AI memberikan respons 364 kata. Proses berpikirnya meliputi fokus pada definisi, klarifikasi definisi (“Saya mendefinisikan taco berdasarkan bahan utamanya: tortilla, isian, dan saus. Ini membantu dalam memahami apakah taco sesuai dengan definisi sandwich.”), dan memeriksa perspektif (“Saya sedang meneliti klasifikasi taco dan sandwich, menggarisbawahi perbedaan kulinernya: taco menggunakan tortilla, sandwich menggunakan roti; taco berakar dari budaya masakan Meksiko, sementara sandwich berasal dari pengaruh Eropa.”)
Mengakui bahwa ini adalah “topik perdebatan,” ia beralasan jawabannya bergantung pada definisi dari tradisi kuliner, konteks budaya, dan bahkan interpretasi hukum,” mempertimbangkan “perbedaan utama” (khususnya, tidak ada roti di dalam taco, dan sementara sandwich melibatkan penempatan bahan-bahan di antara potongan roti, taco melibatkan penempatan bahan-bahan di antara potongan roti). ke atas tortilla).
Jika mempertimbangkan semua hal, o1 menyimpulkan bahwa taco adalah bukan sandwich, menurut “sebagian besar pakar kuliner dan penggemar makanan”—bahkan mengutip kasus hukum di mana seorang hakim memutuskan bahwa burrito bukanlah sandwich. (Berikut konteksnya, jika Anda tertarik.)
Tapi apakah taco adalah hot dog?
Sebagai tindak lanjut, saya bertanya kepada o1 apakah mereka akan menggolongkan taco sebagai hot dog. Setelah sembilan detik, mereka memberikan jawaban pasti: “Meskipun taco dan hot dog sama-sama melibatkan penempatan isian di dalam bentuk roti atau alas seperti roti, keduanya tidak sama dan termasuk dalam kategori kuliner yang berbeda.” Itu dia, internet. Anda dapat berhenti berdebat tentang hal ini.
Mari kita coba yang lain. Saya memilih perintah kedua yang disarankan OpenAI: “Buat teka-teki nonogram 6×6 untuk saya pecahkan, yang kisi-kisinya tampak seperti huruf Q.”
Seperti yang mungkin Anda duga dari permintaan yang lebih sulit, o1-preview membutuhkan waktu lebih lama untuk memproses tugas ini—tepatnya 84 detik. Ia memberikan teka-teki seperti itu, dengan instruksi tentang cara menyelesaikannya. Dengan mengklik menu tarik-turun, ia membutuhkan 36 proses pemikiran individual saat mengerjakan perintah tersebut. Dalam “Memformulasikan teka-teki,” bot tersebut berkata, “Saya sedang memikirkan proses pembuatan nonogram 6×6 yang solusinya menunjukkan huruf Q. Kita perlu mendesain kisi, memperoleh petunjuk, dan menyajikan teka-teki untuk dipecahkan.” Ia kemudian mencoba mencari tahu cara memasukkan “ekor” Q ke dalam gambar. Ia memutuskan harus menyesuaikan baris bawah tata letaknya untuk menambahkan ekor, sebelum melanjutkan mencari tahu cara menyiapkan teka-teki.
Sangat menarik untuk menelusuri setiap langkah yang diambil o1-preview. OpenAI tampaknya telah melatih model untuk menggunakan kata dan frasa seperti “OK,” “hm,” dan “Saya penasaran tentang” saat “berpikir,” mungkin dalam upaya untuk membuat model terdengar lebih manusiawi. (Apakah itu yang benar-benar kita inginkan dari AI?) Namun, jika permintaan terlalu sederhana, dan model hanya membutuhkan beberapa detik untuk menyelesaikannya, model tidak akan menunjukkan pekerjaannya.
Ini masih sangat awal, jadi sulit untuk mengetahui apakah o1 merupakan lompatan signifikan dibandingkan model AI sebelumnya. Kita perlu melihat apakah “pemikiran” baru ini benar-benar menyempurnakan kekhasan yang biasa menjadi petunjuk apakah suatu teks dibuat oleh AI atau tidak.
Cara mencoba model o1 OpenAI
Model-model baru ini tersedia sekarang, tetapi Anda harus menjadi pengguna yang memenuhi syarat untuk mencobanya. Itu berarti memiliki langganan ChatGPT Plus atau ChatGPT Team. Jika Anda adalah pengguna ChatGPT Enterprise atau ChatGPT Ed, model-model tersebut akan muncul minggu depan. Pengguna ChatGPT gratis akan mendapatkan o1-mini di masa mendatang.
Jika Anda memiliki salah satu langganan tersebut, Anda dapat memilih o1-preview dan o1-mini dari menu tarik-turun model saat memulai obrolan. OpenAI mengatakan bahwa, saat peluncuran, batas tarif mingguan adalah 30 pesan untuk o1-preview dan 50 untuk o1-mini. Jika Anda berencana untuk menguji model ini secara berkala, ingatlah hal itu sebelum membuang semua pesan Anda di hari pertama.