Claude AI sekarang dapat mengambil alih mouse dan keyboard Anda.
Kredit: Antropis
Jika Anda selalu ingin mengalihkan sebagian dari kesibukan komputasi Anda yang membosankan ke kecerdasan buatan, masa depan itu kini semakin dekat: Model AI Claude 3.5 Sonnet yang diperbarui yang baru saja dirilis Anthropic mampu mengambil alih mouse dan keyboard Anda, serta menyelesaikan tugas. dengan sendirinya.
Saat ini, ini hanya dalam pengujian beta, dan hanya tersedia untuk pengembang dengan akses ke API Claude, namun lebih jauh lagi, kita semua bisa mendapatkan AI untuk mengisi formulir, memindahkan file, mencari informasi di web, dan melakukan semua tugas lain yang sebelumnya kita andalkan dengan jari dan jempol kita.
Namun yang pertama, model Claude yang diperbarui: Anthropic kini telah menyingkirkan pengguna Claude 3.5 Sonnet, yang dikatakan menawarkan “peningkatan menyeluruh” dan peningkatan yang sangat signifikan dalam hal kemampuan pengkodean, dengan peningkatan kinerja yang signifikan pada pengujian benchmarking standar ( termasuk bangku SWE, berdasarkan GitHub).
Lalu ada Claude 3.5 Haiku, versi baru model AI yang lebih cepat, lebih ringan, lebih murah, dan kurang bertenaga yang ditawarkan oleh Anthropic. Sekali lagi, kinerja menyeluruh telah ditingkatkan, kata perusahaan, dan seperti halnya Sonnet, ada keuntungan khusus dalam hal kemampuan pengkodean.
Kemampuan penggunaan komputerlah yang akan mendapat perhatian paling besar, diaktifkan sebagai bagian dari pembaruan Claude 3.5 Sonnet, dan menjanjikan untuk membawa otomatisasi desktop ke tingkat berikutnya. Namun, untuk saat ini, Anthropic menekankan bahwa ini adalah produk beta.
Penggunaan komputer di Claude 3.5 Soneta
Pada video demo Anthropic di bawah ini, terlihat Claude AI bertugas mengisi formulir. Berbagai informasi yang diperlukan untuk formulir ini perlu diambil dari database dan tab browser yang berbeda—tetapi yang harus dilakukan pengguna hanyalah meminta formulir diisi, dan memberikan indikasi di mana informasi yang diperlukan dapat ditemukan.
Saat Claude mengerjakan tugasnya, ia mengambil tangkapan layar dan mempelajarinya untuk melihat apa yang dilihatnya—yang serupa dengan kemampuan pengenalan dan analisis gambar yang sudah terkenal di AI. Ia kemudian mencari tahu apa yang perlu dilakukan selanjutnya berdasarkan apa yang ada di layar dan instruksi yang telah diberikan.
Dalam hal ini, AI cukup pintar untuk menyadari bahwa ia perlu beralih ke tab browser lain dan menjalankan pencarian nama perusahaan untuk menemukan beberapa informasi yang dicarinya. Pergerakan kursor, klik kursor, dan pengetikan semuanya ditangani oleh Claude sepanjang prosesnya. Bot dapat mengidentifikasi data yang benar, dan menyalinnya ke kolom yang benar di formulir.
Pada akhirnya, Claude cukup pintar untuk mengenali dan memilih tombol pengiriman formulir di layar, yang kemudian menyelesaikan tugasnya—semuanya sementara pengguna melihatnya. Tampaknya model AI mampu memahami apa yang ada di layar dan mencari tahu cara memanipulasinya untuk menyelesaikan tugas.
Namun, Anthropic mencatat bahwa tugas-tugas dasar seperti menggulir, menyeret, dan memperbesar tampilan masih “menimbulkan tantangan” bagi Claude, dan penguji beta didorong untuk mengujinya menggunakan skenario “berisiko rendah” untuk saat ini. Dalam benchmark OSWorld, yang mengukur seberapa baik AI dalam melakukan tugas komputasi, Claude 3.5 Sonnet ternyata mendapat skor 14,9% (manusia biasanya mendapat skor sekitar 70-75%).
Claude sekarang dapat mengikuti petunjuk untuk menjalankan tugas komputer.
Kredit: Antropis
Pengembang di balik kemampuan baru ini tidak takut untuk menunjukkan beberapa kesalahan yang dapat terjadi: Dalam satu pengujian, Claude membatalkan perekaman layar tanpa alasan yang jelas. Di sisi lain, bot tiba-tiba dan secara acak beralih dari tugas pengkodean untuk mulai menelusuri foto online Taman Nasional Yellowstone.
Anthropic juga mencatat bahwa setiap langkah maju dalam AI dapat menimbulkan kekhawatiran baru terhadap keselamatan. Berdasarkan audit yang dilakukan oleh tim kepercayaan dan keselamatan internal, kemampuan penggunaan komputer yang ada saat ini tidak menimbulkan risiko yang lebih besar terhadap keamanan sistem—meskipun hal ini akan terus dievaluasi ulang. Terlebih lagi, tidak ada data yang dikirimkan pengguna (termasuk tangkapan layar yang diambil) yang akan digunakan untuk melatih model Claude AI.