School of Information Systems

Super Mario Bros. Dijadikan Benchmark AI oleh Peneliti UC San Diego

Peneliti dari Laboratorium Hao AI di University of California, San Diego, telah memperkenalkan metode baru dalam menguji kemampuan kecerdasan buatan (AI). Mereka menggunakan game klasik Super Mario Bros. sebagai tolok ukur untuk menilai performa model bahasa besar (large language models/LLM). Pendekatan inovatif ini memberikan perspektif baru dalam mengevaluasi kemampuan AI dalam memahami konteks, membuat keputusan, dan beradaptasi dengan lingkungan yang dinamis.

Benchmarking AI sering kali menjadi topik kontroversial, dengan perusahaan-perusahaan yang cenderung menyoroti hasil yang menguntungkan dan menyembunyikan yang kurang mengesankan. Alih-alih hanya mengandalkan ujian matematika dan logika, para peneliti di Hao AI Lab mengusulkan pendekatan yang lebih intuitif bagi manusia: menguji AI melalui game Super Mario Bros. Jika AI tidak dapat menavigasi rintangan seperti Goombas dan Koopa Troopas dengan strategis, apakah kita bisa benar-benar mempercayainya untuk menghadapi kompleksitas dunia nyata?

Eksperimen ini menggunakan versi emulator dari Super Mario Bros. yang diintegrasikan dengan framework khusus bernama GamingAgent. Sistem ini memungkinkan model AI mengendalikan Mario dengan menghasilkan kode Python. Untuk membantu navigasi, model AI diberikan instruksi dasar, seperti “Lompat melewati musuh itu,” serta visualisasi dalam bentuk tangkapan layar dari kondisi permainan.

Meskipun Super Mario Bros. tampak sebagai permainan sederhana dengan mekanisme 2D, penelitian ini menemukan bahwa AI harus mampu merencanakan urutan gerakan yang kompleks dan beradaptasi secara real-time terhadap perubahan lingkungan permainan.

Source: Hao AI Lab

Dalam pengujian ini, model yang menunjukkan performa terbaik adalah Claude 3.7 dari Anthropic. Model ini mampu menghubungkan lompatan dengan presisi tinggi serta menghindari musuh dengan keterampilan yang mengesankan. Bahkan versi sebelumnya, Claude 3.5, masih menunjukkan kinerja yang baik.

Sebaliknya, model AI yang lebih terkenal dalam aspek penalaran, seperti GPT-4o dari OpenAI dan Gemini 1.5 Pro dari Google, justru tertinggal. Meskipun dikenal memiliki kemampuan penalaran yang kuat, model-model ini mengalami kesulitan dalam menghadapi tuntutan permainan.

Penelitian ini mengungkap bahwa kunci keberhasilan dalam Super Mario Bros. bukanlah logika atau penalaran mendalam, melainkan timing yang tepat. Keterlambatan sekecil apa pun dalam pengambilan keputusan dapat menyebabkan Mario jatuh ke dalam lubang. Para peneliti menyimpulkan bahwa model AI dengan proses pemikiran lebih deliberatif cenderung membutuhkan waktu lebih lama untuk mengambil keputusan, yang pada akhirnya menyebabkan kegagalan dalam permainan.

Tentu saja, menggunakan video game retro sebagai tolok ukur AI lebih bersifat eksperimen yang menyenangkan daripada evaluasi serius. Meskipun kemampuan AI dalam menaklukkan Super Mario Bros. tidak secara langsung mencerminkan kegunaannya di dunia nyata, melihat model AI canggih berjuang dalam permainan yang tampaknya sederhana tetap menjadi tontonan yang menarik.

Referensi:

TechSpot. (2024, March 4). Move over math and reasoning – it’s time to benchmark AI using Super Mario Bros. Retrieved from https://www.techspot.com/news/107011-move-over-math-reasoning-time-benchmark-ai-using.html

Muhammad Thaha Rizieq Hentihu