Deteksi Aktivitas SOP di Cleanroom Menggunakan Video dan Deep Learning

Dalam industri dengan lingkungan terkendali seperti cleanroom—misalnya di bidang farmasi, semikonduktor, atau laboratorium canggih—prosedur operasional standar (SOP) sangat ketat dan wajib diikuti untuk mencegah kontaminasi. Salah satu tantangan yang dihadapi dalam menjaga kualitas cleanroom adalah memastikan bahwa setiap orang yang masuk telah menjalankan SOP secara benar, seperti membersihkan bagian tubuh tertentu dengan peralatan yang disediakan. Proses verifikasi ini sering dilakukan secara manual oleh petugas, yang tentunya memakan waktu dan tidak selalu efisien. Untuk menjawab tantangan ini, penelitian ini mengusulkan sistem pengenalan aktivitas manusia berbasis video yang dapat bekerja secara otomatis dan real-time untuk mendeteksi apakah seseorang telah mengikuti SOP dengan benar sebelum masuk ke cleanroom.
Gambar 1. Ilustrasi sistem pengenalan aktivitas manusia berbasis video untuk memantau kepatuhan SOP. Gambar ini dibuat oleh ChatGPT (OpenAI) sebagai ilustrasi berbasis AI berdasarkan isi artikel ilmiah terkait.
Sistem yang dikembangkan dalam penelitian ini menggabungkan dua komponen utama: deteksi dan pelacakan objek menggunakan YOLOX-Tiny, serta klasifikasi aktivitas manusia menggunakan model deep learning berbasis 3D Convolutional Neural Network (3D CNN). YOLOX-Tiny dipilih karena ringan dan cukup cepat untuk dijalankan di perangkat komputer biasa, sementara 3D CNN digunakan untuk mengekstrak informasi dari video secara mendalam, tidak hanya dari sisi visual statis tetapi juga dari urutan gerakan (spatiotemporal features). Model CNN yang digunakan memiliki arsitektur depthwise yang dirancang khusus agar tetap efisien tanpa mengorbankan akurasi, memungkinkan sistem memproses video secara real-time meskipun tanpa dukungan GPU yang mahal.
Data video yang digunakan untuk melatih model dikumpulkan dari lingkungan simulasi cleanroom. Aktivitas yang diamati termasuk gerakan seperti menyeka kaki, membersihkan kepala, dan menggosok bagian punggung menggunakan alat kebersihan khusus. Setiap video dipotong menjadi klip pendek dan dilabeli berdasarkan aktivitas yang terjadi. Proses pelatihan model kemudian dilakukan untuk membedakan antara berbagai aktivitas ini. Setelah dilatih, sistem dapat mengambil input dari video, mendeteksi keberadaan orang di dalamnya, melacak gerakan masing-masing individu, dan memutuskan apakah gerakan tersebut sesuai dengan SOP yang telah ditentukan.
Dalam pengujian awal menggunakan video dengan satu orang, sistem menunjukkan performa yang sangat baik. Aktivitas dapat dikenali dengan tingkat akurasi yang tinggi, dan keputusan sistem selaras dengan evaluasi manual. Namun, ketika diuji menggunakan video yang melibatkan lebih dari satu orang secara bersamaan, sistem mengalami kesulitan dalam membedakan gerakan antar individu. Tantangan seperti saling menutupi (occlusion), variasi gerakan antar orang, serta kesamaan postur menyebabkan penurunan akurasi secara signifikan. Meskipun demikian, sistem tetap menunjukkan potensi besar untuk digunakan dalam aplikasi nyata, terutama dalam kondisi yang terkendali atau semi-terkontrol.
Salah satu keunggulan utama dari sistem ini adalah kemampuannya beroperasi di perangkat komputasi standar tanpa perlu GPU tambahan, sehingga memungkinkan implementasi di banyak fasilitas tanpa beban biaya tinggi. Sistem ini juga dapat terintegrasi dengan kamera keamanan atau sistem pengawasan yang sudah ada, menjadikannya sebagai solusi praktis dan ekonomis untuk meningkatkan kepatuhan SOP secara otomatis. Jika digunakan secara luas, sistem seperti ini dapat membantu organisasi meningkatkan efisiensi operasional, mengurangi risiko kesalahan manusia, dan menjaga standar kebersihan yang lebih tinggi secara konsisten.
Sebagai penutup, penelitian ini memberikan kontribusi yang relevan dalam bidang pengenalan aktivitas manusia (Human Activity Recognition – HAR) dengan pendekatan yang efisien dan aplikatif. Meskipun masih terdapat tantangan dalam menangani situasi kompleks dengan banyak orang, solusi awal yang ditawarkan sudah cukup menjanjikan. Untuk pengembangan selanjutnya, peneliti menyarankan perluasan dataset, pelatihan model yang lebih beragam, serta integrasi dengan sistem pelacakan yang lebih canggih agar sistem dapat mengenali aktivitas dalam kondisi lebih ramai dan beragam. Dengan pendekatan yang tepat, teknologi ini dapat menjadi bagian penting dalam sistem otomatisasi industri yang mengutamakan kepatuhan, kebersihan, dan keselamatan kerja.
Catatan:
Tulisan ini disarikan dari makalah berjudul Real-time Human Activity Recognition Using Convolutional Neural Network Methods and Deep Gated Recurrent Unit oleh R. Fajar, S.-Y. Chou, dan A. Dewabharata, yang dipresentasikan dalam IEEE International Conference on Industrial Engineering and Engineering Management (IEEM) 2023.