방법론
CNN- Autoencoder를 사용
정상 이미지의 특징을 CNN으로 추출해 학습-> 학습한 정상 데이터의 특징을 기반으로 Autoencoder가 이미지를 복원 -> 복원한 이미지와 실제 이미지가 크게 다를 경우, 이상 데이터로 간주 장점 : 정상 데이터만 학습하면 됨 (이상 데이터가 필요 없음) 되도록 많은(다양한) 정상 데이터를 학습할수록 좋으며, 정상 데이터에 비정상 데이터가 포함되면 안됨
CNN-Autoencoder 방식이 더 적절할 것으로 예상됨 Sputter의 경우, 정상 데이터에 비해 비정상 데이터가 현저히 부족(SPU-01 장비 고장 시점 라벨링 총 5개) 하며, 비정상 데이터의 라벨링이 어려움 -> classification 모델로 접근하기 어려움 고장 시점 주변 데이터라고해서 모두 이상 데이터로 간주할 수는 없음 또한, 고장 시점부터 어느 시간 이전부터 이상 데이터로 간주해야하는지도 파악 어려움 CNN-Autoencoder 방식으로 접근 시, 비가동시간의 데이터를 디폴트값으로 채워준다면, 학습시킨 정상 데이터 이미지와 다른 양상을 보이기 때문에 이상으로 탐지할 수 있을 것으로 생각됨 CNN-Autoencoder 이후에 classification 단계를 추가하여 이상치로 분류된 데이터 중에 비가동으로 인한 것인지, 실제 비정상 데이터인지를 구분할 수 있을듯
anomal로 결과가 나온 데이터에 한해서 Gradcam을 사용해 어느 시점에 이상치가 있다고 모델이 판단했는지 파악할 수 있을 것
진행 결과
- 정상 데이터의 특징만 학습했기 때문에, 비가동 시간이 포함된 데이터의 경우 복원이 원활히 진행되지 않음