본문 바로가기

Projects/Predictive Maintenance

[Sputter 예지보전] 오버피팅 문제 원인 분석 및 learning rate scheduler 사용

728x90

문제

train accuracy와 valid accuracy가 차이남

 

원인 분석 및 개선 방향

1. data imbalance 문제

  • 정상 데이터에 비해 비정상 데이터가 현저히 적음

해결방안 1) data imbalance 문제 해결을 위한 data loader sampler 사용

해결방안2) 시계열을 slice하는 윈도우를 shift해 전체 데이터 양을 늘림 (x축의 시간을 유지하면서 학습시키는 데이터를 늘림)

 

 

2. 라벨링 문제

  • 현재 알람 정보가 시작한 기점으로 비정상이라고 라벨링을 함 but, 알람 정보가 시작한 시점 이전에 이상 조짐이 있었을 가능성이 있음
    • 해결방안을 찾아야함,,,,
  • 이상과 관련 없는 알람 정보가 라벨링에 고려됨
    • 해결방안 : 알람정보와 관련된 마스터시트를 전달받을 때까지 일일히 파악하는 수밖에 없음

최근의 9월 데이터를 가지고 test한 결과 비정상을 정상적으로 추출하지 못함

개선방법

1) valid, test 데이터셋에서 필터링 되어야 할 알람 정보 제거

2) optimizer 사용 : CosineAnnealingLR 로 어느 정도 성능을 올린 후, 가장 높은 성능을 보이는 모델을 Load하고 CyclicLR로 optimizer를 바꿔 서서히 성능을 조금씩 높임

test 데이터셋

잘못 라벨링 된 것이 있음

반응형