728x90
1. recipe/step과 같이 데이터 범위에 영향을 주는 요인 파악
공정 센서 데이터는 recipe, step와 같은 공정 단계 혹은 특정 요건으로 인해 데이터 범위가 달라지는 상황이 발생할 수 있다. 따라서, EDA를 진행할 경우, 이 부분을 유의해야 한다.
2. 도메인 지식에 따라 파라미터를 묶어 모델을 설계 가능한지 확인
1) 데이터가 수집되는 1개의 센서 데이터마다 모델을 설계 -> 한계 : 설계 시간 및 관리 비용이 많음
2) 도메인 지식에 따라 파라미터를 묶어 모델을 설계
3) 모든 파라미터를 묶어 하나의 모델로 설계 -> 한계 : 고장 원인 파악의 어려움
3. 조건에 따라 데이터를 요약해 사용
1) 원본 데이터 사용
recipe와 step의 상관이 없는 파라미터의 경우, raw data를 사용하는 것이 학습 데이터의 양이 많기 때문에 유리하다
2) 요약 데이터 사용
recipe와 step에 영향을 받는 파라미터의 경우, 해당 recipe나 step으로 데이터를 요약해 사용하는 것이 더 적절할 수 있음
다만, 도메인 지식과 데이터 분포에 따라, summary하는 statistic method의 사용에 유의해야 함
mean, median, mode, min, max, percentile
예를 들어, 높은 온도가 이상징후가 되는 cryo pump 공정의 경우, max값을 요약통계로 사용하는 것이 더 특징을 잘 추출하는 것일 수 있음
반면, 특정 값(64, 67)만 입력되는 파라미터의 경우, mean의 평균값을 사용해 소숫점 숫자로 변환하는 것이 데이터의 오염을 더 유발할 가능성이 있음
반응형