본문 바로가기

728x90

Data Science/Time series data

(18)
[EDA] 다변량 시계열 데이터(공정 데이터) EDA 예시
[논문이해] 부분적으로 라벨링된 비정상 데이터의 강화학습을 통한 Anomaly Detection 아래 내용은 논문 [Toward Deep Supervised Anomaly Detection: Reinforcement Learning from Partially Labeled Anomaly Data]을 요약 번역해 작성한 글입니다. Introduction In anomaly detection area, it is also crucial to leverage those unlabeled data for the detection of both known and unknown anomalies supervised learning의 문제 known anomaly 오버피팅의 가능성 It is therefore difficult, if not impossible, to obtain labeled training ..
[논문이해] 위상수학을 기반으로 한 데이터 분석과 시계열 데이터 처리 아래 내용은 [Topological Data Analysis and Its Application to Time-Series Data Analysis] 논문의 내용을 요약한 글이다 Introduction 전통적인 시계열 분석 방식인 주파수 분석이나 평균, 분산과 같은 통계를 변동성이 높은 센서 데이터셋에 사용하면 충분한 성능을 보이지 못하는 경우가 많다 (데이터가 정규분포를 따르지 않고, 분포가 분극화된 경우가 많다) 따라서, 일반적인 기술통계량(분산 등)을 가지지 않는 경우가 많은 센서 데이터셋 분석에 적합한 기법이 없어 TDA를 고안 topological data analysis (TDA)란? 데이터 형상에 주목 capture detailed information by focusing on the sh..
TimeGAN : 시계열 데이터 모델링 및 생성 모델 https://towardsdatascience.com/modeling-and-generating-time-series-data-using-timegan-29c00804f54d Modeling and Generating Time-Series Data using TimeGAN Generating time-series data using a library with a high-level implementation of TimeGAN towardsdatascience.com
[논문읽기/ 시계열 이미지 인코딩] A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data 시계열 데이터에서 이상치 탐지를 하기 위해 변수간 correlation matrix를 생성하고 이를 입력으로 활용 -> noise에 대해 robust한 성능을 가짐 reconstructed matrix와 원본 matrix와의 residual을 residual matrix로 표현하고, 이 행렬의 element-wise square의 합을 loss function으로 정의 anomaly score는 residual matrix의 요소 중 그 제곱값이 threshold보다 큰 요소의 개수로 설정하여, 특정 시점의 residual matrix의 anomaly score가 크다면, 해당 시점에서의 변수들의 상관관계가 정상일 때와 다름을 의미하고, 따라서 이상치로 판단 CNN은 x, y 양방향에서 dependenc..
[시계열 데이터를 이미지화하기] 인코딩 방식 비교 1) Grey-scale encoding 산업 데이터에 가장 빈번히 사용되는 scaling 기법 기존 논문에서 산업형 펌프 데이터에 사용된 유일한 기법 비교적 computation complexity가 낮음 2) GAF/ MTF 도메인에 관계없이 가장 흔하게 사용되는 RGB로 나타내는 이미지 인코딩 기법 MTF방식이 RP나 GAF 방식에 비해 일정한 시간 구간의 세부적인 정보를 잡아내는 데 유용하다는 결론을 낸 논문이 있음 GAF와 MTF 인코딩 방식을 합쳐 성능을 낸 논문도 있음 3) Recurrent plot/Scalogram/Spectrogram 위 인코딩 방식은 주기성, 주파수 분석을 목적으로 개발된 인코딩 방식 실제로 신호 (라디오, 음성 등) 데이터를 분석하는 논문에서만 사용됨
[시계열 데이터를 이미지화하기] Spectrogram (SP) 와 Scalogram (SC) 개요 전통적인 시간-주파수(time-frequency) 분석 기법 Spectrogram : short-time Fourier Transform (STFT)에 기반 Scalogram: Discrete Wavelet Transform (DWT)에 기반 두 기법 모두 window function에 시계열을 합성(convolving)하는 원리에 기초한다 이때, Window Function은 하나의 Filter로써, 이를 통해 시계열 데이터가 smoothing이 되는 결과를 보여주게 된다. * window function : 신호 처리 및 통계에서, window function는 선택된 일부 간격 외부에서 0으로 값이 계산되는 수학적 함수로, 일반적으로 중간 중간에서 대칭이며 일반적으로 중간에서 최대 값에 가깝고..
[시계열 데이터를 이미지화하기] multivariate 시계열 데이터 이미지화하는 방식 1. Multi-channel : 파라미터 개수 n 개만큼의 채널(channel)를 하나의 input으로 넣는 방법 아래 논문에서 이와 같은 방식을 사용함 [Edson Luque Mamani, Cristian Lopez del Alamo. GAF-CNN-LSTM for Multivariate Time- Series Images Forecasting. LatinX in AI Research at ICML 2019, Jun 2019, Long Beach, United States. LatinX in AI Research at ICML 2019, 2019. ffhal-02266994] 2. 각각 univariate하게 인코딩한 이미지를 RGB 채널로 나눈 후 하나의 큰 RGB 이미지로 병합 아래 글에서 논문에..

반응형