분류 전체보기 (128) 썸네일형 리스트형 [pandas] 누락된 데이터 (결측값, missing value) 다루기 타임스탬프 내 결측값이 있어 길이가 다른 시계열 데이터의 경우, pandas의 indexing(multi indexing)과 reindexing 기능을 통해 모든 데이터가 동일한 타임 스탬프 길이를 가지고 있도록 설정할 수 있다. set() 함수를 통해 모든 타임스탬프 리스트를 구하고, 이를 토대로 indexing, reindexing을 하며 결측값을 채운 후에 reset_index로 인덱스를 초기화하면 간편하게 타임스탬프의 길이를 맞출 수 있다. 결측값이 있는 데이터가 분석에 필요 없는 경우엔 pandas의 drop을 사용해 해당 행을 쉽게 제거할 수 있다. 1) 결측값 찾기 빈 셀이 가장 많은 열 순서대로 나열됨 isnull().sum().sort_values(ascending=False) 2) 결측.. 시계열 데이터셋(Time series Dataset) 구하는 방법 시계열 데이터셋 구하는 방법 1) UCI 머신러닝 저장소 UCI Machine Learning Repository Welcome to the UC Irvine Machine Learning Repository! We currently maintain 588 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. For a general overview of the Repository, please visit ou archive.ics.uci.edu 2) UEA 및 UCR 시계열 분류 저장소 Time Series Classification Websit.. Feed-Forward 신경망 (Feed-forward Neural Network, FFNN) 최초로 고안된 인공 신경망이자, 가장 단순한 구조 입력층(input layer)에 데이터가 입력되고, 1개 이상의 은닉층(hidden layer)를 거쳐 출력층(output layer)를 통해 결과를 출력하는 구조 input layer에서 hidden layer를 거쳐 output layer까지 정보(information)이 한 방향, 앞으로만(forward) 이동하기 때문에 다음과 같은 이름이 붙여짐 Feed-Forward 신경망의 장점 구성이 단순해 구조를 이해하기 쉽고 많은 문제에 응용할 수 있다 Feed-Forward 신경망의 문제점 시계열 데이터의 시간적 특성을 반영하지 못한다 [Time Series Forecasting] Multistep 시계열 데이터 예측을 위한 RNN기반 Encoder-Decoder 모델 해당 글은 아래 Reference의 [Encoder-Decoder Model for Multistep Time Series Forecasting Using PyTorch] 글을 참고했습니다. Encoder-Decoder 모델은 최근 연구에서 언어 번역 등과 같은 sequence to sequence NLP (자연어 처리) 문제를 효과적으로 해결하는 결과를 보여줬다. multistep 시계열 데이터 예측 문제도 seq2seq 문제와 같이 다뤄질 수 있기 때문에, encoder-decoder 모델도 사용될 수 있다 DATASET(데이터셋) 해당 reference 글에서는 다음 물품 판매량에 대한 Kaggle 데이터셋을 사용했다 Store Item Demand Forecasting Challenge Predi.. CRNN 과 Spectrograms을 활용한 예지보전 모델 The classical approach for this kind of problem involves usually the adoption of time series models in conjunction with signal process techniques which enable us to extract value from high-frequency data. Reference Predictive Maintenance: detect Faults from Sensors with CRNN and Spectrograms Apply Deep Learning and Spectrogram transformations to prevent Failures towardsdatascience.com LSTM Siamese Network를 통한 예지보전 모델 해당 글은 아래 Reference의 [Predictive Maintenance with LSTM Siamese Network] 글을 참고했습니다. 주요 내용 Siamese Network는 2개의 input을 받아, 둘 사이 거리를 계산해, 이를 토대로 유사성(similarity)을 판단하는 방법 이미지 처리의 경우, CNN 계층을 통해 이미지의 특징이 추출되면, FC layer로 비교해 유사도를 측정 Siamese Network는 주로 CNN계층과 결합해 Image Recognition에 사용되지만, LSTM계층과 결합해정상 sequence 데이터와 고장 sequence 데이터 중 sample 데이터가 어느 클래스 데이터에 더 가까운지(유사한지)를 측정해 Binary classification처럼 예지보.. [Sktime] Sktime : 시계열 데이터 머신러닝을 위한 파이썬 라이브러리 Python으로 시계열 데이터 문제를 해결하는 것은 어렵다. 기존 툴들은 시계열 데이터 작업에 적합하지 않고 서로 쉽게 통합되지 않기 때문이다. 예를 들어, scikit-learn 패키지는 타임스탬프가 없는 구조적(테이블) 데이터 형식을 가정하기 때문에 시계열 데이터의 특성이 반영되지 않는다. 이러한 문제를 해결하기 위해 sktime이 개발되었다. Sktime은 시계열 데이터 분석 및 머신러닝 모델링 작업을 위한 오픈소스 파이썬 툴로서, the UK Economic and Social Research Council, the Consumer Data Research Centre, The Alan Turing Institute 등의 후원을 받아 개발되었다. Reference 본 글은 아래의 내용을 한국어로 .. [주피터노트북/jupyter notebook] 커널 죽는 문제 the kernel appears to have died. it will restart automatically 모델을 jupyter lab에서 돌리는데 어느 순간부터 위 그림같이 커널이 죽는 문제가 발생했다 커널이 죽는 이유는 주어진 메모리 할당량을 초과했기 때문이다. 보통의 경우에는 방법 1(config파일 내 비트수 할당을 늘리는 방법)로 문제가 해결되지만, 해결되지 않는 경우에는 해결방법 2(메모리를 잡아먹는 코드를 찾아 수정하는 방법)을 해보는 것을 추천한다. 해결방법 1. config 파일 내 비트수 할당 코드 추가 1) jupyter_notebook_config.py에서 다음 코드를 복붙해준다. jupyter_notebook_config.py 파일은 ./jupyter 폴더 내에 있다 기존에 디폴트로 설정된 버퍼 값보다 많은 비트수를 할당하면 문제가 해결된다 c.NotebookApp.max_buffer_.. 이전 1 ··· 12 13 14 15 16 다음