본문 바로가기

728x90

Data Science

(44)
[sklearn] train_test_split 옵션 값 설명 test_size (default : 0.25): 테스트 셋 구성의 비율, train_size의 옵션과 반대 관계에 있는 옵션 값 shuffle (default=True) : split을 해주기 이전에 shuffle을 진행할지 여부 stratify (default=None) : classification 문제에서 지정한 stratify 값을 기준으로 class 비율(ratio)을 train / validation에 유지해줌 (class imbalance 해결) random_state: 매번 데이터셋이 변경되는 것을 방지하도록 사용한 랜덤 split 방식을 고정시킬 수 있음
Chapter 2. 퍼셉트론(인공 뉴런)이란? 아래 내용은 책 '밑바닥부터 시작하는 딥러닝 1권의 내용을 바탕으로 작성된 글입니다 1. 퍼셉트론이란? 신경망의 기원이 되는 알고리즘 다수의 신호를 입력으로 받아 하나의 신호를 출력함 신호가 흐른다(1)/안흐른다(0)의 2가지 값을 가질 수 있음 입력신호가 다음 뉴런에 보내질때는 각각 고유한 가중치가 곱해짐 가중치: 각 신호가 결과에 영향력을 조절하는 요소로 작용함(가중치가 클수록 신호가 그만큼 더 중요함을 뜻함) 2. 논리 회로 1) AND 게이트 : 입력이 둘이고 출력은 하나 2) NAND 게이트 : AND 게이트를 구현하는 매개변수(가중치, 임계치)의 부호를 모두 반전시킴 3) OR게이트 : 입력 신호 중 하나 이상이 1이면 출력이 1이 되는 논리 회로 퍼셉트론의 구조는 AND, NAND, OR 게..
[Pytorch] torch summary 모델 내 레이어에 따른 output shape, parameter 개수에 대한 정보를 표로 쉽게 볼 수 있도록 하는 파이썬 패키지 설치 아래와 같이 pip을 통해 설치 할 수 있다 pip install torchsummary 사용법 from torchsummary import summary summary(model, input_size = (channels, H, W)) input_size의 차원 수는 2/3/4차원 모두 가능 model은 GPU(cuda)에 있어야 사용 가능 결과 각 Layer 별 Output Shape, Parameter 개수에 대한 정보가 출력되는 것을 볼 수 있다 ---------------------------------------------------------------- L..
[시계열 데이터를 이미지화하기] 인코딩 방식 비교 1) Grey-scale encoding 산업 데이터에 가장 빈번히 사용되는 scaling 기법 기존 논문에서 산업형 펌프 데이터에 사용된 유일한 기법 비교적 computation complexity가 낮음 2) GAF/ MTF 도메인에 관계없이 가장 흔하게 사용되는 RGB로 나타내는 이미지 인코딩 기법 MTF방식이 RP나 GAF 방식에 비해 일정한 시간 구간의 세부적인 정보를 잡아내는 데 유용하다는 결론을 낸 논문이 있음 GAF와 MTF 인코딩 방식을 합쳐 성능을 낸 논문도 있음 3) Recurrent plot/Scalogram/Spectrogram 위 인코딩 방식은 주기성, 주파수 분석을 목적으로 개발된 인코딩 방식 실제로 신호 (라디오, 음성 등) 데이터를 분석하는 논문에서만 사용됨
[시계열 데이터를 이미지화하기] Spectrogram (SP) 와 Scalogram (SC) 개요 전통적인 시간-주파수(time-frequency) 분석 기법 Spectrogram : short-time Fourier Transform (STFT)에 기반 Scalogram: Discrete Wavelet Transform (DWT)에 기반 두 기법 모두 window function에 시계열을 합성(convolving)하는 원리에 기초한다 이때, Window Function은 하나의 Filter로써, 이를 통해 시계열 데이터가 smoothing이 되는 결과를 보여주게 된다. * window function : 신호 처리 및 통계에서, window function는 선택된 일부 간격 외부에서 0으로 값이 계산되는 수학적 함수로, 일반적으로 중간 중간에서 대칭이며 일반적으로 중간에서 최대 값에 가깝고..
[Python] 이미지처리를 위한 라이브러리 Top 8 Image-Processing Python Libraries Used in Machine Learning - neptune.ai According to IDC, digital data will skyrocket up to 175 zettabytes, and the huge part of this data is images. Data scientists need to (pre) process these images before feeding them into any machine learning models. They have to do the important (and someti neptune.ai
[데이터 전처리 기법] Data Binning이란? (bin) Data binning이란, 정의된 기준에 따라 각각의 개별적인 데이터값을 특정한 bin(구간, interval) 또는 group으로 묶는 과정을 의미한다 따라서, discrete binning 또는 bucketing이라고도 하는 data binning 은 사소한 관찰 오류의 영향을 줄이는 데 사용되는 데이터 전처리 기술이다. 주어진 작은 간격인 bin에 속하는 원래 데이터 값이 해당 간격을 대표하는 값(종종 중심 값)으로 대체되는 방식으로 data binning이 이루어진다.
[시계열 데이터를 이미지화하기] multivariate 시계열 데이터 이미지화하는 방식 1. Multi-channel : 파라미터 개수 n 개만큼의 채널(channel)를 하나의 input으로 넣는 방법 아래 논문에서 이와 같은 방식을 사용함 [Edson Luque Mamani, Cristian Lopez del Alamo. GAF-CNN-LSTM for Multivariate Time- Series Images Forecasting. LatinX in AI Research at ICML 2019, Jun 2019, Long Beach, United States. LatinX in AI Research at ICML 2019, 2019. ffhal-02266994] 2. 각각 univariate하게 인코딩한 이미지를 RGB 채널로 나눈 후 하나의 큰 RGB 이미지로 병합 아래 글에서 논문에..

반응형