본문 바로가기

728x90

Data Science

(44)
[Pandas] Pandas 꿀팁 1) read_csv로 dataframe을 불러올 때, 필요한 column만 import해 데이터의 용량을 줄이기 # 예를 들어, numeric column만 추출하고 싶을 때 columns = pd.read_csv(file, nrows=1).select_dtypes("number").columns data = pd.read_csv(file, usecols=columns)
[AutoML] Auto-Sklearn (V1, V2) : AutoML을 위한 파이썬 라이브러리 Auto-ML holds the promise of eliminating the tedious manual tuning of hyperparameters and model selection. One example is the Auto-Sklearn API, which provides a simplistic high-level interface to automatically evaluate multiple preprocessing and model fitting pipelines. A key ingredient to previous Auto-ML systems has been the use of so-called meta-features, which are initially computed for the ..
데이터 사이언스를 위한 파이썬 라이브러리 https://towardsdatascience.com/nine-emerging-python-libraries-you-should-add-to-your-data-science-toolkit-in-2021-85ce3d239846
[논문읽기/ 시계열 이미지 인코딩] A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data 시계열 데이터에서 이상치 탐지를 하기 위해 변수간 correlation matrix를 생성하고 이를 입력으로 활용 -> noise에 대해 robust한 성능을 가짐 reconstructed matrix와 원본 matrix와의 residual을 residual matrix로 표현하고, 이 행렬의 element-wise square의 합을 loss function으로 정의 anomaly score는 residual matrix의 요소 중 그 제곱값이 threshold보다 큰 요소의 개수로 설정하여, 특정 시점의 residual matrix의 anomaly score가 크다면, 해당 시점에서의 변수들의 상관관계가 정상일 때와 다름을 의미하고, 따라서 이상치로 판단 CNN은 x, y 양방향에서 dependenc..
[Pytorch] Learning Rate Scheduler Learning Rate Scheduler란? 처음부터 끝까지 같은 learning rate(ex) 0.001)를 사용할 수도 있지만, 학습과정에서 미리 정의된 schedule에 따라 learning rate를 조정하는 learning rate scheduler를 사용할 수도 있다. 처음엔 큰 learning rate(보폭)으로 빠르게 optimize를 하고 최적값에 가까워질수록 learning rate(보폭)를 줄여 미세조정을 하는 것이 학습이 잘된다고 알려져있다. learning rate을 줄이는 보편적인 schedule 방식에는 시간에 따라 줄이는 time-based decay, 특정 epoch마다 줄이는 step decay와 exponential decay , learning rate를 줄였다 늘..
[sklearn] multi-classification 문제에서 f1 score 사용하기 sklearn 패키지의 metrics.classficiation_report를 통해 multi-class 각각에 대한 f1 score를 편하게 구할 수 있다 사용법 from sklearn import metrics print(metrics.classification_report(y_true, y_pred, digits=3)) 출력 예시 아래와 같이 각 클래스별 f1-score가 표로 깔끔히 출력되는 것을 확인할 수 있다 precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 accuracy 0.60 5 macro avg 0.50 0.56 0.49 5 weighted ..
[딥러닝/이미지 처리] EfficientNet 모델 개요 및 적용 EfficientNet 모델 개요 EfficientNet is deep learning architecture designed by Google(first introduced in Tan and Le, 2019) to tackle the problem of scaling Neural Networks (deciding how to best increase model size and increase accuracy). Given that there is a tradeoff between efficiency and accuracy in scaling CNNs, the idea by Google is to provide better accuracy and improve the efficiency of the m..
Transfer Learning(전이학습)이란? 실제로 충분한 크기의 데이터셋을 갖추기는 상대적으로 드물기 때문에, (무작위 초기화를 통해) 맨 처음부터 합성곱 신경망(Convolutional Network) 전체를 학습하는 사람은 매우 적다. 따라서, 대신, 매우 큰 데이터셋(예. 100가지 분류에 대해 120만개의 이미지가 포함된 ImageNet)에서 합성곱 신경망(ConvNet)을 미리 학습한 후, 이 합성곱 신경망을 관심있는 작업 을 위한 초기 설정 또는 고정된 특징 추출기(fixed feature extractor)로 사용한다. 이러한 전이학습 시나리오의 주요한 2가지는 다음과 같다: 합성곱 신경망의 미세조정(finetuning): 무작위 초기화 대신, 신경망을 ImageNet 1000 데이터셋 등으로 미리 학습한 신경망으로 초기화합니다. 학..

반응형