본문 바로가기

728x90

Data Science

(44)
[EDA] 다변량 시계열 데이터(공정 데이터) EDA 예시
[논문이해] 부분적으로 라벨링된 비정상 데이터의 강화학습을 통한 Anomaly Detection 아래 내용은 논문 [Toward Deep Supervised Anomaly Detection: Reinforcement Learning from Partially Labeled Anomaly Data]을 요약 번역해 작성한 글입니다. Introduction In anomaly detection area, it is also crucial to leverage those unlabeled data for the detection of both known and unknown anomalies supervised learning의 문제 known anomaly 오버피팅의 가능성 It is therefore difficult, if not impossible, to obtain labeled training ..
[논문이해] 위상수학을 기반으로 한 데이터 분석과 시계열 데이터 처리 아래 내용은 [Topological Data Analysis and Its Application to Time-Series Data Analysis] 논문의 내용을 요약한 글이다 Introduction 전통적인 시계열 분석 방식인 주파수 분석이나 평균, 분산과 같은 통계를 변동성이 높은 센서 데이터셋에 사용하면 충분한 성능을 보이지 못하는 경우가 많다 (데이터가 정규분포를 따르지 않고, 분포가 분극화된 경우가 많다) 따라서, 일반적인 기술통계량(분산 등)을 가지지 않는 경우가 많은 센서 데이터셋 분석에 적합한 기법이 없어 TDA를 고안 topological data analysis (TDA)란? 데이터 형상에 주목 capture detailed information by focusing on the sh..
[Pandas] int타입 특정 자리수 string으로 format하기 (2를 02로 표현) df.astype(str).str.zfill(2)
[EDA] Data Scaling Data Scaling이란? 데이터 스케일링이란 데이터 전처리 과정의 하나이다 데이터 스케일링을 해주는 이유는 데이터의 값이 너무 크거나 혹은 작은 경우에 모델 알고리즘 학습과정에서 0으로 수렴하거나 무한으로 발산해버릴 수 있기 때문이다 따라서, scaling은 데이터 전처리 과정에서 굉장히 중요한 과정이다 Scaler의 종류 StandardScaler (데이터의 최소, 최대 값을 모를 경우) 기존 변수의 범위를 평균값과 표준편차를 사용해 정규 분포로 변환 각 feature의 평균을 0, 분산을 1로 변경 모든 특성들이 같은 스케일을 가짐 이상치가 있을 때 평균과 표준편차에 영향을 미쳐 균형 잡힌 척도를 보장할 수 없음 RobustScaler (이상치를 포함하는 데이터를 표준화하는 경우) standard..
[딥러닝 환경설정] 0. 첫 ssh접속, 우분투 LTS 업그레이드 $ ssh 192.100.x.x The authenticity of host '192.100.x.x' can't be established. RSA key fingerprint is 3f:f1:a4:bd:e3:54:63:xx:xx:xx:xx:xx:xx:xx:xx:xx. Are you sure you want to continue connecting (yes/no)? 특정 호스트에 최초로 SSH 접속 시에 아래와 같이 RSA key fingerprint로 접속여부(yes/no)를 확인하는 차원에서 물어본다. yes를 입력 후, 해당 계정의 패스워드를 입력해 호스트에 접속할 수 있다. 아래와 같은 메세지가 뜨며 우분투 서버에 접속했음을 알려준다 만약, 우분투 시스템 재시작이 필요하다는 메세지가 뜬다면, su..
TimeGAN : 시계열 데이터 모델링 및 생성 모델 https://towardsdatascience.com/modeling-and-generating-time-series-data-using-timegan-29c00804f54d Modeling and Generating Time-Series Data using TimeGAN Generating time-series data using a library with a high-level implementation of TimeGAN towardsdatascience.com
EfficientNet Pytorch 버전 사용 - feature extraction block의 weight가 변하지 않도록 freeze했을 때 def get_model(model_name='efficientnet-b0'): model = EfficientNet.from_pretrained(model_name) # In case you want to freeze the feature extraction blocks from EfficientNet, you need to add these two lines for param in model.parameters(): param.requires_grad = False del model._fc # # # use the same head as the baseline notebook. model._fc = nn..

반응형