본문 바로가기

728x90

분류 전체보기

(128)
내적(inner product, dot product, scalar product, projection product) 개념 이해 1) 내적의 표기 (notation and symbol of the inner product) 두 벡터의 내적(inner product)은 「.」(dot)으로 표기하며, 이래서 점곱(dot product)이라고도 말함 혹은, (a, b)와 같이 표기함 결과값이 (벡터가 아닌) 스칼라이기 때문에 스칼라곱(scalar product)이라고도 함 벡터의 cosine값(해당 벡터을 선으로 보고, 해당 선에 직사광선이 쏘아졌을 때(projection되었을 때)의 그림자의 길이)를 사용해 계산하기 때문에 영사곱(projection product)이라고도 함 2) 내적의 계산 각 vector component끼리 곱해서 모두 더함 2차원에서는 다음과 같이 표현됨 또는 아래와 같이 표현 가능 단위 벡터(unit vec..
회귀(regression) 모델 성능 지표 (MAE, MSE, RMSE, R2 score) 1) MAE (Mean Absolute Error) score - 모델의 예측값과 실제값의 차이(절댓값)를 모두 더함 - MAE score가 높을수록 성능 낮음 - 다만, 차이의 절댓값을 사용하기 때문에 실제값과 음적(-)으로 차이나는지, 양적(+)으로 차이나는지 알 수 없음 2) MSE (Mean Squared Error) - 모델의 예측값과 실제값 차이의 면적(제곱)의 합 - MSE score 높을수록 성능 낮음 - 면적으로 계산하기 때문에 특이치에 민감 3) RMSE (Root Mean Squared Error) - MSE값에 루트를 씌운 값 - RMSE score 높을수록 성능 낮음 4) R2 Score (Coefficient of Determination) - R2 Score 높을수록 성능 높음
[ML] Informer 사용 https://github.com/zhouhaoyi/Informer2020 zhouhaoyi/Informer2020 The GitHub repository for the paper "Informer" accepted by AAAI 2021. - zhouhaoyi/Informer2020 github.com Colab 코드 사용 코드 사용 주의사항 1) custom 데이터셋 적용 - custom 데이터셋을 사용하고 싶을 때는 args.data = "custom" - 이러면 args에 입력한 대로 custom dataset을 자동으로 만들어서 적용시킴 2) timestamp column - timestamp column의 이름은 date 이어야 하며 - timestamp column이 가장 첫번째 column..
[딥러닝 환경설정/ Linux] 1. 장착된 GPU 모델 확인 방법 (lspci -k 명령어로 모델명이 보이지 않을때 해결방법) 아래의 명령어를 이용하여 GPU 모델과 커널 모듈 정보를 확인 lspci -k 출력된 많은 코드 중에, 아래와 같이 VGA compatible controller: ~로 시작하는 코드가 보인다면 대괄호[ ] 안에 적혀 있는 것이 본인의 GPU 모델명이다. (예시 : GeForce RTX 3070) VGA compatible controller: NVIDIA Corporation GA104 [GeForce RTX 3070] (rev a1) 정확한 모델명이 안나오고 Device 2484등이 출력될 때, 다음 명령어 입력 후, 다시 확인 sudo update-pciids lspci -k
[파이토치/pytorch] CUDA error: no kernel image is available for execution on the device 가져온 모델 돌려보려고 requirements.txt 를 확인도 안하고 모두 설치해부렀다. pytorch도 설치되는걸 보면서 설마,,,하면서 불안불안했는데 역시,,, 왜 항상 불안한 예감은 틀리지 않을까,,, 에러는 이미 났고 답은 해결뿐이다,, 해결 방법 1) 아래 사이트에서 본인 GPU에 맞는 Compute Capability를 확인한다 CUDA GPUs Your GPU Compute Capability Are you looking for the compute capability for your GPU, then check the tables below. NVIDIA GPUs power millions of desktops, notebooks, workstations and supercomputers..
예지보전(Predictive Maintenance) 시스템 개발 진행 방향 2021.06.25 - [Projects/Predictive Maintenance] - 예지보존(predictive maintenance) 모델 설계 방법 예지보존(predictive maintenance) 모델 설계 방법 해당 글은 예지보존 시스템 구축과 관련된 기존 자료 조사와 함께 필자의 아이디어를 바탕으로 작성된 것이므로, 참고용으로만 봐주셨으면 합니다. I. 고장 데이터의 수에 min23th.tistory.com 위 글처럼, 고장 데이터가 불충분한 경우에는 RUL(remaining useful life), classification 등의 예지보전 방법론을 사용하기에 한계가 있다. 하지만, 대다수의 실제 산업 현장에서 고장 데이터를 많이 확보하고 있는 경우는 거의 없다. 따라서, 이 경우, 시계열..
[데이터 전처리/Data Science] 데이터 평활(smoothing) 데이터 평활을 수행하는 데는 다양한 이유가 있고, 현실의 시계열 데이터는 분석 전에 평활되는 것이 보통 특히 데이터를 쉽게 이해하는 목적으로 시각화 자료를 만들기 위해 평활을 진행하는 경우가 있음 1. 평활이란? 시간에 따라 수집된 시계열 데이터에는 무작위적인 변화량이 있다. 평활(Smoothing)이란, 이렇게 무작위적 변화로 생기는 효과를 줄이는 방법들 중 흔히 사용되는 기법 중 하나다. 예를 들어, 주어진 시계열 자료에 평균을 취하는 것은 가장 단순한 평활법이다. 하지만, 평균은 모든 과거 관측값을 동일한 가중치로 다루기 때문에, 추세(Trends)가 존재하는 경우 좋은 지표가 될 수 없다. 평활을 이용해 시계열을 세 가지 구성성분으로 분해하거나, 예측을 수행할 수 있다. 2. 평활의 목적 A. 데..
[데이터 전처리/Data Science] 업샘플링(upsampling)과 다운샘플링(downsampling) 해당 글은 시계열 데이터 관점에서의 업샘플링과 다운샘플링의 개념을 다룹니다 업샘플링(upsampling)과 다운샘플링(downsampling) 타임스탬프의 빈도를 늘이거나 줄이는 방법 pandas의 resample 메소드는 업샘플링과 다운샘플링을 위한 유용한 기능을 제공함 (index가 datetime형식이어야 지원 가능) import pandas as pd df = pd.DataFrame() df.resample(rule='S') (rule에는 매초(s), 매시간(H), 매년(A) 등 다양한 시간 분할자를 넣을 수 있다 1. 다운샘플링(downsampling) 이란? 원본 시계열보다 타임스탬프가 더 낮은 빈도로 발생하게끔 데이터의 부분집합을 만드는 것 다운샘플링이 이루어지는 경우 1) 원본 데이터의 시..

반응형