본문 바로가기

728x90

Data Science/Machine Learning

(4)
[sklearn] multi-classification 문제에서 f1 score 사용하기 sklearn 패키지의 metrics.classficiation_report를 통해 multi-class 각각에 대한 f1 score를 편하게 구할 수 있다 사용법 from sklearn import metrics print(metrics.classification_report(y_true, y_pred, digits=3)) 출력 예시 아래와 같이 각 클래스별 f1-score가 표로 깔끔히 출력되는 것을 확인할 수 있다 precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 accuracy 0.60 5 macro avg 0.50 0.56 0.49 5 weighted ..
[sklearn] train_test_split 옵션 값 설명 test_size (default : 0.25): 테스트 셋 구성의 비율, train_size의 옵션과 반대 관계에 있는 옵션 값 shuffle (default=True) : split을 해주기 이전에 shuffle을 진행할지 여부 stratify (default=None) : classification 문제에서 지정한 stratify 값을 기준으로 class 비율(ratio)을 train / validation에 유지해줌 (class imbalance 해결) random_state: 매번 데이터셋이 변경되는 것을 방지하도록 사용한 랜덤 split 방식을 고정시킬 수 있음
[Sktime] Sktime : 시계열 데이터 머신러닝을 위한 파이썬 라이브러리 Python으로 시계열 데이터 문제를 해결하는 것은 어렵다. 기존 툴들은 시계열 데이터 작업에 적합하지 않고 서로 쉽게 통합되지 않기 때문이다. 예를 들어, scikit-learn 패키지는 타임스탬프가 없는 구조적(테이블) 데이터 형식을 가정하기 때문에 시계열 데이터의 특성이 반영되지 않는다. 이러한 문제를 해결하기 위해 sktime이 개발되었다. Sktime은 시계열 데이터 분석 및 머신러닝 모델링 작업을 위한 오픈소스 파이썬 툴로서, the UK Economic and Social Research Council, the Consumer Data Research Centre, The Alan Turing Institute 등의 후원을 받아 개발되었다. Reference 본 글은 아래의 내용을 한국어로 ..
랜덤 포레스트 (Random Forest) 모델이란? 1. 랜덤 포레스트 배경 (앙상블) 랜덤 포레스트는 앙상블 기법의 하나의 예 앙상블 기법 : 여러 base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 예측 정확성을 향상시키는 방법 앙상블 모델이 우수하기 위한 조건 ① base 모델들이 서로 독립적 ② base 모델들이 무작위 예측을 수행하는 모델(성능이 0.5일때)보다 성능이 좋은 경우 (base의 모델의 성능이 좋지 않은 경우, 앙상블 모델의 오류율은 base 모델의 오류율보다 훨씬 더 커지는 경향성이 있음, 반면 base 모델의 오류율이 무작위 예측 모델보다 적은 경우엔, 앙상블 모델의 오류율은 더 적어지는 효과를 받는다) 랜덤 포레스트는 앙상블 모델의 base모델로 의사결정나무 모델을 사용함 ① low computational complexi..

반응형