728x90
해당 글은 시계열 데이터 관점에서의 업샘플링과 다운샘플링의 개념을 다룹니다
업샘플링(upsampling)과 다운샘플링(downsampling)
- 타임스탬프의 빈도를 늘이거나 줄이는 방법
- pandas의 resample 메소드는 업샘플링과 다운샘플링을 위한 유용한 기능을 제공함 (index가 datetime형식이어야 지원 가능)
import pandas as pd
df = pd.DataFrame()
df.resample(rule='S')
(rule에는 매초(s), 매시간(H), 매년(A) 등 다양한 시간 분할자를 넣을 수 있다
1. 다운샘플링(downsampling) 이란?
- 원본 시계열보다 타임스탬프가 더 낮은 빈도로 발생하게끔 데이터의 부분집합을 만드는 것
다운샘플링이 이루어지는 경우
1) 원본 데이터의 시간단위가 실용적이지 않은 경우
- 너무 자주 측정하는 경우
- 추가로 데이터의 저장 공간 및 처리에 대한 부담을 더안아야 할 만큼 새로운 정보를 제공하지 않는 경우
2) 계절 주기의 특정 부분에 집중하는 경우
- 1월의 온도만 보고 싶을 때는 매년 1월의 데이터만 추출하는 다운샘플링이 이루어짐
3) 더 낮은 빈도의 데이터에 맞추는 경우
2. 업샘플링(upsampling)이란?
- 데이터가 실제보다 더 자주 수집된 것처럼 데이터를 표현하는 것
- 업샘플링의 목적은 실제로 측정하는 것은 아니지만 드물게 측정된 데이터에서 더 조밀한 시간의 데이터를 얻기 위함
업샘플링이 이루어지는 경우
1) 시계열이 불규칙적인 상황
- 업샘플링이 이루어지는 가장 일반적인 상황은 불규칙적으로 샘플링된 시계열을 규칙적인 형태로 변환할 때이다
2) 입력이 서로 다른 빈도로 샘플링된 상황
- 서로 다른 빈도 데이터를 같은 시간대로 정렬하기 위해 업샘플링이 필요
- 사전관찰에 유의해야 한다 (지금까지 알려진 상태로만 추측해 업샘플링하는 경우에는 안전)
반응형