본문 바로가기

Data Science/Time series data

[데이터 전처리/Data Science] 업샘플링(upsampling)과 다운샘플링(downsampling)

728x90
해당 글은 시계열 데이터 관점에서의 업샘플링과 다운샘플링의 개념을 다룹니다

업샘플링(upsampling)과 다운샘플링(downsampling)

  • 타임스탬프의 빈도를 늘이거나 줄이는 방법
  • pandas의 resample 메소드는 업샘플링과 다운샘플링을 위한 유용한 기능을 제공함 (index가 datetime형식이어야 지원 가능)
import pandas as pd

df = pd.DataFrame()
df.resample(rule='S')

(rule에는 매초(s), 매시간(H), 매년(A) 등 다양한 시간 분할자를 넣을 수 있다

 

1. 다운샘플링(downsampling) 이란?

  • 원본 시계열보다 타임스탬프가 더 낮은 빈도로 발생하게끔 데이터의 부분집합을 만드는 것

다운샘플링이 이루어지는 경우

1) 원본 데이터의 시간단위가 실용적이지 않은 경우

  • 너무 자주 측정하는 경우
  • 추가로 데이터의 저장 공간 및 처리에 대한 부담을 더안아야 할 만큼 새로운 정보를 제공하지 않는 경우

 

2) 계절 주기의 특정 부분에 집중하는 경우

  • 1월의 온도만 보고 싶을 때는 매년 1월의 데이터만 추출하는 다운샘플링이 이루어짐

 

3) 더 낮은 빈도의 데이터에 맞추는 경우

 

2. 업샘플링(upsampling)이란?

  • 데이터가 실제보다 더 자주 수집된 것처럼 데이터를 표현하는 것
  • 업샘플링의 목적은 실제로 측정하는 것은 아니지만 드물게 측정된 데이터에서 더 조밀한 시간의 데이터를 얻기 위함

출처 : https://t1.daumcdn.net/cfile/tistory/26502E3357B1CCE22C

업샘플링이 이루어지는 경우

1) 시계열이 불규칙적인 상황

  • 업샘플링이 이루어지는 가장 일반적인 상황은 불규칙적으로 샘플링된 시계열을 규칙적인 형태로 변환할 때이다

 

2) 입력이 서로 다른 빈도로 샘플링된 상황

  • 서로 다른 빈도 데이터를 같은 시간대로 정렬하기 위해 업샘플링이 필요
  • 사전관찰에 유의해야 한다 (지금까지 알려진 상태로만 추측해 업샘플링하는 경우에는 안전)
반응형