본문 바로가기

Data Science/Time series data

[데이터 전처리/Data Science] 업샘플링(upsampling)과 다운샘플링(downsampling)

정할매 2021. 6. 29. 16:56

해당 글은 시계열 데이터 관점에서의 업샘플링과 다운샘플링의 개념을 다룹니다

업샘플링(upsampling)과 다운샘플링(downsampling)

타임스탬프의 빈도를 늘이거나 줄이는 방법
pandas의 resample 메소드는 업샘플링과 다운샘플링을 위한 유용한 기능을 제공함 (index가 datetime형식이어야 지원 가능)

import pandas as pd

df = pd.DataFrame()
df.resample(rule='S')

(rule에는 매초(s), 매시간(H), 매년(A) 등 다양한 시간 분할자를 넣을 수 있다

1. 다운샘플링(downsampling) 이란?

원본 시계열보다 타임스탬프가 더 낮은 빈도로 발생하게끔 데이터의 부분집합을 만드는 것

다운샘플링이 이루어지는 경우

1) 원본 데이터의 시간단위가 실용적이지 않은 경우

너무 자주 측정하는 경우
추가로 데이터의 저장 공간 및 처리에 대한 부담을 더안아야 할 만큼 새로운 정보를 제공하지 않는 경우

2) 계절 주기의 특정 부분에 집중하는 경우

1월의 온도만 보고 싶을 때는 매년 1월의 데이터만 추출하는 다운샘플링이 이루어짐

3) 더 낮은 빈도의 데이터에 맞추는 경우

2. 업샘플링(upsampling)이란?

데이터가 실제보다 더 자주 수집된 것처럼 데이터를 표현하는 것
업샘플링의 목적은 실제로 측정하는 것은 아니지만 드물게 측정된 데이터에서 더 조밀한 시간의 데이터를 얻기 위함

출처 : https://t1.daumcdn.net/cfile/tistory/26502E3357B1CCE22C

업샘플링이 이루어지는 경우

1) 시계열이 불규칙적인 상황

업샘플링이 이루어지는 가장 일반적인 상황은 불규칙적으로 샘플링된 시계열을 규칙적인 형태로 변환할 때이다

2) 입력이 서로 다른 빈도로 샘플링된 상황

서로 다른 빈도 데이터를 같은 시간대로 정렬하기 위해 업샘플링이 필요
사전관찰에 유의해야 한다 (지금까지 알려진 상태로만 추측해 업샘플링하는 경우에는 안전)

티스토리툴바