데이터가 누락되는 종류

  • 무작위로 누락: 변수의 종류와 상관없는 누락

  • 다른 변수와 관련있는 누락: 해당 변수가 아닌 다른 변수의 영향을 받아서 누락된 경우 (ex. 설문조사의 뒷면이 있는 지 모르고 응답하지 않아서 누락된 경우)

  • 해당 변수와 관련있는 누락: 누락된 해당 변수에 관련해서 누락된 경우(어떤 설문조사에서 일부 질문에 정치적인 성향 등의 이유로 채우지 않았을 경우)

  • 첫번째, 두번째는 제거하는 것이 좋지만, 세번째 경우 단순 제거하면 모델이 편향 될 가능성이 있다.

누락값 해결책

  • 삭제: 데이터 버리기(row) or 변수 버리기(col)

    • 단점: 모델이 편향될 수 있으며, 중요한 변수가 버려질 수 있음
  • 대표값(mean, median, mode)으로 대체

    • 단점: 대체한 변수가 다른 변수와 상관관계가 있을 때, 상관관계를 고려하지 않음, 데이터 전체의 분산이 줄어들게 됨(평균), 데이터 전체에 편향이 생김(최빈값)
  • 다중 대체법(multiple imputation, MICE)

    • 과정

      1. 대체하고자 하는 누락값을 비우고, 다른 누락값은 대표값으로 채운다.
      2. 다른 변수들을 X로하고, 대체하고자 하는 누락값이 속하는 변수를 Y로하는 선형회귀모델을 이용해 누락값을 채운다.
      3. 다른 누락값에 대해서도 똑같이 적용한다.
      4. 대체 전 값과 대체 후의 값의 차이가 0이 되도록 이 과정을 반복한다.
  • KNN 사용, 변수를 통해 가까운 데이터 K개를 골라 이 데이터들의 평균을 사용함

    • 단점: 오래걸림, outlier에 민감함, 변수의 scale을 조절해줘야 함

출처: https://subinium.github.io/missing-data-handling/

'Data Science' 카테고리의 다른 글

[ML] 의사결정나무(Decision Tree) 뿌시기  (0) 2022.05.21
[논문 리뷰] ESRGAN  (0) 2022.03.25
[논문 리뷰] Attention is all you Need (transformer)  (0) 2022.03.04
[논문 리뷰] SRGAN  (0) 2022.02.18
빈도주의 vs 베이지안  (0) 2022.02.06

+ Recent posts