ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 개인정보 비식별 조치 방법 - 총계처리(Aggregation)
    보안/개인정보 비식별화 2021. 2. 23. 13:49

     

    개념

    • 통계값(전체 혹은 부분)을 적용하여 특정 개인을 식별할 수 없도록 함

    대상

    • 개인과 직접 관련된 날짜 정보(생일, 자격 취득일), 기타 고유 특징(신체정보, 진료기록, 병력정보, 특정소비기록 등 민감한 정보)

    장단점

    • 장점 : 민감한 수치 정보에 대하여 비식별 조치가 가능하며, 통계분석용 데이터 셋 작성에 유리함
    • 단점 : 정밀 분석이 어려우며 집계 수량이 적을 경우 추론에 의한 식별 가능성 있음

    실무적용 방법

    1. 총계처리(Aggregation)

    • 데이터 전체 또는 부분을 집계(종합, 평균 등)
      ※ 단, 데이터 전체가 유사한 특징을 가진 개인으로 구성되어 있을 경우 그 데이터의 대푯값이 특정 개인의 정보를 그대로 노출시킬 수도 있으므로 주의
      ex) 집단에 소속된 전체 인원의 평균 나이값을 구한 후 각 개인의 나이값을 평균 나이값(대푯값)으로 대체하거나 해당 집단 소득의 전체 평균값을 각 개인의 소득값으로 대체
    • 적용정보 : 나이, 신장, 소득, 카드사용액, 유동인구, 사용자수, 제품 재고량, 판매량 등

     

    2. 부분총계(Micro Aggregation)

    • 데이터 셋 내 일정부분 레코드만 총계 처리함. 즉, 다른 데이터 값에 비하여 오차 범위가 큰 항목을 통계값(평균 등)으로 변환
      ex) 다양한 연령대의 소득 분포에 있어서 40대의 소득 분포 편차가 다른 연령대에 비하여 매우 크거나 특정 소득 구성원을 포함하고 있을 경우, 40대의 소득만 선별하여 평균값을 구한 후 40대에 해당하는 각 개인의 소득값을 해당 평균값으로 대체
    • 적용정보 : 나이, 신장, 소득, 카드사용액 등

     

    3. 라운딩(Rounding)

    • 집계 처리된 값에 대하여 라운딩(올림, 내림, 사사오입) 기준을 적용하여 최종 집계 처리하는 방법으로, 일반적으로 세세한 정보보다는 전체 통계정보가 필요한 경우 많이 사용
      ex) 23세, 41세, 57세, 33세 등 각 나이값을 20대, 30대, 40대, 50대 등 각 대표 연령대로 표기하거나 3,576,000원 등의 소득값을 일부 절삭하여 3백만원 등으로 집계 처리하는 방식
    • 적용정보 : 나이, 신장, 소득, 카드지출액, 유동인구, 사용자 수 등

     

    4. 재배열(Rearrangement)

    • 기존 정보값은 유지하면서 개인이 식별되지 않도록 데이터를 재배열하는 방법으로, 개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 하는 방법
      ex) 데이터 셋에 포함된 나이, 소득 등의 정보를 개인별로 서로 교환하여 재배치하게 되면 개인별 실제 나이와 소득과 다른 비식별 자료를 얻게 되지만, 전체적인 통계 분석에 있어서는 자료의 손실 없이 분석을 할 수 있는 장점이 있음
    • 적용정보 : 나이, 신장, 소득, 질병, 신용등급, 학력 등

    댓글