-
개인정보 비식별 조치 방법 - 데이터 범주화(Data Suppression)보안/개인정보 비식별화 2021. 2. 23. 14:19
개념
- 특정 정보를 해당 그룹의 대푯값으로 변환(범주화)하거나 구간값으로 변환(범주화)하여 개인 식별을 방지
대상
- 개인을 식별할 수 있는 정보(주소, 생년월일, 고유식별정보(주민등록번호, 운전면허번호 등), 기관/단체 등의 이용자 계정(등록번호, 계좌번호))
장단점
- 장점 : 통계형 데이터 형식이므로 다양한 분석 및 가공 가능
- 단점 : 정확한 분석결과 도출이 어려우며, 데이터 범위 구간이 좁혀질 경우 추론 가능성 있음
실무적용 방법
1. 감추기
- 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주값으로 변환하는 방식
- 단, 특수한 성질을 지닌 개인으로 구성된 단체 데이터의 평균이나 범주값은 그 집단에 속한 개인의 정보를 쉽게 추론할 수 있음
ex) 간염 환자 집단임을 공개하면서 특정인물 '갑'이 그 집단에 속함을 알 수 있도록 표시하는 것은 '갑'이 간염 환자임을 공개하는 것과 마찬가지임
2. 랜덤 라운딩(Random Rounding)
- 수치 데이터를 임의의 수 기준으로 올림(round up) 또는 내림(round down)하는 기법
- "총계처리의 라운딩(Rounding)"과 달리 수치 데이터 이외의 경우에도 확장 적용 가능
ex) 나이, 우편번호 등과 같은 수치 정보로 주어진 식별자는 일의 자리, 십의 자리 등 뒷자리 수를 숨기고 앞자리 수만 나타내는 방법(나이: 42세, 45세 -> 40대로 표현) - 적용정보 : 나이, 소득, 카드지출액, 우편번호, 유동인구, 사용자 등
3. 범위 방법(Data Range)
- 수치데이터를 임의의 수 기준의 범위(range)로 설정하는 기법으로, 해당 값의 범위(range) 또는 구간(interval)으로 표현
ex) 소득 3,300만원을 소득 3,000만원 ~ 4,000만원으로 대체 표기 - 적용정보 : 서비스 이용 등급, 처방정보(횟수, 기간 등), 위치정보, 유동인구, 사용자 수, 분석 시간/기간 등
4. 제어 라운딩(Controlled Rounding)
- 랜덤 라운딩(Random Rounding) 방법에서 어떠한 특정값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법
- 그러나 컴퓨터 프로그램으로 구현하기 어렵고 복잡한 통계표에는 적용하기 어려우며, 해결할 수 있는 방법이 존재하지 않을 수 있어 아직 현장에서는 잘 사용하지 않음
- 적용정보 : 나이, 키, 소득, 카드지출액, 위치정보 등
'보안 > 개인정보 비식별화' 카테고리의 다른 글
개인정보 비식별 조치 방법 - k-익명성(k-anonymity) (0) 2021.02.23 개인정보 비식별 조치 방법 - 데이터 마스킹(Data Masking) (0) 2021.02.23 개인정보 비식별 조치 방법 - 데이터 삭제(Data Reduction) (0) 2021.02.23 개인정보 비식별 조치 방법 - 총계처리(Aggregation) (1) 2021.02.23 개인정보 비식별 조치 방법 - 가명처리 (Pseudonymization) (0) 2021.02.23