-
개인정보 비식별 조치 방법 - t-근접성(t-closeness)보안/개인정보 비식별화 2021. 2. 23. 16:31
t-근접성(t-closeness) : 값의 의미를 고려하는 프라이버시 모델
개념
- ℓ-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
- ℓ-다양성의 취약점 :
- 쏠림 공격 (skewness attack)
- 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
- <쏠림 공격의 예>
• 임의의 ‘동질 집합’이 99개의 ‘위암 양성’ 레코드와 1개의 ‘위암 음성’ 레코드로 구성되어 있다 가정
• 공격자는 공격 대상이 99%의 확률로 ‘위암 양성’이라는 것을 알 수 있음
- 유사성 공격 (similarity attack)
- 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이 버시가 노출될 수 있음
- <유사성 공격의 예>
• <표 5>는 3-다양성(ℓ=3) 모델을 통해 비식별 된 데이터
• 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
• 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
• 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(30 ~ 50백만원)
- 쏠림 공격 (skewness attack)
정의
- 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보여야 함
- 각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함
- <표 5>에서 전체적인 급여 값의 분포는 30 ~ 110이나 레코드 1, 2, 3이 속한 동질 집합에 서는 30 ~ 50으로 이는 전체 급여 값의 분포(30 ~ 110)와 비교할 때 상대적으로 유사한 수준이라 볼 수 있음
- 공격자는 근사적인 급여 값을 추론할 수 있음
- t-근접성 모델은 이러한 동질 집합과 전체 데이터 집합 사이의 분포의 과도한 차이를 ℓ-다양성 모델의 취약점으로 규정함
특징
- ‘정보의 분포’를 조정하여 정보가 특정 값으로 쏠리거나 유사한 값들이 뭉치는 경우를 방지
- <표 6>에서 t-근접성 모델에 따라 레코드 1, 3, 8은 하나의 동질 집합
- 이 경우, 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
- 또한, 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
- 따라서 <표 5>의 경우와 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐
- t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
- 익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음
'보안 > 개인정보 비식별화' 카테고리의 다른 글
개인정보 비식별 조치 방법 - ℓ-다양성(ℓ-diversity) (0) 2021.02.23 개인정보 비식별 조치 방법 - k-익명성(k-anonymity) (0) 2021.02.23 개인정보 비식별 조치 방법 - 데이터 마스킹(Data Masking) (0) 2021.02.23 개인정보 비식별 조치 방법 - 데이터 범주화(Data Suppression) (0) 2021.02.23 개인정보 비식별 조치 방법 - 데이터 삭제(Data Reduction) (0) 2021.02.23