ABOUT ME

-

Today: -

Yesterday: -

Total: -

Jay's Jay's

개인정보 비식별 조치 방법 - t-근접성(t-closeness)

보안/개인정보 비식별화 2021. 2. 23. 16:31

t-근접성(t-closeness) : 값의 의미를 고려하는 프라이버시 모델

개념

ℓ-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
ℓ-다양성의 취약점 :
- 쏠림 공격 (skewness attack)
  - 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
  - <쏠림 공격의 예>
    • 임의의 ‘동질 집합’이 99개의 ‘위암 양성’ 레코드와 1개의 ‘위암 음성’ 레코드로 구성되어 있다 가정
    • 공격자는 공격 대상이 99%의 확률로 ‘위암 양성’이라는 것을 알 수 있음
- 유사성 공격 (similarity attack)
  - 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이 버시가 노출될 수 있음
  - <유사성 공격의 예>
    • <표 5>는 3-다양성(ℓ=3) 모델을 통해 비식별 된 데이터
    • 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
    • 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
    • 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(30 ~ 50백만원)

정의

동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보여야 함
각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함
<표 5>에서 전체적인 급여 값의 분포는 30 ~ 110이나 레코드 1, 2, 3이 속한 동질 집합에 서는 30 ~ 50으로 이는 전체 급여 값의 분포(30 ~ 110)와 비교할 때 상대적으로 유사한 수준이라 볼 수 있음
공격자는 근사적인 급여 값을 추론할 수 있음
t-근접성 모델은 이러한 동질 집합과 전체 데이터 집합 사이의 분포의 과도한 차이를 ℓ-다양성 모델의 취약점으로 규정함

특징

‘정보의 분포’를 조정하여 정보가 특정 값으로 쏠리거나 유사한 값들이 뭉치는 경우를 방지
<표 6>에서 t-근접성 모델에 따라 레코드 1, 3, 8은 하나의 동질 집합
이 경우, 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
또한, 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
따라서 <표 5>의 경우와 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐

t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음

저작자표시

'보안 > 개인정보 비식별화' 카테고리의 다른 글

개인정보 비식별 조치 방법 - ℓ-다양성(ℓ-diversity) (0)	2021.02.23
개인정보 비식별 조치 방법 - k-익명성(k-anonymity) (0)	2021.02.23
개인정보 비식별 조치 방법 - 데이터 마스킹(Data Masking) (0)	2021.02.23
개인정보 비식별 조치 방법 - 데이터 범주화(Data Suppression) (0)	2021.02.23
개인정보 비식별 조치 방법 - 데이터 삭제(Data Reduction) (0)	2021.02.23

관련글 관련글 더보기

댓글

인기포스트

ABOUT ME

굉장히 공개적인 개인공간

LINK

ADMIN

티스토리툴바