ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 개인정보 비식별 조치 방법 - t-근접성(t-closeness)
    보안/개인정보 비식별화 2021. 2. 23. 16:31

     

    t-근접성(t-closeness) : 값의 의미를 고려하는 프라이버시 모델


    개념

    • ℓ-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
    • ℓ-다양성의 취약점 :
      • 쏠림 공격 (skewness attack) 
        • 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
        • <쏠림 공격의 예>
          • 임의의 ‘동질 집합’이 99개의 ‘위암 양성’ 레코드와 1개의 ‘위암 음성’ 레코드로 구성되어 있다 가정
          • 공격자는 공격 대상이 99%의 확률로 ‘위암 양성’이라는 것을 알 수 있음
      • 유사성 공격 (similarity attack)
        • 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이 버시가 노출될 수 있음
        • <유사성 공격의 예>
          • <표 5>는 3-다양성(ℓ=3) 모델을 통해 비식별 된 데이터
          • 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
          • 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
          • 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(30 ~ 50백만원)

    정의

    • 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보여야 함
    • 각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함
    • <표 5>에서 전체적인 급여 값의 분포는 30 ~ 110이나 레코드 1, 2, 3이 속한 동질 집합에 서는 30 ~ 50으로 이는 전체 급여 값의 분포(30 ~ 110)와 비교할 때 상대적으로 유사한 수준이라 볼 수 있음
    • 공격자는 근사적인 급여 값을 추론할 수 있음
    • t-근접성 모델은 이러한 동질 집합과 전체 데이터 집합 사이의 분포의 과도한 차이를 ℓ-다양성 모델의 취약점으로 규정함

     

     


    특징

    • ‘정보의 분포’를 조정하여 정보가 특정 값으로 쏠리거나 유사한 값들이 뭉치는 경우를 방지
    • <표 6>에서 t-근접성 모델에 따라 레코드 1, 3, 8은 하나의 동질 집합
    • 이 경우, 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
    • 또한, 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
    • 따라서 <표 5>의 경우와 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐

     

    • t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
    • 익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음

    댓글