토픽 182 / 210·법규 및 컴플라이언스
비식별화 (De-identification)
비식별화 (De-identification)
데이터셋에서 개인을 식별할 수 없도록 개인정보를 기술적으로 처리하여 프라이버시를 보호하면서 데이터 활용성을 유지하는 기법
특징: 재식별 위험 최소화, 프라이버시 보호, 데이터 유용성 유지
구성요소: 가명처리(Pseudonymization): 식별자를 대체값으로 변환(복원 가능), 총계처리(Aggregation): 통계값으로 대체, 데이터 삭제(Data Reduction): 식별 속성 제거, 데이터 범주화(Generalization): 세부값을 범위로 변환, 마스킹(Masking): 일부를 *로 대체
기술요소: k-익명성(k-Anonymity): 동일 준식별자 k건 이상, l-다양성(l-Diversity): 민감속성 l가지 이상, t-근접성(t-Closeness): 분포 유사성, 차등 프라이버시(Differential Privacy): 수학적 노이즈 추가
적용사례: 빅데이터 분석, 통계 연구, AI 학습 데이터, 데이터 결합
비교: 가명처리(추가정보로 복원 가능/제한적 활용/개인정보보호법 적용) vs 익명처리(복원 불가/자유 활용/개인정보보호법 미적용)
연관: 개인정보보호, 데이터3법, 차등 프라이버시, PET