2022/블록체인

[블록체인 / 데이터 공유] Blockchain: Empowering Secure Data Sharing 챕터 1 요약

코드아키택트 2022. 1. 8. 16:45
반응형

https://link.springer.com/book/10.1007%2F978-981-15-5939-6

위의 책 내용중 챕터 1을 요약한 내요입니다

Summary

What : 책이 말하려는 것

  • 블록체인을 통한 데이터 교환에 관한 전반적인 이야기

Why : 왜 블록체인 데이터 공유를 해야하는지

  • 기존 모델의 한계점 (Federated Learning 중심으로)
    • 동형암호화(Homomorphic) 방식 데이터
      • 데이터 암호화 유지된 채로 연산을 하는 방식
      • 제 3자 필요 → 제 3자에게 데이터 유출 우려(또한 블록체인의 가치를 제 3자 없이 거래가 가능한 것에서 많이들 언급하고 있음)
    • 차분 프라이버시(Differential Privacy)
      • 원본 데이터에 노이즈를 추가해서 공유하는 방식
      • 노이즈로 인한 모델 성능 저하
    • Federated Learning 자체의 시간 소모
      • 여러 단체들이 소통하는 사이에 시간소모

How : 어떻게 할 수 있는지

  • 이어지는 챕터에서 다룸

1.배경

머신러닝과 데이터

  • 데이터가 많을 수록 모델의 성능 좋아짐
  • ex) 구글의 300만 이미지 학습 모델의 경우 모델의 양에 모델 성능이 선형으로 비례

현재 챌린지

  • 단일 기관은 데이터가 부족함
  • 학습시 데이터 프라이버시 문제 존재
  • GDPR등 데이터 주권 관련 배경

블록체인과 데이터 공유

  • 다음과 같은 점에서 데이터 공유시 유리함
  1. 탈중앙화 - 단일 실패지점 없음, 동일한 내용을 여러개의 카피로 소유, 중앙 관리자 없음(데이터 조작 및 소실 우려 적음)
  2. 조작 저항성 - PoW, PoS등의 합의 알고리즘
  3. 추적성 - 데이터이력을 추적하기 용이

블록체인 데이터 공유 한계

  • 프라이버시 문제는 여전히 존재. 왜냐하면 트랜잭션(Tx) 내용이 여전히 plain text로 기록

책에서 다루는 문제

  • 안전하게 데이터 공유하는 모델 제시

2. 일반적인 데이터 공유 시나리오

  • 데이터 공급자와 사용자가 존재함
  • 의료, 운송수단, 물류 등 분야에서 데이터 공유 방법을 사용증
  • 예) 특이 케이스의 환자 정보를 공유, Internet of Vehicle 분야에선 운송수단 판매자, 서비스 제공자 등등이 데이터 교환

데이터 종류

  • Homogeneous 와 Heterogeneous 방식
  • Homogeneous : 같은 데이터 포맷을 가진 경우. 예)은행 A,B 사이의 데이터 교환
  • Heterogeneous : 다른 데이터 포맷을 가진 경우. 예) 은행과 e-commerce 사이 데이터 교환( SQL Full Join)

3. 현재 데이터 교환 + Machine Learning 방식(Collaborative Learning)

블록체인 없이

  • Secure multi-party, Homomorphic, DP(Differential Privacy)
  • 이중 Homomorphic(동형 암호화), DP(차분 프라이버시) 많이 쓰임
  • 동형암호화 : 계산을 위해 제 3자 필요 → 데이터 유출 우려
  • DP : 데이터에 노이즈 추가 방식 → 정확도 저하

블록체인과 함께

  • Medical, energy 분야 등에서 활용
  • 여러 시도 있었음
  • 인센티브 고려 할 수 있음
  • 중앙화된 Federated Learning 방식의 시간소모 및 데이터 leakage 해결 → 커뮤니케이션으로 인한 비용 절감(아마도 스마트 컨트랙트?)

4. 데이터 교환시 요구사항 및 챌린지

4.1 데이터 교환의 무결성(Integrity)

  • 데이터 무결성이 부족한 경우
  1. 정보 중 일부 유실 : 데이터 교환 중 일부 field가 지워진 경우
  2. 부실한 퀄리티 : 퀄리티 자체가 떨어지는 경우(모든 field는 채워져있지만 내용 자체가 부실로 보면 될듯)

4.2 데이터 교환의 보안(Security of Data Sharing)

  • 데이터 교환 중 개인 정보 유출 → 데이터의 가치 하락 또는 민감정보 유출
  1. 데이터 가치 소실 : 지금 데이터 교환 방식은 대부분 Copy, paste → 데이터 요청자가 직접 데이터를 얻게됨. → 데이터가 유출되지 않도록 노력하지만 유출시, 데이터 가치 하락
  2. 민감정보 유출 : 민감정보가 직접 써있지 않아도, bad actor 손에 데이터가 들어가면 통계적 기법을 통해 민감정보 유출 가능

4.3 데이터 공유의 사용성

  • 동형암호화 및 차분 프라이버시 방법 등 현재 방법의 한계 → 데이터 연산결과 부정확 하거나, 제 3자 도입이 꼭 필요하게 됨
  1. 낮은 효율성 - Replication Sharing mode(데이터를 공유) → Computation Sharing Mode(federated learning, 동형암호화, 차분 프라이버시). 방대한 양의 암호화 복호화 계산양
  2. 낮은 정확도 - 차분 프라이버시의 경우 데이터에 노이즈 → 정확도 하락
  3. 꼭 필요한 제 3자 - 동형 암호화 방식때 필요. 부드럽게 과정이 이어지도록 하기 위해서 필요. → 현실적으로 불가능함. + 비용, 성능 등 요구사항에 충족 불가
반응형