반응형
https://link.springer.com/book/10.1007%2F978-981-15-5939-6
위의 책 내용중 챕터 1을 요약한 내요입니다
Summary
What : 책이 말하려는 것
- 블록체인을 통한 데이터 교환에 관한 전반적인 이야기
Why : 왜 블록체인 데이터 공유를 해야하는지
- 기존 모델의 한계점 (Federated Learning 중심으로)
- 동형암호화(Homomorphic) 방식 데이터
- 데이터 암호화 유지된 채로 연산을 하는 방식
- 제 3자 필요 → 제 3자에게 데이터 유출 우려(또한 블록체인의 가치를 제 3자 없이 거래가 가능한 것에서 많이들 언급하고 있음)
- 차분 프라이버시(Differential Privacy)
- 원본 데이터에 노이즈를 추가해서 공유하는 방식
- 노이즈로 인한 모델 성능 저하
- Federated Learning 자체의 시간 소모
- 여러 단체들이 소통하는 사이에 시간소모
- 동형암호화(Homomorphic) 방식 데이터
How : 어떻게 할 수 있는지
- 이어지는 챕터에서 다룸
1.배경
머신러닝과 데이터
- 데이터가 많을 수록 모델의 성능 좋아짐
- ex) 구글의 300만 이미지 학습 모델의 경우 모델의 양에 모델 성능이 선형으로 비례
현재 챌린지
- 단일 기관은 데이터가 부족함
- 학습시 데이터 프라이버시 문제 존재
- GDPR등 데이터 주권 관련 배경
블록체인과 데이터 공유
- 다음과 같은 점에서 데이터 공유시 유리함
- 탈중앙화 - 단일 실패지점 없음, 동일한 내용을 여러개의 카피로 소유, 중앙 관리자 없음(데이터 조작 및 소실 우려 적음)
- 조작 저항성 - PoW, PoS등의 합의 알고리즘
- 추적성 - 데이터이력을 추적하기 용이
블록체인 데이터 공유 한계
- 프라이버시 문제는 여전히 존재. 왜냐하면 트랜잭션(Tx) 내용이 여전히 plain text로 기록
책에서 다루는 문제
- 안전하게 데이터 공유하는 모델 제시
2. 일반적인 데이터 공유 시나리오
- 데이터 공급자와 사용자가 존재함
- 의료, 운송수단, 물류 등 분야에서 데이터 공유 방법을 사용증
- 예) 특이 케이스의 환자 정보를 공유, Internet of Vehicle 분야에선 운송수단 판매자, 서비스 제공자 등등이 데이터 교환
데이터 종류
- Homogeneous 와 Heterogeneous 방식
- Homogeneous : 같은 데이터 포맷을 가진 경우. 예)은행 A,B 사이의 데이터 교환
- Heterogeneous : 다른 데이터 포맷을 가진 경우. 예) 은행과 e-commerce 사이 데이터 교환( SQL Full Join)
3. 현재 데이터 교환 + Machine Learning 방식(Collaborative Learning)
블록체인 없이
- Secure multi-party, Homomorphic, DP(Differential Privacy)
- 이중 Homomorphic(동형 암호화), DP(차분 프라이버시) 많이 쓰임
- 동형암호화 : 계산을 위해 제 3자 필요 → 데이터 유출 우려
- DP : 데이터에 노이즈 추가 방식 → 정확도 저하
블록체인과 함께
- Medical, energy 분야 등에서 활용
- 여러 시도 있었음
- 인센티브 고려 할 수 있음
- 중앙화된 Federated Learning 방식의 시간소모 및 데이터 leakage 해결 → 커뮤니케이션으로 인한 비용 절감(아마도 스마트 컨트랙트?)
4. 데이터 교환시 요구사항 및 챌린지
4.1 데이터 교환의 무결성(Integrity)
- 데이터 무결성이 부족한 경우
- 정보 중 일부 유실 : 데이터 교환 중 일부 field가 지워진 경우
- 부실한 퀄리티 : 퀄리티 자체가 떨어지는 경우(모든 field는 채워져있지만 내용 자체가 부실로 보면 될듯)
4.2 데이터 교환의 보안(Security of Data Sharing)
- 데이터 교환 중 개인 정보 유출 → 데이터의 가치 하락 또는 민감정보 유출
- 데이터 가치 소실 : 지금 데이터 교환 방식은 대부분 Copy, paste → 데이터 요청자가 직접 데이터를 얻게됨. → 데이터가 유출되지 않도록 노력하지만 유출시, 데이터 가치 하락
- 민감정보 유출 : 민감정보가 직접 써있지 않아도, bad actor 손에 데이터가 들어가면 통계적 기법을 통해 민감정보 유출 가능
4.3 데이터 공유의 사용성
- 동형암호화 및 차분 프라이버시 방법 등 현재 방법의 한계 → 데이터 연산결과 부정확 하거나, 제 3자 도입이 꼭 필요하게 됨
- 낮은 효율성 - Replication Sharing mode(데이터를 공유) → Computation Sharing Mode(federated learning, 동형암호화, 차분 프라이버시). 방대한 양의 암호화 복호화 계산양
- 낮은 정확도 - 차분 프라이버시의 경우 데이터에 노이즈 → 정확도 하락
- 꼭 필요한 제 3자 - 동형 암호화 방식때 필요. 부드럽게 과정이 이어지도록 하기 위해서 필요. → 현실적으로 불가능함. + 비용, 성능 등 요구사항에 충족 불가
반응형
'2022 > 블록체인' 카테고리의 다른 글
[블록체인 / 유동성풀] 유동성풀 이해 (0) | 2022.01.24 |
---|---|
[블록체인 / 데이터 공유] Blockchain: Empowering Secure Data Sharing 챕터 2 요약 (0) | 2022.01.10 |
[책리뷰] 비즈니스 블록체인 / 윌리엄 무가야 (0) | 2021.12.25 |
[블록체인 데이터 교환] Layered Data Sharing Architecture with Blockchain (0) | 2021.12.17 |
[자격증] 한국표준협회 블록체인 전문가 (2급) 시험 후기 (0) | 2021.12.15 |