Data/독서

[리뷰]데이터 품질의 비밀-데이터 옵저버빌러티 구축부터 조직 재구성까지

뚱요 2023. 5. 30. 08:00
반응형

최근 많은 스타트업에서도 데이터 거버넌스 관련 조직이 생길 정도로 정책과 절차를 통해서 데이터의 가용성, 품질, 보안성을 높이기 위한 조치를 취하고 있습니다. 그만큼 많은 조직에서는 데이터의 품질을 잘 관리하고 데이터가 흐르는 조직 문화를 구축하기 위해 투자하고 있어 이와 함께 데이터 품질 개선에 대한 중요성이 강조되고 있습니다.
이 열기와 함께 O'Reiley의 첫 번째 데이터 품질에 관한  책으로 데이터 기반으로 일하는 모든 사람에게 좋지만 특히 데이터 품질 관리, 개선하고자 하는 사람에게  많은 사례와 실제 도구를 기반으로  설명하고 있어 참고하기에 유용하다고 생각되었습니다. 제 경우에도 업무에서 데이터 옵저버빌러티 관련하여 프로젝트 시 유용한 가이드라인이 될 듯하여 먼저 접하게 되었습니다.

데이터 품질의 비밀( Data Quality Fundamentals)

데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드

출판사: 디코딩
저자 : 바 모세스, 라이어 개비쉬, 몰리 보르웨르크
번역 : 데이터야놀자
페이지 : 376 쪽
발행일 :  2023년 4월 10일
정가 : 28,000원

 

구성

  • 데이터 품질은 파이프라인의 여러 단계에 포함되고 개선하려면 기술적 측면뿐 아니라 거버넌스와 조직 문화와 같은 다른 많은 영역도 고려해야 한다.
  • 데이터 파이프 라인을 구축하기 위한 다양한 기술을 활용하고 양질의 프레임워크를 구축, 데이터 카탈로그 구축하여 사용자에게 데이터 접근성, 상태, 위치 평가하고 검색 가능해야 한다.
  • 신뢰성 있는 데이터 전처리, 수집, 활용을 전 라이프사이클 단계와 도메인 걸쳐 데이터 자체, 상태, 사용법을 이해해야 하
  • 데이터 수집, 정제, 변환, 테스트 4가지 단계를 통해 파이프라인에 있어 데이터 품질 관리 방법과 툴 안내
  • 사전 이상 탐지 및 핵심 메트릭이나 분포 모니터링으로 문제 탐지
  • SLA(서비스 레벨 계약), SLI(서비스 수준 지표), SLO(서비스 수준 목표) 같은 프로세스를 통해 데이터 품질을 잘 측정하고 보장할 수 있는 시스템과 프로세스 설계, 구축 및 신선도, 볼륨, 배포, 스키마, 계보의 다섯 가지 핵심 요소 기반 최적화
  • 데이터 신뢰성 워크플로우인 사고관리, 근본 원인 분석
    • 사고 관리 프로그램을 데이터 파이프라인 과리를 위해 도입하고 대규모 사고 감지 전략으로 이상 탐지 활용, 사고 발생 시 근본 원인 분석 및 영향 분석, 테스트, CI/CD, 데이터 옵저빌리티, 데이터 관리를 통해 데이터 품질 문제가 발생하지 않도록 예방하여 실시간으로 문제 처리 가능해야 한다.
  • 데이터 다운 타임 해결 및 방지 위한 최신 데이터 시스템을 위한 엔드 투 엔드 필드 레벨 데이터 계보 구축하여 다운타임 영향을 받는 데이터 파이프라인 단계 파악
  • 데이터 품질 민주화를 통해 문화적, 조직적 장벽과 조직 구성 방법
  • 데이터 품질에 따라 비즈니스에 미치는 영향을 측정하기 위한 효용성 계산 공식 소계

 

후기

 
챕터 5부터는 각 챕터에 맞는 기술적, 조직적, 문화적 모범 연구가 사례와 도표, 대표적인 툴과 예시 쿼리가 상세하게 수록되어 주요 툴, 프로세스, 지표 참고하기 유용했습니다. 언제 기술을 변경하고 적절한 데이터의 양은 어느 정도이고 어떤 프로세스를 실행해야 하는지 선택하고 이해하는 것이 중요하며 신뢰성을 위해서 높은 수준의 옵저버빌러티(Observability) 갖추고 문제 발생 시 쉽게 나타내어 사전 조치를 수행하여야 한다는 전반적인 프로세스 및 내부를 알게 되어 시야를 넓히게 된 계기가 되었습니다.

데이터 중심 기조는 결국 언제나 문화에서 시작되고 문화에서 끝난다.
pg.342 , 데이터 품질의 비밀

사례에서도 나왔듯이 데이터 중심 문화 구축은 적절한 기술 스택 구축보다 훨씬 더 중요하다였습니다. 아무리 구축하더라도 데이터 중심문화가 되지 않는 다면 큰 영향력을 발휘할 수 없다고 느껴왔는데..
내용이 넓고 얕게 다루다 보니 초보나 입문자가 보기에 쉽지 않은 수준입니다. 하지만 현업에서 이와 같은 데이터 옵저버빌러티에 관한 문제를 겪어 해결하고자 한다면 가이드라인으로 좋습니다.

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

반응형