데이터 사이언스
빅데이터 기사 필기 - 빅데이터 분석 기획 키워드 정리
차형준
2022. 10. 23.
- 빅데이터 개념
- DIKW피라미드: Ackoff. R.L. 도식화한 데이터에서 가치를 찾는 피라미드, 데이터-정보-지식-지혜
- DIKW피라미드
- 정보: 가공 처리해 연관 관계와 의미
- 지식: 구조화하여 유의미한 정보로 분류하고 일반화한 결과물 규칙
- 지혜: 상황 맥락에 맞는 규칙 적용하는 요소와 깊은 이해 창의적 아이디어
- 데이터 양을 표기하는 법: 테라 → 페타 → 엑사 → 제타 → 요타 (10^3씩 증가)
- 빅데이터 특징
- 3V: 크기Volume, 속도Velocity, 다양성Vartiey
- 7V: 크기 다양성 속도 신뢰성 가치 정확성 휘발성
- 빅데이터 가치
- 가트너 분석가치 에스컬레이터: 묘사-진단-예측-처방분석
- 분석가치 에스컬레이터
- 묘사 분석: 과거, 현재 상황
- 진단 분석: 원인 이해. 발생 이유.
- 예측 분석: 미래 무슨 일이 일어날지
- 처방 분석: 최적화 무엇을 할 것인지
- 빅데이터 조직 인력
- DSCoE: 데이터 사이언스 전문가 조직
- 조직평가 성숙도 단계: 도입 → 활용 → 확산 → 최적화단계
- 활용 단계: 분석 기법 도입 단계
- 확산 단계: 데이터 사이언티스트 확보 및 분석COE조직운영 모든부서적용 단계
- 최적화 단계: 경영진 분석 활용 전략 연계 단계
- 개선방안 4유형: 준비형 도입형 정착형 확산형
- 데이터 거버넌스: 데이터 가용성, 유용성, 통합성, 보안성을 관리하기 위한 프로세스 및 프라이버시, 보안성, 데이터품질, 관리 규정 준수를 강조하는 모델
- 데이터 거버넌스 구성요소: 원칙, 조직, 프로세스
- 데이터 거버넌스 체계: 데이터 표준화, 관리체계, 저장소관리
- 데이터 사이언티스트 요구역량
- 소프트 스킬: 모든직무 - 커뮤니케이션, 분석통찰, 설득전달(비주얼라이제이션)
- 하드 스킬: 실질기술 - 최적 분석 설계, 분석 기법, 방법론, 전문성
- 빅데이터 플랫폼 구성요소: 수집 저장 분석 활용
- 용도에 따른 분류
- 비정형 데이터 수집: 척와 플럼 스크라이브
- 정형 데이터 수집: 스쿱 히호
- 데이터 가공 DW: 피그 하이브
- HDFS: 네임노드 데이터 노드. 분산 데이터 저장 시스템.
- 맵리듀스: 대용량 분산 병렬 컴퓨팅 처리. 맵 → 셔플 → 리듀스 순서로 동작.
- HBase: 분산 데이터베이스
- Yarn: 리소스 관리
- 아파치스파크: 인메모리처리
- 머하웃: 데이터 마이닝
- 임팔라: 실시간SQL질의
- 우지: 워크플로우 관리
- 주키퍼: 분산 코디네이션
- 개인정보보호법·제도
- 개인정보 자기 결정권: 자신에 관한 정보를 언제 어떻게 어느범위까지 타인에게 전달하고 이용될 수 있는지 정보주체가 스스로 결정할 수 있는 권리
- 개인정보보호 필요성: 유출 시 피해심각, 정보사회 핵심인프라, 개인정보 자기통제권
- 개인정보 관련 5법: 개인정보보호법 정보통신망법 신용정보법 위치정보법 개인정보안정성확보조치기준법
- 개인정보 수집이용이 가능한 경우: 동의, 특별규정, 공공기관소관업무, 계약체결이행, 제3자 생명신체재산 급박, 정당한 이익
- 개인정보 수집이용 정보주체 동의 고지사항: 목적, 항목, 기간, 거부권리 및 불이익
- 제3자 제공 가능한 경우: 동의, 수집한 목적범위
- 제3자 제공 고지사항: 제공받는자, 목적, 항목, 기간, 거부권리 및 불이익
- 개인정보 유출 시 정보주체 고지사항: 항목, 시점 및 경위, 피해 최소화 방법, 대응조치 구제절차, 담당부서연락처
- 데이터 3법
- 개인정보보호법: 가명정보도입, 동의없이 처리할 수 있는 개인정보 합리화, 범위 명확화, 보호체계 일원화
- 정보통신망법: 개인정보법 분리. 감독주체 개인정보보호위원회로 변경
- 신용정보법: 빅데이터 분석이용 법적근거 명확화, 위원회 기능강화, 유사중복조항정리, 선진화, 마이데이터산업도입, 개인정보보호 강화
- 익명정보: 더 이상 개인을 알아볼 수 없게(복원 불가능) 조치한 정보. 제한없이 자유롭게 활용
- 가명정보 동의 없이 활용 가능한 범위: 통계작성, 연구, 공익적 기록보존 목적
- 프라이버시 보호모델
- k익명성, l다양성, t근접성, m유일성
- 연결 공격: 같은 값 적어도 몇개 이상, k익명성으로 해결
- 동질성, 배경지식 공격: 동질집합 내에서 적어도 몇개 이상 서로 다른 민감한 정보, l다양성으로 해결
- 쏠림, 유사성 공격: 동집 집합 분포 전체집합 분포 비슷, t근접성으로 해결
- 재식별 위험: 원본 데이터와 동일한 속성 값의 조합이 비식별 결과 데이터에 최소 몇개 이상 존재, m유일성으로 해결
- 마이 데이터: 개인이 자신의 정보를 관리 통제 능동적 활용 과정. 자기 정보결정권 통제권 개인이 가진다는 원칙(권한, 제공, 활용)
- 분석문제 정의
- 하향식 접근 방식: 분석과제가 정해져 있는 경우 해법을 찾기 위해 체계적으로 분석하는 방법
- 문제탐색 → 문제정의 → 해결방안탐색 → 타당성검토 → 선택
- 상향식 접근 방식: 문제 정의 자체가 어려운 경우 데이터 기반으로 문제를 지속적으로 개선. 디자인 사고 접근법
- 프로세스분류 → 프로세스흐름분석 → 분석요건식별 → 분석요건정의
- 디자인 사고: 관찰 공감 바탕으로 다양한 대안을 찾는 확산적 사고+최선의 방법을 찾는 수렴적 사고 반복 혁신적 결과 도출하는 창의적 문제 해결 방법
- 대상별 분석 기획 유형: (대상-방법) 최적화(알알) 솔루션(알못) 통찰(못알) 발견(못못)
- 데이터 분석 방안
- 빅데이터 분석 방법론의 분석 절차: 분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개
- 분석 기획: 비지니스 이해 및 범위 설정. 프로젝트 정의 및 계획 수립. 프로젝트 위험계획 수립
- 데이터 준비: 필요 데이터 정의. 데이터 스토어 설계. 데이터 수집 및 정합성 검증
- 데이터 분석: 분석용 데이터 준비. 텍스트 분석. 탐색적 분석. 모델링. 모델 평가 및 검증. 모델 적용 및 운영방안 수립
- 프로젝트 위험 대응 방법:회피 전가 완화 수용
- 데이터 수집: 크롤링 실시간처리 배치처리. ELT도구
- KDD 분석 방법론: Fayyad 데이터 세트선택, 전처리, 변환, 마이닝, 결과평가
- SEMMA 분석 방법론: SAS사. 샘플링 탐색 수정 모델링 검증
- 빅데이터 분석 절차: 문제인식 → 연구조사 → 모형화 → 자료수집 → 자료분석 → 분석결과공유
- 데이터 수집
- 용어
- 크롤링: 다양한 웹사이트 SNS 뉴스 게시판 등 웹문서에서 콘텐츠 수집하는 기술
- RSS(Rich Site Summary): 블로그 뉴스 쇼핑몰 웹사이트 게시된 새로운 글 공유 위해 XML기반 정보 배포하는 프로토콜 기반 데이터 수집 기술
- Open API: 응용프로그램에서 실시간 데이터 수신 공개된 API로 데이터 수집 기술
- 스트리밍: 오디오 비디오 미디어 데이터 실시간 수집 기술
- 기술
- ETL: 데이터 저장소로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본데이터 추출변환적재 기술
- CEP(Complex Event Processing): 이벤트를 실시간으로 추출하여 대응되는 액션을 수행하는 처리기술. 의미있는 이벤트를 빨리 파악 대응 가능
- EAI(Enterprise Application Integration): 기업 서로 다른 플래폼 애플리케이션 간 정보전달
- CDC(Change Data Capture): 최근 변경된 데이터 다른 시스템으로 이동 처리하는 기술
- ODS(Operation Data Store): 다양한 데이터 원천들로부터 데이터 추출 통합한 데이터베이스
- 도구
- 스쿱(Sqoop): 데이터베이스 시스템(RDBMS) ↔ 하둡파일시스템(HDFS)
- 스크래파이: 파이썬 기반 비정형 데이터 수집
- 아 파치 카프카: 대용량 실시간 로그처리 분산 스트리밍 플래폼
- 플럼: 로그데이터 수집 집계 이동하기 위해 이벤트와 에이전트 활용하는 기술
- 스크라이브: 다수 서버로부터 실시간 스트리밍 로그 데이터 수집
- 척와: 분산된 각 서버에서 에이전트를 실행 컬렉터가 에이전트로부터 데이터 수집해 하둡에 저장 실시간 분석
- 데이터 유형
- 정형 데이터: 구조 관점 스키마 기반 관계형, 스프레드
- 반정형 데이터: 구조 관점 메타데이터 포함. 일관성 없음. XML HTML 웹로그 알람 시스템로그 JSON RSS 센서데이터.
- 비정형 데이터: 스키마 구조 없고 고정된 필드 없음.
- 저장형태에 따른 데이터 유형: 파일, 데이터베이스, 콘텐츠, 스트림 데이터
- 데이터 변환 기술 종류: 평활화, 집계, 일반화, 정규화, 속성 생성
- 데이터 비식별화
- 데이터 비식별화 처리 기법: 가명처리 총계처리 데이터값삭제 범주화 데이터마스킹
- 개인정보 익명 처리 기법: 가명 일반화 섭동 치환
- 데이터 품질 검증
- 데이터 품질 특성: 유효성 활용성
- 데이터 유효성 관련 품질 특성: 정확성(정확 사실 적합 필수 연관) 일관성(정합 일치 무결)
- 데이터 활용성 관련 품질 특성: 유용성(충분 유연 사용 추적) 접근성 적시성 보안성(보호 책임 안정)
- 데이터 프로파일링
- 데이터 현황 분석을 위한 자료 수집을 통해 잠재적 오류 징후 발견 방법
- 데이터 프로파일링 절차: 메타데이터 수집분석 → 대상 유형 선정 → 프로파일링 수행 → 결과 리뷰 → 결과 종합
- 검증 기법: 메타데이터, 정규표현식, 데이터 프로파일링
- 데이터 품질 검증 기준: 복잡성 완전성 유용성 시간적요소 일관성 타당성 정확성
- 데이터 저장
- 데이터 웨어하우스(DW)
- 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해 관리하는 데이터베이스, 고도의 정제된 스키마 필요
- 데이터 웨어하우스 특징: 주제지향적 통합적 시계열적 비휘발적
- 데이터 마트(DM): 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제 데이터 웨어하우스
- 데이터 레이크: 모든 종류의 가공되지 않은 다양한 데이터 저장 시스템, 중앙 집중식 데이터 저장소
- 구글 파일 시스템(GFS): 64MB 청크로 나눠 여러개 복제본을 서버에 분산 저장. 클라이언트 마스터 청크서버로 구성
- 하둡분산파일시스템(HDFS)
- 페타파이트 이상 대용량 분산 서버 저장, 빠르게 처리, 저사양 다수 서버로 구성가능 블록크기 128MB
- HDFS 구성요소: 네임노드 보조네임노드 데이터노드
- 하트비트: 이중화 장비 마스터 장비에 적용 상대편 노드가 작동하는지 주기적으로 점검하는 작업
- 데이터베이스 클러스터: 하나의 데이터베이스를 여러 개의 서버상에 분산하여 구축하는 것
- NoSQL
- 테이블 스키마가 필요하지 않고 조인연산 못하며 수평적 확장 가능
- NoSQL특성: Basically Available, Soft-State, Eventually Consistency(고가용성, 유연성, 일정시간이 지나면 일관성)
- NoSQL종류: 구글 빅테이블, HBase, 아마존simpleDB, 마소SSDS
- CAP이론: 유효성-일관성-분산가능 2가지만 만족 가능
- 빅데이터 저장 기술 분류: 분산파일시스템, 데이터베이스 클러스터, NoSQL