[ADsP] 데이터분석준전문가 개념 요약정리
데이터 거버넌스의 3가지 구성요소
- 원칙
- 조직
- 프로세스
데이터 거버넌스의 체계
- 데이터 표준화 → 데이터 관리 체계 → 데이터 저장소 관리 → 표준화 활동
단순선형 회귀분석의 가정사항
- 선형성
- 독립성
- 등분산성
- 정규성
유의 확률
- 가설 검증을 수행할 때 귀무가설을 기각할 때 그 결정이 잘못되었을 확률을 의미하는 용어
시계열 분석의 정상성 가정
- 모든 시점 t에 대해 일정한 평균을 갖는다
- 모든 시점 t에 대해 일정한 분산을 갖는다
- 공분산은 시점 t에 의존하지 않고 시차 I에 의존한다
- 백색잡음은 대표적인 정상성 가정을 만족하는 시계열 자료다
의사결정나무
- 의사결정나무는 이상값에 민감하지 않다는 것이 큰 장점이다
- 여러 독립변수들 사이의 중요도를 판단하기 쉽지 않다
- 분류 경계선에서 높은 오차를 갖는다
- 누구나 쉽게 분석 결과를 이해할 수 있다
결측값 처리 방법
- 결측값이 많은 경우 단순대치법은 대량의 데이터 손실을 초래할 수 있기 때문에 권장되지 않는다
- 평균 대치법의 경우 조건부 평균 대치법과 비조건부평균 대치법으로 나눌 수 있다
- 다중 대치법은 대치 분석 결합의 순서로 구성된다
- 분류를 위한 k_nn 알고리즘을 사용해서 결측값을 대치할 수 있다
암묵지와 형식지의 상호작용 (“공표연내”)
- 1단계 : 암묵적 지식 노하우를 다른 사람에게 알려주는 것 – (공통화)
- 2단계 : 암묵적 지식 노하우를 책이나 교본 등 형식지로 만드는 것 – (표출화)
- 3단계 : 책이나 교본에 자신이 알고 있는 새로운 지식(형식지)를 추가하는 것 –(연결화)
- 4단계 : 만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득 – (내면화)
반정형 데이터
- 데이터 구조에 대한 메타 정보를 포함한 데이터, Parsing을 통해 구조를 파악하고 정보 활용 가능한 유형의 데이터
- 고정된 스키마가 없기 때문에 테이블 형식 데이터 모델이나 관계형 데이터베이스의 형식을 따르지 않음
데이터 웨어하우스
- 기업 내에 있는 각종 데이터를 추출하고 조합해 사업 목적에 맞는 정보 혹은 지식으로 바꾸어주는 기술
데이터 마트
- 데이터 웨어하우스에 저장된 자료 중에서 일정한 주제나 특정 부서의 자료를 별도의 장소에 중복 저장하여 사용자들이 사용하도록 하는 것
분석 과제에 대한 접근 방법
- 문제가 확실할때는 하향식 접근 방법을 사용한다
- 디자인 싱킹의 경우에는 상향식과 하향식을 반복적으로 사용하기 쉽다
- 문제의 정의 자체가 어려운 경우에는 상향식 접근 방식을 사용한다
- 문제의 해법을 찾기 위해 하향식 접근 방식을 사용한다
상향식 접근 방식
- 문제에 대한 정의가 어려운 경우에 데이터를 바탕으로 문제를 지속적으로 개선해 나가는 접근 방식
하향식 접근 방식
- 분석 과제가 정해져 있는 상태에서 과제를 체계적으로 분석하는 방법
- 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 평가
디자인 싱킹
- 인간과 사물을 관찰하고 공감, 이해하고 다양한 방법을 찾는 창의적 문제 해결 방법
- 사람과 사물에 대한 공감적 관찰을 통해 문제를 재해석하고, 시각적 아이디어 도출을 통해 직접적인 고객을 포함한 이해 관계자를 이끌어내, 빠른 시일 내에 가시적인 프로토타입을 공동 제작하는 액션 전략
KDD와 CRISP-DM 간 유사한 프로세스 단계
- KDD : 데이터셋 선택, 데이터 변화
- CRISP-DM : 데이터 이해, 데이터 준비
정확도와 정밀도에 대한 설명
- 정확도와 정밀도는 상충관계이다
- 모델의 안정성 측면에서는 정확도가 중요하고, 분석의 활용 측면에서는 정밀도가 중요하다
- 정확도는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고, 정밀도는 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시
ESD
- 이상값(Outiler) 검색 기법의 하나로 평균으로부터 표준편차의 k배보다 떨어진 값들을 이상값으로 판단하는 방법
회귀분석에서 가장 적합한 회귀 모델을 찾기 위한 과정
- 회귀계수가 0이면 독립변수는 종속변수와 인과 관계가 없다
- 회귀계수의 t-통계량의 p-값이 0.05보다 작으면 통계적으로 유의미함(H1)을 채택한다
- 잔차의 독립성, 등분산성, 정규성을 만족하는지 확인해야 한다
빅데이터의 특징(3V)
- 규모(Volume)
- 다양성(Variety)
- 속도(Velocity)
- 가치(Value)
- 신뢰성(Veracity)
- 정확성(Validity)
- 휘발성(Volatility)
데이터 분석 과제 수행시 고려하는 5요소
- Data Size
- Data Complexity
- Speed
- Analytic Complexity
- Accuracy & Precision
확률 분포
- 확률변수란 표본공간의 각 원소에 하나의 실숫값을 대응시켜 주는 함수이다
- 확률변수가 취할 수 있는 값이 유한하거나 또는 무한히 많더라도 하나씩 셀 수 있는 경우를 이산형 확률변수라고 한다
- 결과가 두가지 중 하나로만 나오는 실험이나 실행을 베르누이 시행이라고 한다
- 확률밀도함수는 연속형 확률변수의 확률분포를 의미한다
위기 요인과 통제방안
- 사생활 침해 : 제공자에서 사용자 책임으로 전환
- 책임 원칙 훼손 : 결과에 대해서만 책임
- 데이터의 오용 : 알고리즘을 해석가능한 알고리즈미스트 필요
감정분석
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석한다
- 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 활용한다
- 새로운 환불정책에 대한 고객 평가 분석, 온라인 쇼핑몰에서 사용자의 상품평을 분석한다
소셜 네트워크 분석
- 영향력 있는 사람을 찾아 사람들 간 소셜 관계를 파악하는 것(사회관계망분석, SNA)
빅데이터가 만든 본질적인 변화(“전후양상”)
- 사전 처리에서 사후 처리
- 표본조사에서 전수조사
- 질보다 양을 강조
- 인과관계에서 상관관계
의사 결정 오류 중에 프로세스 오류
- 결정에서 분석이나 통찰력을 고려하지 않은 것
- 데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것
- 대안을 진지하게 고려하지 않은 것
빅데이터의 주요 분석기법
- 회귀분석 : 독립변수와 종속변수 관계
- 유형분석 : A와 B는 어디에 속하는 범주?
- 연관규칙 : 여러 요소들 간의 규칙 상관관계(마트에서 치킨과 맥주를 같이 사는 관계)
- 유전자 알고리즘 : 최적화 필요한 문제의 해결책(택배차량 배치, 최대 시청률 얻기)
- 기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측
- 감정분석 : 감정(긍정/부정) 분석 (후기를 바탕으로)
- 소셜 네트워크 분석 : 사람들간의 관계 (SNS 상 사용자들 관계 속 영향력 높은 사람 찾기)
분석 대상과 방법(“발솔최통”)
Known | Un-Known | |
Known | 최적화 | 통찰 |
Un-Known | 솔루션 | 발견 |
빅데이터 분석 방법론(위험 계획 수립)
- 회피, 전이, 완화, 수용 (“회전완수”)