Review

[ADsP] 데이터분석준전문가 개념 요약정리

boooluve2 2025. 2. 21. 10:41

데이터 거버넌스의 3가지 구성요소

-      원칙

-      조직

-      프로세스

 

데이터 거버넌스의 체계

-      데이터 표준화 → 데이터 관리 체계 → 데이터 저장소 관리 → 표준화 활동

 

 단순선형 회귀분석의 가정사항

-      선형성

-      독립성

-      등분산성

-      정규성

 

유의 확률

-      가설 검증을 수행할 때 귀무가설을 기각할 때 그 결정이 잘못되었을 확률을 의미하는 용어

 

시계열 분석의 정상성 가정

-      모든 시점 t에 대해 일정한 평균을 갖는다

-      모든 시점 t에 대해 일정한 분산을 갖는다

-      공분산은 시점 t에 의존하지 않고 시차 I에 의존한다

-      백색잡음은 대표적인 정상성 가정을 만족하는 시계열 자료다

 

의사결정나무

-      의사결정나무는 이상값에 민감하지 않다는 것이 큰 장점이다

-      여러 독립변수들 사이의 중요도를 판단하기 쉽지 않다

-      분류 경계선에서 높은 오차를 갖는다

-      누구나 쉽게 분석 결과를 이해할 수 있다

 

결측값 처리 방법

-      결측값이 많은 경우 단순대치법은 대량의 데이터 손실을 초래할 수 있기 때문에 권장되지 않는다

-      평균 대치법의 경우 조건부 평균 대치법과 비조건부평균 대치법으로 나눌 수 있다

-      다중 대치법은 대치 분석 결합의 순서로 구성된다

-      분류를 위한 k_nn 알고리즘을 사용해서 결측값을 대치할 수 있다

 

암묵지와 형식지의 상호작용 (“공표연내”)

-      1단계 : 암묵적 지식 노하우를 다른 사람에게 알려주는 것 – (공통화)

-      2단계 : 암묵적 지식 노하우를 책이나 교본 등 형식지로 만드는 것 – (표출화)

-      3단계 : 책이나 교본에 자신이 알고 있는 새로운 지식(형식지)를 추가하는 것 –(연결화)

-      4단계 : 만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득 – (내면화)

 

반정형 데이터

-      데이터 구조에 대한 메타 정보를 포함한 데이터, Parsing을 통해 구조를 파악하고 정보 활용 가능한 유형의 데이터

-      고정된 스키마가 없기 때문에 테이블 형식 데이터 모델이나 관계형 데이터베이스의 형식을 따르지 않음

 

데이터 웨어하우스

-      기업 내에 있는 각종 데이터를 추출하고 조합해 사업 목적에 맞는 정보 혹은 지식으로 바꾸어주는 기술

데이터 마트

-      데이터 웨어하우스에 저장된 자료 중에서 일정한 주제나 특정 부서의 자료를 별도의 장소에 중복 저장하여 사용자들이 사용하도록 하는 것

 

분석 과제에 대한 접근 방법

-      문제가 확실할때는 하향식 접근 방법을 사용한다

-      디자인 싱킹의 경우에는 상향식과 하향식을 반복적으로 사용하기 쉽다

-      문제의 정의 자체가 어려운 경우에는 상향식 접근 방식을 사용한다

-      문제의 해법을 찾기 위해 하향식 접근 방식을 사용한다

 

상향식 접근 방식

-      문제에 대한 정의가 어려운 경우에 데이터를 바탕으로 문제를 지속적으로 개선해 나가는 접근 방식

하향식 접근 방식

-      분석 과제가 정해져 있는 상태에서 과제를 체계적으로 분석하는 방법

-      문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 평가

 

디자인 싱킹

-      인간과 사물을 관찰하고 공감, 이해하고 다양한 방법을 찾는 창의적 문제 해결 방법

-      사람과 사물에 대한 공감적 관찰을 통해 문제를 재해석하고, 시각적 아이디어 도출을 통해 직접적인 고객을 포함한 이해 관계자를 이끌어내, 빠른 시일 내에 가시적인 프로토타입을 공동 제작하는 액션 전략

 

KDD와 CRISP-DM 간 유사한 프로세스 단계

-      KDD : 데이터셋 선택, 데이터 변화

-      CRISP-DM : 데이터 이해, 데이터 준비

 

정확도와 정밀도에 대한 설명

-      정확도와 정밀도는 상충관계이다

-      모델의 안정성 측면에서는 정확도가 중요하고, 분석의 활용 측면에서는 정밀도가 중요하다

-      정확도는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고, 정밀도는 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시

 

ESD

-      이상값(Outiler) 검색 기법의 하나로 평균으로부터 표준편차의 k배보다 떨어진 값들을 이상값으로 판단하는 방법

 

회귀분석에서 가장 적합한 회귀 모델을 찾기 위한 과정

-      회귀계수가 0이면 독립변수는 종속변수와 인과 관계가 없다

-      회귀계수의 t-통계량의 p-값이 0.05보다 작으면 통계적으로 유의미함(H1)을 채택한다

-      잔차의 독립성, 등분산성, 정규성을 만족하는지 확인해야 한다

 

빅데이터의 특징(3V)

-      규모(Volume)

-      다양성(Variety)

-      속도(Velocity)

 

-      가치(Value)

-      신뢰성(Veracity)

-      정확성(Validity)

-      휘발성(Volatility)

 

데이터 분석 과제 수행시 고려하는 5요소

-      Data Size

-      Data Complexity

-      Speed

-      Analytic Complexity

-      Accuracy & Precision

 

확률 분포

-      확률변수란 표본공간의 각 원소에 하나의 실숫값을 대응시켜 주는 함수이다

-      확률변수가 취할 수 있는 값이 유한하거나 또는 무한히 많더라도 하나씩 셀 수 있는 경우를 이산형 확률변수라고 한다

-      결과가 두가지 중 하나로만 나오는 실험이나 실행을 베르누이 시행이라고 한다

-      확률밀도함수는 연속형 확률변수의 확률분포를 의미한다

 

위기 요인과 통제방안

-      사생활 침해 : 제공자에서 사용자 책임으로 전환

-      책임 원칙 훼손 : 결과에 대해서만 책임

-      데이터의 오용 : 알고리즘을 해석가능한 알고리즈미스트 필요

 

감정분석

-      특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석한다

-      소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 활용한다

-      새로운 환불정책에 대한 고객 평가 분석, 온라인 쇼핑몰에서 사용자의 상품평을 분석한다

 

소셜 네트워크 분석

-      영향력 있는 사람을 찾아 사람들 간 소셜 관계를 파악하는 것(사회관계망분석, SNA)

 

빅데이터가 만든 본질적인 변화(“전후양상”)

-      사전 처리에서 사후 처리

-      표본조사에서 전수조사

-      질보다 양을 강조

-      인과관계에서 상관관계

 

의사 결정 오류 중에 프로세스 오류

-      결정에서 분석이나 통찰력을 고려하지 않은 것

-      데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것

-      대안을 진지하게 고려하지 않은 것

 

빅데이터의 주요 분석기법

-      회귀분석 : 독립변수와 종속변수 관계

-      유형분석 : A와 B는 어디에 속하는 범주?

-      연관규칙 : 여러 요소들 간의 규칙 상관관계(마트에서 치킨과 맥주를 같이 사는 관계)

-      유전자 알고리즘 : 최적화 필요한 문제의 해결책(택배차량 배치, 최대 시청률 얻기)

-      기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측

-      감정분석 : 감정(긍정/부정) 분석 (후기를 바탕으로)

-      소셜 네트워크 분석 : 사람들간의 관계 (SNS 상 사용자들 관계 속 영향력 높은 사람 찾기)

 

분석 대상과 방법(“발솔최통”)

  Known Un-Known
Known 최적화 통찰
Un-Known 솔루션 발견

 

빅데이터 분석 방법론(위험 계획 수립)

-      회피, 전이, 완화, 수용 (“회전완수”)