[2과목]
01 데이터 분석 기획
1. 분석 기획의 정의
- 분석 기획이란 실제 분석을 수행하기 전, 분석을 수행할 과제의 정의 및 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업을 의미
- 어떠한 목표(What)를 달성하기 위하여 어떠한 데이터를 가지고 어떠한 방식(How)으로 수행할지에 대한 일련의 계획을 수립하는 중요한 사전작업이다.
2. 분석 기획의 특징
- 데이터 사이언티스트의 요구 역량인 수학/통계학적 지식, 분석 도구인 데이터 및 프로그래밍 기술, 해당 비즈니스에 대한 이해와 전문성에 대한 고른 역량과 시각 등이 요구된다.
3. 분석 대상과 방법에 따른 4가지 분석 주제
- 해결해야 할 문제, 분석 대상이 무엇인지 알고 분석 방법도 알고 있다면 '최적화'
- 분석 대상이 무엇인지 알고 있지만 방법을 모른다면 '솔루션'
- 분석 대상이 무엇인지 모르지만 분석 방법은 알고 있다면 '통찰력'
- 분석 대상이 무엇인지 모르고 분석 방법도 모른다면, 분석 대상 자체를 새롭게 도출하는 '발견'
- 분석 기획시 고려해야 하는 사항 3가지
- 가용 데이터 고려
- 분석의 기본이 되는 데이터가 확보될 수 있는지에 대한 고려가 필요
- 분석을 위한 데이터 확보가 우선이며 데이터 유형에 따라 분석 방법이 다르기 때문에 데이터 유형에 대한 분석이 선행적으로 이루어져야 함
- 적절한 활용방안과 유스케이스의 탐색
- "바퀴를 재발명하지 마라"는 격언처럼 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요
- 장애요소에 대한 사전 계획 수립
- 분석을 수행할 때 발생 가능한 장애요소에 대한 사전 계획 수립 필요
- 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 함
02 분석 방법론
- 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물 총 4가지로 구성되어 있다.
- 기업의 합리적인 의사결정을 가로막는 3가지 요소
- 고정관념
- 편향된 생각
- 프레이밍 효과 : 동일한 사건이나 상황을 두고 개인의 판단이나 선택이 달라질 수 있는 현상
- 분석 방법론이 적용되는 업무 특성에 따른 모델
- 폭포수 모델
- 단계를 거쳐 순차적으로 진행되는 방법
- 이전 단계가 완료되어야 다음 단계로 진행 가능한 하향식 방향
- 문제 및 개선 사항이 발견될 경우 바로 이전 단계로 돌아가 피드백 과정을 수행할 수 있다.
- 프로토타입 모델
- 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해 나가는 접근 방식
- 고객의 요구를 완전히 이해하지 못하는 경우 프로토타입 모델 적용
- 일부분을 먼저 개발하여 사용자에게 제공하고 이후 사용자의 요구를 분석, 정당성 점검, 성능을 평가하여 결과를 통해 개선 작업 시행
- 나선형 모델
- 반복을 통해 점진적으로 개발하는 방법
- 프로토타입 모델과 유사하지만 사용자의 요구보다 위험요소를 사전에 제거한다는 것에 초점을 맞춤
- 처음 시도하는 프로젝트에는 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못하면 복잡도가 상승
- 계층적 프로세스 모델
- 일반적으로 분석 방법론은 계층적 프로세스 모델의 형태로 구성
- 최상의 계층인 몇 개의 단계로 구성되어 있고 하나의 단계는 여러 개의 태스크로 구성되고 하나의 태스크는 여러 개의 스텝으로 구성되어 있음 (보통 5단계 사용)
- 스텝은 WBS(Work Breakdown Structure)의 워크패키지에 해당되며 '입력 자료, 처리 및 도구, 출력'으로 구성된 단위 프로세스이다.
- 빅데이터 분석 방법론 5단계 플로우
분석기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개
- 분석 기획
- 비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행 계획을 수립하는 단계
- 태스크 : 프로젝트 위험계획 수립
- 비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행 계획을 수립하는 단계
- 데이터 준비
- 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계
- 데이터 수집 및 정합성 체크
- 데이터 분석
- 원천 데이터를 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계
- 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 두 단계를 반복하여 진행
- 모델링 및 모델 평가
- 태스크 : 분석용 데이터 준비
- 태스크 : 모델링
- 데이터 분할 → 데이터 모델링 → 모델 적용 및 운영 방안(알고리즘 설명서)
- 태스크 : 모델 평가 및 검증
- 모델평가、 모델 검증
- 시스템 구현
- 설계 및 구현
- 분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용
- 시스템 개발을 위한 사전 검증으로 프로토타입 시스템 구현
- 태스크 : 설계 및 구현
- 태스크 : 시스템 테스트 및 운영
- 평가 및 전개
- 데이터 분석 및 시스템 구현 단계를 수행한 후, 프로젝트 성과를 평가하고 정리하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달하고 프로젝트를 종료하는 단계
- 프로젝트 평가 및 보고
- 태스크 : 모델 발전 계획 수립
- 태스크 : 프로젝트 평가 및 보고
03 분석 과제 발굴
분석 대상을 알고 있다면 하향식, 모른다면 상향식이 좋음
- 하향식 접근법
- 문제 탐색 → 문제 정의 → 해결 방안 탐색 → 타당성 평가
- 상향식 접근법
- 비지도학습, 프로토타이핑 접근법
04 분석 프로젝트 관리
- 분석 과제의 5가지 주요 속성
- 데이터의 양
- 데이터의 양을 고려한 관리 방안 수립 필요함
- 하둡 환경에서의 엄청난 데이터 양을 기반으로 분석하는 것과 기존의 정형 데이터베이스에 있는 시간당 생성되는 데이터를 분석할 때의 관리 방식은 차이가 큼
- 데이터 복잡도
- 정형화된 데이터를 확보할 수 있다면 이상적이지만 현실에서는 확보가 쉽지 않음
- 텍스트, 오디오, 비디오 등 다양한 비정형 데이터를 분석할 때 초기 데이터의 확보와 통합뿐 아니라 해당 데이터에 잘 적용될 수 있는 모델을 고려할 필요가 있음
- 분석의 속도
- 분석결과를 활용하는 시나리오 측면에서의 속도를 고려해야 함
- 도난카드 사용과 같은 실시간으로 수행되어야 하는 경우 분석의 결과를 실시간으로 전달할 수 있어야 함
- 분석 복잡도
- 분석 모델의 정확도와 복잡도는 트레이드 오프 관계가 존재함
- 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 기준점을 사전에 정의해 두어야함
- 모델의 정확도가 높으면서 해석이 편리한 최적의 모델을 탐색해야 함
- 정확도 & 정밀도
- 정확도는 모델과 실제 값 간의 차이가 적다는 정확도를 의미하고, 정밀도는 반복적으로 모델을 사용했을 때 모델 값들의 편차 수준을 나타냄
- 분석의 활용적인 측면에서는 정확도가 중요하며, 안정성 측면에서는 정밀도가 중요함
'adsp' 카테고리의 다른 글
[250217] ADsP 준비 5 (0) | 2025.02.17 |
---|---|
[250212] ADsP 준비 (4) (0) | 2025.02.13 |
[250207] ADsP 준비 (2) (1) | 2025.02.07 |
[250205] ADsP 준비(1) (0) | 2025.02.05 |