데이터의 유형
- 정성적 데이터 : 문자 형태의 데이터.
- 정량적 데이터 : 정형화된 데이터로 수치, 도형 등의 형태의 데이터.
- 암묵지 : 개인에게 체화되어 겉으로 드러나지 않는 지식. (공통화, 내면화)
- 형식지 : 매뉴얼과같이 형상화된 지식. (표출화, 연결화)
DIKW 피라미드
- 데이터 : 자체로 중요하지 않은 객관적인 사실
- 정보 : 데이터 가공과 처리를 통해 의미가 도출된 것
- 지식 : 개인적인 경험을 결합해 고유의 지식으로 내재화된 것
- 지식의 축적과 아이디어가 결합된 창의적 산물
데이터베이스 특징
- 공용 데이터 : 다른 사라미 여러 목적으로 데이터를 공동으로 이용
- 통합 데이터 : 데이터의 중복이 없다
- 저장 데이터 : 컴퓨터 매체가 접근할 수 있는 저장 매체에 저장
- 변화 데이터 : 현 시점에서의 상태는 정확한 데이터를 유지한다
빅데이터
가트너의 3V : Volume(양), Variety(유형), Velocity(속도)
Value : 4V의 요소 중 비즈니스 효과에 해당
빅데이터가 만들어내는 변화
표본조사 ▶ 전수조사
사전처리 ▶ 사후처리
질 ▶ 양
인과관계 ▶ 상관관계
빅데이터 기본 테크닉
- 연관 규칙
- 군집분석
- 유전 알고리즘
- 기계학습
- 회귀분석
- 감정분석
- 소셜네트워크분석
위기 요인에 따른 통제 방안
- 사생활 침해 ▶ 동의에서 책임으로
- 책임 원칙 훼손 ▶ 결과 기반 책임 원칙 고수
- 데이터 오용 ▶ 알고리즘 접근 허용
빅데이터 활용의 3요소
- 인력, 자료(데이터), 기술
데이터 사이언스
데이터 사이언스의 의미
- 데이터 공학, 수학, 통계학, 시각화 등 해당 분야의 전문 지식을 총체적으로 종합한 학문
- 분석과정에서 인간의 해석이 개입
- 구성요소 : Analytics, IT, 비즈니스
- 요규 역량
- Hard Skill : 빅데이터 이론적 지식, 분석 기술에 대한 숙련 등
- Soft Skill : 통찰력, 커뮤니케이션, 협력 등
- 패러다임의 변화
- Digitalization : 과거
- Connection : 현재
- Agency : 미래
분석 대상과 방법
| 분석 주제 유형 | 분석 대상(What) | ||
| Known | Un-Known | ||
| 분석 방법(How) | Known | Optimization (최적화) |
Insight (통찰력) |
| Un-Known | Solution (솔루션) |
Discovery (발견) |
|
분석 기획 방안
| 과제 단위 | 마스터 플랜 단위 |
| Speed & Test | Accuracy & Deploy |
| Quick Win | Long Term View |
| Problem Solving | Problem Definition |
분석 기획 시 고려사항
- 분석의 기본인 가용 데이터에 대한 고려가 필요
- 절절한 활용방안과 유스케이스 탐색이 필요
- 장애요소들에 대한 사전계획 필요
합리적 의사결정을 막는 장애요소
- 고정 관념, 편향, 프레이밍 효과
KDD 분석 방법론
- 데이터셋 선택
- 데이터 전처리
- 데이터 변환
- 데이터 마이닝
- 결과 평가
CRISP - DM 분석 방법론
- 업무 이해
- 데이터 이해
- 데이터 준비
- 모델링
- 평가
- 전개
빅데이터 분석 계층적 프로세스
- 단계
- 테스크
- 스텝
빅데이터 분석 방법론 5단계
- Planning(분석 기획)
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험계획 수립
- Preparing(데이터 준비)
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 정검
- Analyzing(데이터 분석)
- 분석용 데이터 준비
- 텍스트 분석
- 모델링
- 모델 평가 및 검증
- 모델 적용 및 운영방안 수립
- Developing(시스템 구현)
- 설계 및 구현
- 시스템 테스트 및 운영
- Deploying(평가 및 전개)
- 모델 발전계획 수립
- 프로젝트 평가 및 보고
하향식 접근 방법
- 분석 과제가 주어지고 해법을 찾기 위한 방식
상향식 접근 방법
- 문제 정의 자체가 어려운 경우 지속적으로 개선하는 방식
