포스팅하면서 듣던 곡 : https://youtu.be/9miDX4UydLo?si=YFkHodetxrNk0uLq
1. 데이터와 정보
데이터
- 데이터 : 있는 그대로의 객관적 사실, 가공되지 않은 상태(Raw)
ex) 주문수량
- 정보 : 데이터로부터 가공된 자료
ex) 베스트셀러
데이터의 유형
- 정성적 데이터(Qualitative Data) : 회사 매출이 증가 등, 즉 자료를 풀어서 설명하는 것.
- 정량적 데이터(Quantitative Data) : 나이, 몸무게 등, 즉 자료를 수치화 할 수 있는 것.
데이터 종류 | 설명 |
정형 | 정보 형태가 정해진 것(CSV, 관계형 DB 등) |
반정형 | 메타데이터를 포함한 데이터(HTML, XML, JSON, RDF 등) |
비정형 | 형태가 정해지지 않은 것.(SNS, 유튜브, 음원 등) |
※ 메타데이터 : 어떠한 데이터를 설명하기 위한 데이터.
Ex) 다음 중 데이터 유형이 다른 것은?
암묵지와 형식지
- 암묵지 : 개인에게 습득되고 겉으로 드러나지 않는 것
- 형식지 : 문서, 매뉴얼 등 형상화된 지식
암묵지와 형식지의 상호작용관계
- 공통화 : 암묵지 지식을 다른 사람에게 알려줌
- 표출화 : 암묵지 지식을 다른 사람에게 알려줌
- 연결화 : 교재, 매뉴얼에 새로운 지식 추가
- 내면화 : 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득
→ "공표연내"
DIKW 피라미드
- 데이터(Data) : 있는 그대로의 사실 (A대리점 핸드폰 100만원, B대리점 핸드폰 200만원)
- 정보(Information) : Data를 통해 패턴 인식 (A대리점이 핸드폰이 싸다)
- 지식(Knowledge) : 패턴을 통해 예측 (A에서 핸드폰을 사면 이득을 보겠다)
- 지혜(Wisdom) : 창의적인 산물 (A대리점의 다른 기기들도 B대리점보다 저렴할 것이다)
※ 단순한 사실에서부터 추론까지 가는 과정이다.
2. 데이터베이스 정의와 특징
★★★데이터베이스의 특징
- 공용 데이터(Shared Data) : 여러 사용자가 다른 목적으로 데이터 공동 이용
- 통합된 데이터(Integrated Data) : 동일한 데이터 중복되어 있지 않음
- 저장된 데이터(Stored Data) : 저장매체에 저장
- 변화되는 데이터(Changable Data) : 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지
→ “공통저변”
데이터의 단위
KB< MB < GB < TB < PB < EB < ZB < YB (Peta < Exa < Zetta < Yotta)
※ KB는 2^10이며, 하나 올라갈 때마다 10승이 증가한다.
3. 데이터베이스의 활용
데이터베이스와 SQL
해당 부분은 SQLD를 공부했던 사람이면 가볍게 훑고만 지나가도 될 것 같습니다.
DDL, DML, DCL에 해당하는 키워드만 상기하는 정도 수준.
- DB : 일정 구조에 맞게 조직화된 데이터의 집합
- 스키마 : DB의 구조와 제약조건에 관한 전반적 명세(외부스키마, 개념스키마, 내부스키마)
- 인스턴스 : 데이터 개체를 구성하는 속성에 대한 데이터 타입과 값
- 메타데이터 : 데이터를 섦영하는 데이터, 데이터 구조를 설명하고 검색하는데 활용
- 인덱스 : 정렬, 탐색을 위한 데이터의 이름
DBMS : DB를 관리, 접근 환경 제공하는 소프트웨어
관계형 DBMS(RDBMS) : DB를 관리하고 접근할 수 있는 환경을 제공하는 소프트웨어
관계형 DBMS : 테이블 관계로 정리되는 DBMS(MySQL, MariaDB, Oracle 등)
NoSQL DBMS : 비정형 데이터를 저장하고 처리 (MongoDB, Redis, Cassandra 등)
SQL : 데이터 베이스에 접근할 수 있는 하부언어
- 정의언어(DDL) : CREATE, ALTER, DROP
- 조작언어(DML) : SELECT, INSERT, DELETE, UPDATE
- 제어언어(DCL) : COMMIT, ROLLBACK, GRANT, REVOKE
Ex) 다음 중 종류가 다른 DBMS는?
해당 부분은 여기서 더 자세하게 들어가지 않습니다. 더 공부하기를 원하면 그 때 이제 SQLD로 넘어가면 되지 않을까 싶습니다.
데이터베이스 설계 절차
1. 요구조건 분석
2. 개념적 설계 : 스키마 생성
3. 논리적 설계 : ERD를 활용한 모델링
4. 물리적 설계 : 저장 구조를 설계
→ "가나마" (앞 초성)
기업 활용 데이터베이스
해당 부분은 그냥 외우면 금새 까먹습니다. 풀네임으로 연관지을 수 있도록 합시다.
- OLTP : 데이터를 수시로 갱신 (거래단위), T는 트랜잭션
- OLAP : 다차원 데이터를 대화식으로 분석
- CRM : 고객과 관련 자료 분석, 마케팅 활용(Customer Relation)
- SCM : 공급망 연결 최적화(Supply Chain)
- ERP : 기업 경영 자원을 효율화(Enterprise Resource)
- RTE : 최신 정보로 빠른 의사결정 지원(Real Time)
- BI : 기업 보유 데이터 정리, 분석하는 리포트 중심 도구(Business Intelligence)
- BA : 통계 기반 비즈니스 통찰력(Business Analytics)
- Block Chain : 네트워크에 참여한 모든 사용자가 정보를 분산, 저장
- KMS : 기업의 모든 지식을 포함(Knowledge Management)
빅데이터의 이해
빅데이터의 출현 배경
- 인터넷 확산, 스마트폰 보급
- 클라우딩 컴퓨팅으로 인한 경제성 확보
- 저장매체 가격하락
- 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산
데이터 웨어하우스(Data Ware House, DW)
분산 운영되는 각각의 데이터 베이스 관리 시스템을 효율적으로 통합해 관리하는 역할
특징
- 주제지향성 : 분석목적 설정이 중요
- 데이터 통합 : 일관화 된 형식으로 저장
- 시계열성 : 히스토리를 가진 데이터
- 비휘발성 : 읽기전용 - 수시로 변하지 않음
Ex) 다음 중 데이터 웨어하우스의 특징으로 옳지 않은 것은?
구성요소
- ETL(Extraction, Transform, Load)
- ODS(Operational Data Store) : 다양한 DBMS에서 추출한 데이터를 임시 저장
참고 : 인사, 개발, 연구 DB에서 DW에 바로 들어가는 것이 아닌, ETL을 통해 ODS라는 곳에 임시저장했다가 데이터 웨어하우스에 저장하게 된다. 추후 데이터마트(DM)를 활용해 세분화된 분야로 활용할 수 있다.
데이터레이크(DataLake)
대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소
- 비정형 데이터를 저장하며 하둡과 연계하여 처리
※ 하둡 : 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 빅데이터 솔루션
- HDFS : 분산형 파일 저장 시스템
- MapReduce : 분산된 데이터를 병렬로 처리
★빅데이터의 3V(가트너의 정의)
- Volume(규모) : 데이터 양 증가(구글 번역 서비스)
- Variety(다양성) : 데이터 유형 증가
- Velocity(속도) : 데이터 생성, 처리 속도 증가
- 그 외 5V/7V에 포함되는 요소
- Value(가치) : 숨겨진 가치 발견이 중요
- Veracity(신뢰성) : 고품질 데이터
- Validity(정확성) : 데이터의 유효성 보장
- Volatility(휘발성) : 데이터의 의미 있는 시간
ex) 다음 중 3V가 아닌 것은? or 세부 사항 중 옳지 않은 것은?
3V + Value는 외워야 합니다.
빅데이터가 만들어내는 변화
- 표본조사 → 전수조사
- 사전처리 → 사후처리
- 질 → 양
- 인과관계 → 상관관계
→ "전후양상"
빅데이터 활용을 위한 3대 요소
인력, 자원(데이터), 기술
→ "인자기"
Ex) 다음 중 빅데이터 활용 요소가 아닌 것은?
빅데이터 가치 산정이 어려운 이유
여러 가지 변수로 인해 가치 측정이 쉽지 않다.
- 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음
- 기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출
빅데이터의 주요 분석기법
- 회귀분석 : 독립변수와 종속변수 관계, X가 Y에 어떤 영향을 미치는가?
※ 회귀에 관해서는 3장에서도 계속 나옵니다.
ex) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
- 분류분석(=유형분석) : A와 B는 어디에 속하는 범주 (고양이와 강아지의 이미지를 구분)
- 연관규칙 : 여러 요소들 간의 규칙 상관관계 존재 (마트에서 치킨과 맥주를 같이 사는 관계)
- ★ 유전자 알고리즘 : 최적화 필요한 문제의 해결책
ex) 택배차량 어떻게 배치, 최대 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야하지?
- 기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 (넷플릭스 영화 추천 시스템)
- 감정분석 : 텍스트 데이터에서 감정(긍정/부정)을 분석
- 소셜 네트워크 분석 : 사람과의 관계 (SNS상 사용자들 관계 속 영향력 높은 사람 찾기)
- 텍스트 마이닝 : 텍스트로부터 자연어처리(NLP)를 통한 숨겨진 의미 발견 (문서요약, 키워드추출)
위기 요인과 통제방안
- 사생활 침해 : SNS 올린 데이터가 사생활 침해
→ 제공자에서 사용자 책임으로 전환
- 책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제
→ 결과에 대해서만 책임
- 데이터의 오용 : 분석 결과가 항상 옳은 것은 아님
→ 알고리즘을 해석가능한 알고리즈미스트 필요
※ 알고리즈미스트 : 부당하게 피해가 발생한 사람들을 구제하는 전문인력
데이터 3법
- 가명정보의 개념 도입(통계 작성, 연구, 공익적 기록보존 목적 하에 동의 없이 활용 가능)
- 개인정보보호법
- 정보통신망 이용 촉진 및 정보보호 등에 관한 법률(정보통신망법)
- 신용정보의 이용 및 보호에 관한 법률(신용정보법)
→ "개정신"
개인정보, 가명정보, 익명정보
ADP시험에서는 중요하게 나오나 ADsP에서는 중요하게 다뤄지지 않으니, 읽어보기만 한다.
- 개인정보 : 개인을 알아볼 수 있는 정보, 동의를 받아 활용 가능 (홍길동, 33세)
- 가명정보 : 가명처리를 통해 추가정보 없이 특정 불가 (홍OO, 30대 초반)
- 익명정보 : 더 이상 개인을 알아볼 수 없는 정보, 제한 없이 자유롭게 활용 (OOO, 30대)
개인정보 비식별화
가끔식 출제된다.
- 가명처리 (홍길동, 35세 → 임꺽정, 30세)
- 총계처리 (홍길동 170cm, 임꺽정 180cm → 평균 키 175cm)
- 데이터 삭제 (주민등록번호 901111-1234567 → 90년대 생, 남자)
- 데이터 범주화 (홍길동, 35세 → 홍길동, 30~40세)
- 데이터 마스킹 (홍길동, 35세 → 홍OO, 35세)
프라이버시 보호 모델
아직 시험에 나오진 않음.
- k-익명성 : 같은 값이 존재하도록 하여 다른 정보로 결합할 수 없도록 함
- l-다양성 : 민감한 정보의 다양성을 높여 추론 가능성을 낮춤
- t-근접성 : 민감 정보의 분포를 낮추어 추론 가능성을 더욱 낮춤
데이터 산업의 발전
- 처리 → 분석 → 연결 → 권리
- 처리 : 프로그래밍 언어를 활용한 데이터의 처리
- 통합 : DBMS의 등장
- 분석 : 빅데이터 분석 기술의 발전
- 연결 : API를 활용한 모듈들의 연결
- 권리 : 마이데이터(MyData)를 활용한 데이터의 주권 행사
※ 마이데이터 : 자신의 신용 정보를 다른 제3자에게 제공하여 서비스를 제공받는 제도
전략 인사이트
읽어보자.
- 집중과 선택 (많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중)
- 업계 상황만 보지 말고 더 넓은 시야에서 봐야함
- 경영진의 전략적 인사이트에 기여
→ 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택
→ 사업 상황들을 확인할 때는 넓은 시야
데이터 사이언스
- 데이터와 관련된 모든 분야의 전문지식을 종합한 학문
- 정형/비정형 데이터를 막론하고 데이터를 분석 (총체적 접근법)
데이터 사이언스 핵심 구성요소
- Analytics : 이론적 지식
- IT : 프로그래밍적 지식
- 비즈니스 분석 : 비즈니스적 능력
→ “AI비”
데이터 사이언티스트의 필요역량
- 하드 스킬(Hard Skill) : 이론적 지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함
- 소프트 스킬(Soft Skill) : 스토리텔링, 리더십, 창의력 분석 등
→ 하드스킬은 이과적, 소프트 스킬은 문과적인 느낌
ex) 다음 중 다른 것은?
빅데이터 가치 패러다임 변화
- Digitalization → Connection → Agency
- Digitalization : 아날로그 세상을 디지털화
- Connection : 디지털화된 정보들의 연결
- Agency : 연결을 효과적으로 관리
도서 외 출처 : IT의 답을 터득하다, 아답터 https://youtu.be/nZ6gpnEj-KU?si=qxiya4U2x1QfskNQ