ADsP 1과목

포스팅하면서 듣던 곡 : https://youtu.be/9miDX4UydLo?si=YFkHodetxrNk0uLq

1. 데이터와 정보

데이터

- 데이터 : 있는 그대로의 객관적 사실, 가공되지 않은 상태(Raw)

ex) 주문수량

- 정보 : 데이터로부터 가공된 자료

ex) 베스트셀러

데이터의 유형

정성적 데이터(Qualitative Data) : 회사 매출이 증가 등, 즉 자료를 풀어서 설명하는 것.
정량적 데이터(Quantitative Data) : 나이, 몸무게 등, 즉 자료를 수치화 할 수 있는 것.

데이터 종류	설명
정형	정보 형태가 정해진 것(CSV, 관계형 DB 등)
반정형	메타데이터를 포함한 데이터(HTML, XML, JSON, RDF 등)
비정형	형태가 정해지지 않은 것.(SNS, 유튜브, 음원 등)

※ 메타데이터 : 어떠한 데이터를 설명하기 위한 데이터.

Ex) 다음 중 데이터 유형이 다른 것은?

암묵지와 형식지

암묵지 : 개인에게 습득되고 겉으로 드러나지 않는 것
형식지 : 문서, 매뉴얼 등 형상화된 지식

암묵지와 형식지의 상호작용관계

공통화 : 암묵지 지식을 다른 사람에게 알려줌
표출화 : 암묵지 지식을 다른 사람에게 알려줌
연결화 : 교재, 매뉴얼에 새로운 지식 추가
내면화 : 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득

→ "공표연내"

DIKW 피라미드

데이터(Data) : 있는 그대로의 사실 (A대리점 핸드폰 100만원, B대리점 핸드폰 200만원)
정보(Information) : Data를 통해 패턴 인식 (A대리점이 핸드폰이 싸다)
지식(Knowledge) : 패턴을 통해 예측 (A에서 핸드폰을 사면 이득을 보겠다)
지혜(Wisdom) : 창의적인 산물 (A대리점의 다른 기기들도 B대리점보다 저렴할 것이다)

※ 단순한 사실에서부터 추론까지 가는 과정이다.

2. 데이터베이스 정의와 특징

★★★데이터베이스의 특징

공용 데이터(Shared Data) : 여러 사용자가 다른 목적으로 데이터 공동 이용
통합된 데이터(Integrated Data) : 동일한 데이터 중복되어 있지 않음
저장된 데이터(Stored Data) : 저장매체에 저장
변화되는 데이터(Changable Data) : 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지

→ “공통저변”

데이터의 단위

KB< MB < GB < TB < PB < EB < ZB < YB (Peta < Exa < Zetta < Yotta)

※ KB는 2^10이며, 하나 올라갈 때마다 10승이 증가한다.

3. 데이터베이스의 활용

데이터베이스와 SQL

해당 부분은 SQLD를 공부했던 사람이면 가볍게 훑고만 지나가도 될 것 같습니다.

DDL, DML, DCL에 해당하는 키워드만 상기하는 정도 수준.

DB : 일정 구조에 맞게 조직화된 데이터의 집합
스키마 : DB의 구조와 제약조건에 관한 전반적 명세(외부스키마, 개념스키마, 내부스키마)
인스턴스 : 데이터 개체를 구성하는 속성에 대한 데이터 타입과 값
메타데이터 : 데이터를 섦영하는 데이터, 데이터 구조를 설명하고 검색하는데 활용
인덱스 : 정렬, 탐색을 위한 데이터의 이름

DBMS : DB를 관리, 접근 환경 제공하는 소프트웨어

관계형 DBMS(RDBMS) : DB를 관리하고 접근할 수 있는 환경을 제공하는 소프트웨어

관계형 DBMS : 테이블 관계로 정리되는 DBMS(MySQL, MariaDB, Oracle 등)

NoSQL DBMS : 비정형 데이터를 저장하고 처리 (MongoDB, Redis, Cassandra 등)

SQL : 데이터 베이스에 접근할 수 있는 하부언어

정의언어(DDL) : CREATE, ALTER, DROP
조작언어(DML) : SELECT, INSERT, DELETE, UPDATE
제어언어(DCL) : COMMIT, ROLLBACK, GRANT, REVOKE

Ex) 다음 중 종류가 다른 DBMS는?

해당 부분은 여기서 더 자세하게 들어가지 않습니다. 더 공부하기를 원하면 그 때 이제 SQLD로 넘어가면 되지 않을까 싶습니다.

데이터베이스 설계 절차

1. 요구조건 분석

2. 개념적 설계 : 스키마 생성

3. 논리적 설계 : ERD를 활용한 모델링

4. 물리적 설계 : 저장 구조를 설계

→ "가나마" (앞 초성)

기업 활용 데이터베이스

해당 부분은 그냥 외우면 금새 까먹습니다. 풀네임으로 연관지을 수 있도록 합시다.

OLTP : 데이터를 수시로 갱신 (거래단위), T는 트랜잭션
OLAP : 다차원 데이터를 대화식으로 분석
CRM : 고객과 관련 자료 분석, 마케팅 활용(Customer Relation)
SCM : 공급망 연결 최적화(Supply Chain)
ERP : 기업 경영 자원을 효율화(Enterprise Resource)
RTE : 최신 정보로 빠른 의사결정 지원(Real Time)
BI : 기업 보유 데이터 정리, 분석하는 리포트 중심 도구(Business Intelligence)
BA : 통계 기반 비즈니스 통찰력(Business Analytics)
Block Chain : 네트워크에 참여한 모든 사용자가 정보를 분산, 저장
KMS : 기업의 모든 지식을 포함(Knowledge Management)

빅데이터의 이해

빅데이터의 출현 배경

인터넷 확산, 스마트폰 보급
클라우딩 컴퓨팅으로 인한 경제성 확보
저장매체 가격하락
하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산

데이터 웨어하우스(Data Ware House, DW)

분산 운영되는 각각의 데이터 베이스 관리 시스템을 효율적으로 통합해 관리하는 역할

특징

주제지향성 : 분석목적 설정이 중요
데이터 통합 : 일관화 된 형식으로 저장
시계열성 : 히스토리를 가진 데이터
비휘발성 : 읽기전용 - 수시로 변하지 않음

Ex) 다음 중 데이터 웨어하우스의 특징으로 옳지 않은 것은?

구성요소

ETL(Extraction, Transform, Load)
ODS(Operational Data Store) : 다양한 DBMS에서 추출한 데이터를 임시 저장

참고 : 인사, 개발, 연구 DB에서 DW에 바로 들어가는 것이 아닌, ETL을 통해 ODS라는 곳에 임시저장했다가 데이터 웨어하우스에 저장하게 된다. 추후 데이터마트(DM)를 활용해 세분화된 분야로 활용할 수 있다.

데이터레이크(DataLake)

대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소

비정형 데이터를 저장하며 하둡과 연계하여 처리

※ 하둡 : 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 빅데이터 솔루션

HDFS : 분산형 파일 저장 시스템
MapReduce : 분산된 데이터를 병렬로 처리

★빅데이터의 3V(가트너의 정의)

Volume(규모) : 데이터 양 증가(구글 번역 서비스)
Variety(다양성) : 데이터 유형 증가
Velocity(속도) : 데이터 생성, 처리 속도 증가
그 외 5V/7V에 포함되는 요소

Value(가치) : 숨겨진 가치 발견이 중요
Veracity(신뢰성) : 고품질 데이터
Validity(정확성) : 데이터의 유효성 보장
Volatility(휘발성) : 데이터의 의미 있는 시간

ex) 다음 중 3V가 아닌 것은? or 세부 사항 중 옳지 않은 것은?

3V + Value는 외워야 합니다.

빅데이터가 만들어내는 변화

표본조사 → 전수조사
사전처리 → 사후처리
질 → 양
인과관계 → 상관관계

→ "전후양상"

빅데이터 활용을 위한 3대 요소

인력, 자원(데이터), 기술

→ "인자기"

Ex) 다음 중 빅데이터 활용 요소가 아닌 것은?

빅데이터 가치 산정이 어려운 이유

여러 가지 변수로 인해 가치 측정이 쉽지 않다.

특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음
기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출

빅데이터의 주요 분석기법

회귀분석 : 독립변수와 종속변수 관계, X가 Y에 어떤 영향을 미치는가?

※ 회귀에 관해서는 3장에서도 계속 나옵니다.

ex) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?

분류분석(=유형분석) : A와 B는 어디에 속하는 범주 (고양이와 강아지의 이미지를 구분)
연관규칙 : 여러 요소들 간의 규칙 상관관계 존재 (마트에서 치킨과 맥주를 같이 사는 관계)
★ 유전자 알고리즘 : 최적화 필요한 문제의 해결책

ex) 택배차량 어떻게 배치, 최대 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야하지?

기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 (넷플릭스 영화 추천 시스템)
감정분석 : 텍스트 데이터에서 감정(긍정/부정)을 분석
소셜 네트워크 분석 : 사람과의 관계 (SNS상 사용자들 관계 속 영향력 높은 사람 찾기)
텍스트 마이닝 : 텍스트로부터 자연어처리(NLP)를 통한 숨겨진 의미 발견 (문서요약, 키워드추출)

위기 요인과 통제방안

사생활 침해 : SNS 올린 데이터가 사생활 침해

→ 제공자에서 사용자 책임으로 전환

책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제

→ 결과에 대해서만 책임

데이터의 오용 : 분석 결과가 항상 옳은 것은 아님

→ 알고리즘을 해석가능한 알고리즈미스트 필요

※ 알고리즈미스트 : 부당하게 피해가 발생한 사람들을 구제하는 전문인력

데이터 3법

가명정보의 개념 도입(통계 작성, 연구, 공익적 기록보존 목적 하에 동의 없이 활용 가능)

개인정보보호법
정보통신망 이용 촉진 및 정보보호 등에 관한 법률(정보통신망법)
신용정보의 이용 및 보호에 관한 법률(신용정보법)

→ "개정신"

개인정보, 가명정보, 익명정보

ADP시험에서는 중요하게 나오나 ADsP에서는 중요하게 다뤄지지 않으니, 읽어보기만 한다.

개인정보 : 개인을 알아볼 수 있는 정보, 동의를 받아 활용 가능 (홍길동, 33세)
가명정보 : 가명처리를 통해 추가정보 없이 특정 불가 (홍OO, 30대 초반)
익명정보 : 더 이상 개인을 알아볼 수 없는 정보, 제한 없이 자유롭게 활용 (OOO, 30대)

개인정보 비식별화

가끔식 출제된다.

가명처리 (홍길동, 35세 → 임꺽정, 30세)
총계처리 (홍길동 170cm, 임꺽정 180cm → 평균 키 175cm)
데이터 삭제 (주민등록번호 901111-1234567 → 90년대 생, 남자)
데이터 범주화 (홍길동, 35세 → 홍길동, 30~40세)
데이터 마스킹 (홍길동, 35세 → 홍OO, 35세)

프라이버시 보호 모델

아직 시험에 나오진 않음.

k-익명성 : 같은 값이 존재하도록 하여 다른 정보로 결합할 수 없도록 함
l-다양성 : 민감한 정보의 다양성을 높여 추론 가능성을 낮춤
t-근접성 : 민감 정보의 분포를 낮추어 추론 가능성을 더욱 낮춤

데이터 산업의 발전

처리 → 분석 → 연결 → 권리

처리 : 프로그래밍 언어를 활용한 데이터의 처리
통합 : DBMS의 등장
분석 : 빅데이터 분석 기술의 발전
연결 : API를 활용한 모듈들의 연결
권리 : 마이데이터(MyData)를 활용한 데이터의 주권 행사

※ 마이데이터 : 자신의 신용 정보를 다른 제3자에게 제공하여 서비스를 제공받는 제도

전략 인사이트

읽어보자.

집중과 선택 (많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중)
업계 상황만 보지 말고 더 넓은 시야에서 봐야함
경영진의 전략적 인사이트에 기여

→ 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택

→ 사업 상황들을 확인할 때는 넓은 시야

데이터 사이언스

데이터와 관련된 모든 분야의 전문지식을 종합한 학문
정형/비정형 데이터를 막론하고 데이터를 분석 (총체적 접근법)

데이터 사이언스 핵심 구성요소

Analytics : 이론적 지식
IT : 프로그래밍적 지식
비즈니스 분석 : 비즈니스적 능력

→ “AI비”

데이터 사이언티스트의 필요역량

하드 스킬(Hard Skill) : 이론적 지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함
소프트 스킬(Soft Skill) : 스토리텔링, 리더십, 창의력 분석 등

→ 하드스킬은 이과적, 소프트 스킬은 문과적인 느낌

ex) 다음 중 다른 것은?

빅데이터 가치 패러다임 변화

Digitalization → Connection → Agency

Digitalization : 아날로그 세상을 디지털화
Connection : 디지털화된 정보들의 연결
Agency : 연결을 효과적으로 관리

도서 외 출처 : IT의 답을 터득하다, 아답터 https://youtu.be/nZ6gpnEj-KU?si=qxiya4U2x1QfskNQ

'자격증 공부 > ADsP' 카테고리의 다른 글

ADsP 3과목 (2)	2025.05.11
ADsP 2과목 (0)	2025.05.07
ADsP에 앞서 (0)	2025.05.06