ADsP 1과목

포스팅하면서 듣던 곡 : https://youtu.be/9miDX4UydLo?si=YFkHodetxrNk0uLq

1. 데이터와 정보

데이터

- 데이터 : 있는 그대로의 객관적 사실, 가공되지 않은 상태(Raw)

ex) 주문수량

- 정보 : 데이터로부터 가공된 자료

ex) 베스트셀러

 

데이터의 유형

  • 정성적 데이터(Qualitative Data) : 회사 매출이 증가 등, 즉 자료를 풀어서 설명하는 것.
  • 정량적 데이터(Quantitative Data) : 나이, 몸무게 등, 즉 자료를 수치화 할 수 있는 것.
데이터 종류 설명
정형 정보 형태가 정해진 것(CSV, 관계형 DB 등)
반정형 메타데이터를 포함한 데이터(HTML, XML, JSON, RDF 등)
비정형 형태가 정해지지 않은 것.(SNS, 유튜브, 음원 등)

메타데이터 : 어떠한 데이터를 설명하기 위한 데이터.

Ex) 다음 중 데이터 유형이 다른 것은?

 

암묵지와 형식지

  • 암묵지 : 개인에게 습득되고 겉으로 드러나지 않는 것
  • 형식지 : 문서, 매뉴얼 등 형상화된 지식
암묵지와 형식지의 상호작용관계
  1. 공통화 : 암묵지 지식을 다른 사람에게 알려줌
  2. 표출화 : 암묵지 지식을 다른 사람에게 알려줌
  3. 연결화 : 교재, 매뉴얼에 새로운 지식 추가
  4. 내면화 : 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득

→ "공표연내" 

 

DIKW 피라미드

  1. 데이터(Data) : 있는 그대로의 사실 (A대리점 핸드폰 100만원, B대리점 핸드폰 200만원)
  2. 정보(Information) : Data를 통해 패턴 인식 (A대리점이 핸드폰이 싸다)
  3. 지식(Knowledge) : 패턴을 통해 예측 (A에서 핸드폰을 사면 이득을 보겠다)
  4. 지혜(Wisdom) : 창의적인 산물 (A대리점의 다른 기기들도 B대리점보다 저렴할 것이다)

※ 단순한 사실에서부터 추론까지 가는 과정이다.


2. 데이터베이스 정의와 특징

★★★데이터베이스의 특징

  1. 공용 데이터(Shared Data) : 여러 사용자가 다른 목적으로 데이터 공동 이용
  2. 통합된 데이터(Integrated Data) : 동일한 데이터 중복되어 있지 않음
  3. 저장된 데이터(Stored Data) : 저장매체에 저장
  4. 변화되는 데이터(Changable Data) : 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지

→ “공통저변

 

데이터의 단위

KB< MB < GB < TB < PB < EB < ZB < YB (Peta < Exa < Zetta < Yotta)

※ KB는 2^10이며, 하나 올라갈 때마다 10승이 증가한다.


3. 데이터베이스의 활용

데이터베이스와 SQL

해당 부분은 SQLD를 공부했던 사람이면 가볍게 훑고만 지나가도 될 것 같습니다.

DDL, DML, DCL에 해당하는 키워드만 상기하는 정도 수준.

 

  • DB : 일정 구조에 맞게 조직화된 데이터의 집합
  • 스키마 : DB의 구조와 제약조건에 관한 전반적 명세(외부스키마, 개념스키마, 내부스키마)
  • 인스턴스 : 데이터 개체를 구성하는 속성에 대한 데이터 타입과 값
  • 메타데이터 : 데이터를 섦영하는 데이터, 데이터 구조를 설명하고 검색하는데 활용
  • 인덱스 : 정렬, 탐색을 위한 데이터의 이름

DBMS : DB를 관리, 접근 환경 제공하는 소프트웨어

관계형 DBMS(RDBMS) : DB를 관리하고 접근할 수 있는 환경을 제공하는 소프트웨어

관계형 DBMS : 테이블 관계로 정리되는 DBMS(MySQL, MariaDB, Oracle 등)

NoSQL DBMS : 비정형 데이터를 저장하고 처리 (MongoDB, Redis, Cassandra 등)

 

SQL : 데이터 베이스에 접근할 수 있는 하부언어

  1. 정의언어(DDL) : CREATE, ALTER, DROP
  2. 조작언어(DML) : SELECT, INSERT, DELETE, UPDATE
  3. 제어언어(DCL) : COMMIT, ROLLBACK, GRANT, REVOKE

Ex) 다음 중 종류가 다른 DBMS는?

 

해당 부분은 여기서 더 자세하게 들어가지 않습니다. 더 공부하기를 원하면 그 때 이제 SQLD로 넘어가면 되지 않을까 싶습니다.

 

데이터베이스 설계 절차

1. 요구조건 분석

2. 개념적 설계 : 스키마 생성

3. 논리적 설계 : ERD를 활용한 모델링

4. 물리적 설계 : 저장 구조를 설계

→ "가나마" (앞 초성)

 

기업 활용 데이터베이스

해당 부분은 그냥 외우면 금새 까먹습니다. 풀네임으로 연관지을 수 있도록 합시다.

  • OLTP : 데이터를 수시로 갱신 (거래단위), T는 트랜잭션
  • OLAP : 다차원 데이터를 대화식으로 분석
  • CRM : 고객과 관련 자료 분석, 마케팅 활용(Customer Relation)
  • SCM : 공급망 연결 최적화(Supply Chain)
  • ERP : 기업 경영 자원을 효율화(Enterprise Resource)
  • RTE : 최신 정보로 빠른 의사결정 지원(Real Time)
  • BI : 기업 보유 데이터 정리, 분석하는 리포트 중심 도구(Business Intelligence)
  • BA : 통계 기반 비즈니스 통찰력(Business Analytics)
  • Block Chain : 네트워크에 참여한 모든 사용자가 정보를 분산, 저장
  • KMS : 기업의 모든 지식을 포함(Knowledge Management)

빅데이터의 이해

빅데이터의 출현 배경

  • 인터넷 확산, 스마트폰 보급
  • 클라우딩 컴퓨팅으로 인한 경제성 확보
  • 저장매체 가격하락
  • 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산

데이터 웨어하우스(Data Ware House, DW)

분산 운영되는 각각의 데이터 베이스 관리 시스템을 효율적으로 통합해 관리하는 역할

특징

  • 주제지향성 : 분석목적 설정이 중요
  • 데이터 통합 : 일관화 된 형식으로 저장
  • 시계열성 : 히스토리를 가진 데이터
  • 비휘발성 : 읽기전용 - 수시로 변하지 않음

Ex) 다음 중 데이터 웨어하우스의 특징으로 옳지 않은 것은?

 

구성요소

  • ETL(Extraction, Transform, Load)
  • ODS(Operational Data Store) : 다양한 DBMS에서 추출한 데이터를 임시 저장

참고 : 인사, 개발, 연구 DB에서 DW에 바로 들어가는 것이 아닌, ETL을 통해 ODS라는 곳에 임시저장했다가 데이터 웨어하우스에 저장하게 된다. 추후 데이터마트(DM)를 활용해 세분화된 분야로 활용할 수 있다.

 

데이터레이크(DataLake)

대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소

  • 비정형 데이터를 저장하며 하둡과 연계하여 처리

※ 하둡 : 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 빅데이터 솔루션

  • HDFS : 분산형 파일 저장 시스템
  • MapReduce : 분산된 데이터를 병렬로 처리

 

★빅데이터의 3V(가트너의 정의)

  1. Volume(규모) : 데이터 양 증가(구글 번역 서비스)
  2. Variety(다양성) : 데이터 유형 증가
  3. Velocity(속도) : 데이터 생성, 처리 속도 증가
  4. 그 외 5V/7V에 포함되는 요소
  • Value(가치) : 숨겨진 가치 발견이 중요
  • Veracity(신뢰성) : 고품질 데이터
  • Validity(정확성) : 데이터의 유효성 보장
  • Volatility(휘발성) : 데이터의 의미 있는 시간

ex) 다음 중 3V가 아닌 것은? or 세부 사항 중 옳지 않은 것은?

 

3V + Value는 외워야 합니다.

 

빅데이터가 만들어내는 변화

  1. 표본조사 → 전수조사
  2. 사전처리 → 사후처리
  3. 질 → 양
  4. 인과관계 → 상관관계

→ "전후양상"

 

빅데이터 활용을 위한 3대 요소

인력, 자원(데이터), 기술

→ "인자기"

Ex) 다음 중 빅데이터 활용 요소가 아닌 것은?

 

빅데이터 가치 산정이 어려운 이유

여러 가지 변수로 인해 가치 측정이 쉽지 않다.

  1. 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음
  2. 기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출

 

빅데이터의 주요 분석기법

  • 회귀분석 : 독립변수종속변수 관계, X가 Y에 어떤 영향을 미치는가?

※ 회귀에 관해서는 3장에서도 계속 나옵니다.

ex) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?

  • 분류분석(=유형분석) : A와 B는 어디에 속하는 범주 (고양이와 강아지의 이미지를 구분)
  • 연관규칙 : 여러 요소들 간의 규칙 상관관계 존재 (마트에서 치킨과 맥주를 같이 사는 관계)
  • ★ 유전자 알고리즘 : 최적화 필요한 문제의 해결책

ex) 택배차량 어떻게 배치, 최대 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야하지?

  • 기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 (넷플릭스 영화 추천 시스템)
  • 감정분석 : 텍스트 데이터에서 감정(긍정/부정)을 분석
  • 소셜 네트워크 분석 : 사람과의 관계 (SNS상 사용자들 관계 속 영향력 높은 사람 찾기)
  • 텍스트 마이닝 : 텍스트로부터 자연어처리(NLP)를 통한 숨겨진 의미 발견 (문서요약, 키워드추출)

위기 요인과 통제방안

  1. 사생활 침해 : SNS 올린 데이터가 사생활 침해

→ 제공자에서 사용자 책임으로 전환

  1. 책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제

→ 결과에 대해서만 책임

  1. 데이터의 오용 : 분석 결과가 항상 옳은 것은 아님

→ 알고리즘을 해석가능한 알고리즈미스트 필요

※ 알고리즈미스트 : 부당하게 피해가 발생한 사람들을 구제하는 전문인력

 

 

데이터 3법

  • 가명정보의 개념 도입(통계 작성, 연구, 공익적 기록보존 목적 하에 동의 없이 활용 가능)
  1. 개인정보보호법
  2. 정보통신망 이용 촉진 및 정보보호 등에 관한 법률(정보통신망법)
  3. 신용정보의 이용 및 보호에 관한 법률(신용정보법)

→ "개정신"

개인정보, 가명정보, 익명정보

ADP시험에서는 중요하게 나오나 ADsP에서는 중요하게 다뤄지지 않으니, 읽어보기만 한다.

  1. 개인정보 : 개인을 알아볼 수 있는 정보, 동의를 받아 활용 가능 (홍길동, 33세)
  2. 가명정보 : 가명처리를 통해 추가정보 없이 특정 불가 (홍OO, 30대 초반)
  3. 익명정보 : 더 이상 개인을 알아볼 수 없는 정보, 제한 없이 자유롭게 활용 (OOO, 30대)

개인정보 비식별화

가끔식 출제된다.

  1. 가명처리 (홍길동, 35세 → 임꺽정, 30세)
  2. 총계처리 (홍길동 170cm, 임꺽정 180cm → 평균 키 175cm)
  3. 데이터 삭제 (주민등록번호 901111-1234567 → 90년대 생, 남자)
  4. 데이터 범주화 (홍길동, 35세 → 홍길동, 30~40세)
  5. 데이터 마스킹 (홍길동, 35세 → 홍OO, 35세)

프라이버시 보호 모델

아직 시험에 나오진 않음.

  1. k-익명성 : 같은 값이 존재하도록 하여 다른 정보로 결합할 수 없도록 함
  2. l-다양성 : 민감한 정보의 다양성을 높여 추론 가능성을 낮춤
  3. t-근접성 : 민감 정보의 분포를 낮추어 추론 가능성을 더욱 낮춤

데이터 산업의 발전

  • 처리 → 분석 → 연결 → 권리
  1. 처리 : 프로그래밍 언어를 활용한 데이터의 처리
  2. 통합 : DBMS의 등장
  3. 분석 : 빅데이터 분석 기술의 발전
  4. 연결 : API를 활용한 모듈들의 연결
  5. 권리 : 마이데이터(MyData)를 활용한 데이터의 주권 행사

※ 마이데이터 : 자신의 신용 정보를 다른 제3자에게 제공하여 서비스를 제공받는 제도

전략 인사이트

읽어보자.

  • 집중과 선택 (많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중)
  • 업계 상황만 보지 말고 더 넓은 시야에서 봐야함
  • 경영진의 전략적 인사이트에 기여

→ 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택

→ 사업 상황들을 확인할 때는 넓은 시야

데이터 사이언스

  • 데이터와 관련된 모든 분야의 전문지식을 종합한 학문
  • 정형/비정형 데이터를 막론하고 데이터를 분석 (총체적 접근법)

데이터 사이언스 핵심 구성요소

  1. Analytics : 이론적 지식
  2. IT : 프로그래밍적 지식
  3. 비즈니스 분석 : 비즈니스적 능력

→ “AI비”

데이터 사이언티스트의 필요역량

  1. 하드 스킬(Hard Skill) : 이론적 지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함
  2. 소프트 스킬(Soft Skill) : 스토리텔링, 리더십, 창의력 분석 등

하드스킬은 이과적, 소프트 스킬은 문과적인 느낌

ex) 다음 중 다른 것은?

빅데이터 가치 패러다임 변화

  • Digitalization → Connection → Agency
  1. Digitalization : 아날로그 세상을 디지털화
  2. Connection : 디지털화된 정보들의 연결
  3. Agency : 연결을 효과적으로 관리

 

 


도서 외 출처 : IT의 답을 터득하다, 아답터 https://youtu.be/nZ6gpnEj-KU?si=qxiya4U2x1QfskNQ

'자격증 공부 > ADsP' 카테고리의 다른 글

ADsP 3과목  (2) 2025.05.11
ADsP 2과목  (0) 2025.05.07
ADsP에 앞서  (0) 2025.05.06