본문 바로가기

TIP/자격증

[ADsP 기출 위주 핵심 정리 요약] 1과목. 데이터의 이해

반응형

* 기출문제 위주의 요약정리로 실제 시험 내용에서 빠져있는 부분이 많을 수 있습니다.

주관식 기출 / 객관식 기출 / 주관식, 객관식 기출 / 기출 빈도수 높음 ★ / 중요

 

 

1과목. 데이터의 이해

 

제1장. 데이터의 이해

 

■ 제1절. 데이터와 정보

 

1. 데이터의 정의

 

1-1. 데이터

 

1-2. 데이터 유형

- 정성적 데이터 : 언어, 문자 등의 비정형 데이터로 주관적 내용, 통계 분석 어려움

 예) 기상특보, 트위터, 페이스북

 

- 정량적 데이터 : 수치, 도형, 기호 등의 정형 데이터로 객관적 내용(수치로 명확히 표현), 통계 분석 용이

 예) 날씨, 나이, 풍속, 습도

 

 

1-3. 암묵지와 형식지

- 암묵지 : 개인에게 습득된 무형의 지식

 예) 김장김치 담그기, 자전거 타기

 

- 형식지 : 형상화된 지식

 예) 교과서, 비디오, 데이터베이스

 

- 암묵지와 형식지의 상호작용

 공통화 → 표출화(암묵지→형식지) → 연결화 → 내면화(형식지→암묵지)

 [오답: 추상화]

 

 

 

2. 데이터와 정보의 관계

DIKW 피라미드

 

- 데이터(Data) : 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실

 예) A마트는 10원, B마트는 50원에 판다

 

- 정보(Information) : 데이터 가공 및 상관관계 이해를 통해 패턴을 인식하고 그 의미를 부여하는 데이터

 예) A마트가 더 싸다

 

- 지식(Knowledge) : 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물

 예) 상대적으로 저렴한 A마트에서 사야겠다

 

- 지혜(Wisdom) : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어

 예) A마트의 다른 상품들도 더 싸겠다

 

 

 

 

 

 제2절. 데이터베이스의 정의와 특징

 

1. 데이터베이스

- 체계적으로 정렬된 데이터 집합으로 데이터 양과 이용의 증가로 대용량 데이터를 저장, 관리, 검색, 이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화

 

 

2. 데이터베이스 특징

- 통합된 데이터 : 동일한 내용의 데이터가 중복되어 있지 않음

- 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장매체에 저장됨

- 공용 데이터 : 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용 (대용량화되고 구조가 복잡)

- 변화되는 데이터 : 데이터의 삽입,삭제,갱신으로 변화하면서도 항상 정확한 데이터를 유지

 

데이터베이스의 설계 절차 : 요구 분석 -> 개념 -> 논리 -> 물리

 

- 데이터웨어하우스 
  기업의 의사 결정 과정을 지원하기 우해 주제 중심적으로 통합, 시간성을 가지는 비휘발성 데이터베이스 집합, 방대한 조직 내 분산된 데이터베이스 관리시스템을 통합 및 운영 
[오답 : 데이터 지속적 갱신에 따른 무결정 유지가 무엇보다 중요하다.]

[오답 : 데이터웨어하우스에서 관리하는 데이터들은 시간의 흐름에 따라 변화하는 값을 유지한다.]

[오답 : 특정 조직의 업무에 맞춰있다.]

 

 

 

 

 제3절. 데이터베이스 활용

 

1. 데이터베이스 솔루션

- OLTP (Online Transaction Processig)

 온라인 거래 처리, 대화식X, 기본적인 비즈니스 작업 제어 및 실행, 진행 중인 비즈니스 프로세스

 

- OLAP (Onlicn Analytic Processing)

 온라인 분석 처리, 대화식O, 다차원->통계적 요약정보, 의사결정 지원, 계획 및 문제 해결, 모든 유형의 비즈니스 활동

 

- ERP (Enterprise Resource Planning) ★

 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영혁신기법을 의미함

 

- CRM (Consumer Relationship Management 고객관계 관리)

 기업이 고객과 관련된 내외부 자료를 분석, 통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획, 지원, 평가하는 과정

 

- SCM (Supply Chain Management) ★

 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간, 비용을 최적화

 

- BI (Business Intelligence)

 데이터에 기반해 의사결정을 지원하기 위한 리포트 중심의 도구

 

- BA (Business Analytics)

 경영 의사 결정을 위한 통계적, 수학적인 분석에 초점을 둔 기법

 

- Data Mining (데이터 마이닝)

 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하고자 하는 일련의 작업

 

- KMS (지식 관리 시스템)

 조직내 인적자원들이 축적하고 있는 지식을 체계화하여 공유

 

- EAI (Enterprise Application Integration)

 정보를 중앙 집중적으로 통합, 관리, 사용

 

- EDW
 BPR과 CRM, BSC 같은 다양한 분석 애플리케이션들을 위한 원천

 

 


2. 기타 용어

 

- 데이터 레이크

 별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트

 

- 메타 데이터 

 데이터에 관한 구조화된 데이터로 다른 데이터를 설명

 

- 데이터 무결성

 DB 내의 데이터 대한 정확한 일관성, 유효성, 신로성을 보장하기 위해 여러 제한을 두어 데이터 정확성을 보증

 

- 블록 체인

 거래 정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래 장부

 

 

 



제2장. 데이터의 가치와 미래


 제1절. 빅데이터의 이해

 

1. 빅데이터 정의

1-1. 정의

용량이 방대해지고 복잡성이 증가하면서 일반적인 DBMS로 저장/관리/분석할 수 있는 범위를 초과하는 규모의 데이터

[오답] 구조가 단순

 

1-2. 빅데이터의 3V

- 데이터 양 (Volume)

- 다양성 (Variety)

- 속도 (Velocity)

 

1-3. 빅데이터의 효과

기존 방식으로는 얻을 수 없었던 통찰/가치 창출

 

2. 빅데이터 출현 배경

2-1. 출현 배경

산업계, 학계, 기술발전

 

2-2. 인터넷 발전이 빅데이터에 기여한 측면

클라우드 컴퓨팅 ★ : 빅데이터 처리 비용을 획기적으로 낮추며 경제성을 제공

사물 인터넷 : 모든 것의 데이터화

 

3. 빅데이터 기능

- 산업혁명의 석탄/철 : 제조업/서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화/생활 전반에 혁명적 변화

- 21세기 원유 : 산업 전반의 생산성 향상

- 렌즈

- 플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물

 

4. 빅데이터가 만들어 내는 본질적인 변화 ★

- 사전처리 → 사후처리

- 표본조사 → 전수조사

- 질 → 양

- 인과관계 → 상관관계

 

 

 

 


 제2절. 빅데이터의 가치와 영향

 

1. 빅데이터의 가치 산정이 어려운 이유

- 데이터 활용 방식 (재사용/재조합/다목적용) : 특정 데이터를 언제, 누가, 어디서 활용할지 알 수 없게 되어 가치 산정이 어려움

- 새로운 가치 창출 : 데이터가 기존의 없던 가치를 창출함에 따라 그 가치 산정이 어려움

- 분석 기술 발전 : 현재 가치 없는 데이터라도 추후에 새로운 분석 기법으로 거대한 가치를 지닌 데이터가 될 수 있기 때문에 가치 산정이 어려움

[오답 : 빅데이터 전문인력의 증가로 다양한 곳에서 빅데이터가 활용되고 있기 때문이다]

 

2. 빅데이터의 영향

- 기업 : 혁신, 경쟁력, 생산성 향상

- 정부 : 환경 탐색, 상황 분석, 미래 대응

- 개인 : 목적에 따른 활용

 

 


 제3절. 비즈니스 모델

 

1. 빅데이터 활용 기본 테크닉 ★

 

- 연관 규칙 학습

 변인들 간 주목할만한 상관관계를 찾아내는 방법

 예) 커피를 구매한 사람이 탄산음료를 더 많이 사는가?

  [오답 : 고객의 신용등급 파악]

 

- 유형 분석

 문서를 분류하고 조직을 그룹화할 때 특성에 따라 분류하는 방법

 예) 이 사용자는 어떤 특성을 가진 집단에 속하는가?

 

- 유전자 알고리즘

 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법

 예) 최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?

 

- 기계 학습

 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법

 예) 기존의 시청 기록을 바탕으로 현재 사용자가 보유한 영화 중에서 어떤 것을 가장 보고 싶어 할까?

 

- 회귀 분석

 독립변수를 조작하여, 종속변수가 어떻게 변하는지 보면서 두 변인의 관계를 파악하는 방법

 예) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?

 

- 감정 분석

 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법

 예) 투숙한 호텔에 대한 고객의 평가는 어떤가?

 

- 소셜 네트워크 분석

 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고 영향력 있는 사람을 찾아낼 때 사용하는 방법

 예) 고객들 간 관계망은 어떻게 구성되어 있나?

 

 

 

 

 제4절. 위기 요인과 통제 방안

 

1. 위기 요인

- 사생활 침해

 

- 책임 원칙의 훼손

 빅데이터 기본 분석과 예측 기술의 발전으로 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 수 있음

 예) 범죄 예측 프로그램을 통해 범죄 전에 체포

 

- 데이터의 과신/오용

 데이터에 의존하여 잘못된 미래를 예측할 경우

 예) 베트남 전쟁에서 적국 사망자 수를 전쟁의 진척상황을 나타내는 지표로 활용하여, 전쟁 상황을 오보하게 됨

 

[오답: 익명화]

 

 

2. 통제 방안

- 동의에서 책임으로

 개인정보 유출로 발생하는 피해를 사용자가 책임을 지게 됨으로써 사용주체의 적극적인 보호장치를 강구

 

- 결과 기반 책임 원칙 고수

 잘못된 예측 알고리즘을 통한 판단을 근거로 불이익을 줄 수 없으며, 이에 따른 피해를 최소화하는 장치를 마련

 

- 알고리즘 접근 허용

 알고리즘에 대한 접근권을 보장하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개

 알고리즈미스트 : 불이익당한 사람들을 대변할 전문가

 

 

3. 개인정보 비식별 기술

- 데이터 마스킹

 데이터 속성은 유지하고 익명으로 데이터를 생성

 

- 가명 처리

 개인정보 값을 다른 값으로 변경

 

- 총계 처리

 데이터의 총합만을 보여줌

 

- 데이터 값 삭제

 개인 식별에 중요한 값을 삭제

 

- 데이터 범주화

 데이터를 범주의 값으로 변환

 

 

 


 제5절. 미래의 빅데이터

1. 빅데이터 활용에 필요한 기본 3요소 ★

 

- 데이터

 모든 것의 데이터화

 

- 기술

 진화하는 알고리즘, 인공지능

 

- 인력

 데이터 사이언티스트

 알고리즈미스트

 

[오답 프로세스]

 

 

 


제3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

 

 제1절. 빅데이터 분석과 전략 인사이트

 

생략

 

 


 제2절. 전략 인사이트 도출을 위한 필요 역량

 

1. 데이터 사이언스의 의미와 역할

  데이터로부터 의미 있는 정보를 추출해내는 학문

  다양한 유형의 데이터(정형/비정형, 숫자/문자/영상 정보 등)를 대상으로 총체적 접근법을 사

[오답: 통계학과 데이터 사이언스는 "데이터를 다룬다"는 것이 비슷하지만 통계학은 더욱 확장된 유형의 데이터를 다룬다.]

[오답: 데이터 사이언스는 기존 통계학에 데이터 마이닝을 접목한 새로운 학문이다.]

[오답: 분석의 정확성에 초점을 두고 진행한다.]

 

 

2. 데이터 사이언스의 핵심 구성 요소

- IT Management : IT 영역

   시그널 프로세싱, 프로그래밍(파이썬 프로그래밍 등등), 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅

 

- Analytics : 분석적 영역

  수학, 머신러닝, 확률모델, 분석학, 패턴 인식/학습 

 

- 비즈니스 분석 : 비즈니스 컨설팅 영역

  데이터 시각화, 커뮤니케이션, 프레젠테이션, 스토리텔링

 

 

2-1. 데이터 사이언티스트가 갖춰야 할 역량

- DJ Patil

 기술적 숙련도, 호기심, 스토리텔링, 영리함

 

- Gartner 가트너

 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬

 [오답] 하드 스킬

 

 

 

2-2. 데이터 사이언티스트의 요구 역량 ★

- 하드 스킬

 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련

 

- 소프트 스킬

 통찰력 있는 분석, 설득력 있는 전달, 다분야간 협력

 

 

 

 

3. 전략적 통찰력과 인문학의 부활

단순 세계화 → 복잡한 세계화

비즈니스 중심 : 제품 생산 → 서비스

경제/산업 논리 : 생산 → 시장 창조

 

 


 제3절. 빅데이터 그리고 데이터 사이언스의 미래

 

생략

 

 

 

 

 

반응형