* 기출문제 위주의 요약정리로 실제 시험 내용에서 빠져있는 부분이 많을 수 있습니다.
주관식 기출 / 객관식 기출 / 주관식, 객관식 기출 / 기출 빈도수 높음 ★ / 중요
1과목. 데이터의 이해
제1장. 데이터의 이해
■ 제1절. 데이터와 정보
1. 데이터의 정의
1-1. 데이터
1-2. 데이터 유형
- 정성적 데이터 : 언어, 문자 등의 비정형 데이터로 주관적 내용, 통계 분석 어려움
예) 기상특보, 트위터, 페이스북
- 정량적 데이터 : 수치, 도형, 기호 등의 정형 데이터로 객관적 내용(수치로 명확히 표현), 통계 분석 용이
예) 날씨, 나이, 풍속, 습도
1-3. 암묵지와 형식지
- 암묵지 : 개인에게 습득된 무형의 지식
예) 김장김치 담그기, 자전거 타기
- 형식지 : 형상화된 지식
예) 교과서, 비디오, 데이터베이스
- 암묵지와 형식지의 상호작용 ★
공통화 → 표출화(암묵지→형식지) → 연결화 → 내면화(형식지→암묵지)
[오답: 추상화]
2. 데이터와 정보의 관계
DIKW 피라미드
- 데이터(Data) : 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실
예) A마트는 10원, B마트는 50원에 판다
- 정보(Information) ★ : 데이터 가공 및 상관관계 이해를 통해 패턴을 인식하고 그 의미를 부여하는 데이터
예) A마트가 더 싸다
- 지식(Knowledge) : 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
예) 상대적으로 저렴한 A마트에서 사야겠다
- 지혜(Wisdom) : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
예) A마트의 다른 상품들도 더 싸겠다
■ 제2절. 데이터베이스의 정의와 특징
1. 데이터베이스
- 체계적으로 정렬된 데이터 집합으로 데이터 양과 이용의 증가로 대용량 데이터를 저장, 관리, 검색, 이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화
2. 데이터베이스 특징
- 통합된 데이터 : 동일한 내용의 데이터가 중복되어 있지 않음
- 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장매체에 저장됨
- 공용 데이터 : 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용 (대용량화되고 구조가 복잡)
- 변화되는 데이터 : 데이터의 삽입,삭제,갱신으로 변화하면서도 항상 정확한 데이터를 유지
데이터베이스의 설계 절차 : 요구 분석 -> 개념 -> 논리 -> 물리
- 데이터웨어하우스
기업의 의사 결정 과정을 지원하기 우해 주제 중심적으로 통합, 시간성을 가지는 비휘발성 데이터베이스 집합, 방대한 조직 내 분산된 데이터베이스 관리시스템을 통합 및 운영
[오답 : 데이터 지속적 갱신에 따른 무결정 유지가 무엇보다 중요하다.]
[오답 : 데이터웨어하우스에서 관리하는 데이터들은 시간의 흐름에 따라 변화하는 값을 유지한다.]
[오답 : 특정 조직의 업무에 맞춰있다.]
■ 제3절. 데이터베이스 활용
1. 데이터베이스 솔루션
- OLTP (Online Transaction Processig)
온라인 거래 처리, 대화식X, 기본적인 비즈니스 작업 제어 및 실행, 진행 중인 비즈니스 프로세스
- OLAP (Onlicn Analytic Processing)
온라인 분석 처리, 대화식O, 다차원->통계적 요약정보, 의사결정 지원, 계획 및 문제 해결, 모든 유형의 비즈니스 활동
- ERP (Enterprise Resource Planning) ★
기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영혁신기법을 의미함
- CRM (Consumer Relationship Management 고객관계 관리)
기업이 고객과 관련된 내외부 자료를 분석, 통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획, 지원, 평가하는 과정
- SCM (Supply Chain Management) ★
기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간, 비용을 최적화
- BI (Business Intelligence)
데이터에 기반해 의사결정을 지원하기 위한 리포트 중심의 도구
- BA (Business Analytics)
경영 의사 결정을 위한 통계적, 수학적인 분석에 초점을 둔 기법
- Data Mining (데이터 마이닝)
대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하고자 하는 일련의 작업
- KMS (지식 관리 시스템)
조직내 인적자원들이 축적하고 있는 지식을 체계화하여 공유
- EAI (Enterprise Application Integration)
정보를 중앙 집중적으로 통합, 관리, 사용
- EDW
BPR과 CRM, BSC 같은 다양한 분석 애플리케이션들을 위한 원천
2. 기타 용어
- 데이터 레이크
별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트
- 메타 데이터
데이터에 관한 구조화된 데이터로 다른 데이터를 설명
- 데이터 무결성
DB 내의 데이터 대한 정확한 일관성, 유효성, 신로성을 보장하기 위해 여러 제한을 두어 데이터 정확성을 보증
- 블록 체인
거래 정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래 장부
제2장. 데이터의 가치와 미래
■ 제1절. 빅데이터의 이해
1. 빅데이터 정의
1-1. 정의
용량이 방대해지고 복잡성이 증가하면서 일반적인 DBMS로 저장/관리/분석할 수 있는 범위를 초과하는 규모의 데이터
[오답] 구조가 단순
1-2. 빅데이터의 3V
- 데이터 양 (Volume)
- 다양성 (Variety)
- 속도 (Velocity)
1-3. 빅데이터의 효과
기존 방식으로는 얻을 수 없었던 통찰/가치 창출
2. 빅데이터 출현 배경
2-1. 출현 배경
산업계, 학계, 기술발전
2-2. 인터넷 발전이 빅데이터에 기여한 측면
클라우드 컴퓨팅 ★ : 빅데이터 처리 비용을 획기적으로 낮추며 경제성을 제공
사물 인터넷 : 모든 것의 데이터화
3. 빅데이터 기능
- 산업혁명의 석탄/철 : 제조업/서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화/생활 전반에 혁명적 변화
- 21세기 원유 : 산업 전반의 생산성 향상
- 렌즈
- 플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물
4. 빅데이터가 만들어 내는 본질적인 변화 ★
- 사전처리 → 사후처리
- 표본조사 → 전수조사
- 질 → 양
- 인과관계 → 상관관계
■ 제2절. 빅데이터의 가치와 영향
1. 빅데이터의 가치 산정이 어려운 이유
- 데이터 활용 방식 (재사용/재조합/다목적용) : 특정 데이터를 언제, 누가, 어디서 활용할지 알 수 없게 되어 가치 산정이 어려움
- 새로운 가치 창출 : 데이터가 기존의 없던 가치를 창출함에 따라 그 가치 산정이 어려움
- 분석 기술 발전 : 현재 가치 없는 데이터라도 추후에 새로운 분석 기법으로 거대한 가치를 지닌 데이터가 될 수 있기 때문에 가치 산정이 어려움
[오답 : 빅데이터 전문인력의 증가로 다양한 곳에서 빅데이터가 활용되고 있기 때문이다]
2. 빅데이터의 영향
- 기업 : 혁신, 경쟁력, 생산성 향상
- 정부 : 환경 탐색, 상황 분석, 미래 대응
- 개인 : 목적에 따른 활용
■ 제3절. 비즈니스 모델
1. 빅데이터 활용 기본 테크닉 ★
- 연관 규칙 학습
변인들 간 주목할만한 상관관계를 찾아내는 방법
예) 커피를 구매한 사람이 탄산음료를 더 많이 사는가?
[오답 : 고객의 신용등급 파악]
- 유형 분석
문서를 분류하고 조직을 그룹화할 때 특성에 따라 분류하는 방법
예) 이 사용자는 어떤 특성을 가진 집단에 속하는가?
- 유전자 알고리즘
최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
예) 최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
- 기계 학습
훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법
예) 기존의 시청 기록을 바탕으로 현재 사용자가 보유한 영화 중에서 어떤 것을 가장 보고 싶어 할까?
- 회귀 분석
독립변수를 조작하여, 종속변수가 어떻게 변하는지 보면서 두 변인의 관계를 파악하는 방법
예) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
- 감정 분석
특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법
예) 투숙한 호텔에 대한 고객의 평가는 어떤가?
- 소셜 네트워크 분석
특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고 영향력 있는 사람을 찾아낼 때 사용하는 방법
예) 고객들 간 관계망은 어떻게 구성되어 있나?
■ 제4절. 위기 요인과 통제 방안
1. 위기 요인
- 사생활 침해
- 책임 원칙의 훼손
빅데이터 기본 분석과 예측 기술의 발전으로 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 수 있음
예) 범죄 예측 프로그램을 통해 범죄 전에 체포
- 데이터의 과신/오용
데이터에 의존하여 잘못된 미래를 예측할 경우
예) 베트남 전쟁에서 적국 사망자 수를 전쟁의 진척상황을 나타내는 지표로 활용하여, 전쟁 상황을 오보하게 됨
[오답: 익명화]
2. 통제 방안
- 동의에서 책임으로
개인정보 유출로 발생하는 피해를 사용자가 책임을 지게 됨으로써 사용주체의 적극적인 보호장치를 강구
- 결과 기반 책임 원칙 고수
잘못된 예측 알고리즘을 통한 판단을 근거로 불이익을 줄 수 없으며, 이에 따른 피해를 최소화하는 장치를 마련
- 알고리즘 접근 허용
알고리즘에 대한 접근권을 보장하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개
알고리즈미스트 : 불이익당한 사람들을 대변할 전문가
3. 개인정보 비식별 기술
- 데이터 마스킹
데이터 속성은 유지하고 익명으로 데이터를 생성
- 가명 처리 ★
개인정보 값을 다른 값으로 변경
- 총계 처리
데이터의 총합만을 보여줌
- 데이터 값 삭제
개인 식별에 중요한 값을 삭제
- 데이터 범주화
데이터를 범주의 값으로 변환
■ 제5절. 미래의 빅데이터
1. 빅데이터 활용에 필요한 기본 3요소 ★
- 데이터
모든 것의 데이터화
- 기술
진화하는 알고리즘, 인공지능
- 인력
데이터 사이언티스트
알고리즈미스트
[오답 프로세스]
제3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
■ 제1절. 빅데이터 분석과 전략 인사이트
생략
■ 제2절. 전략 인사이트 도출을 위한 필요 역량
1. 데이터 사이언스의 의미와 역할
데이터로부터 의미 있는 정보를 추출해내는 학문
다양한 유형의 데이터(정형/비정형, 숫자/문자/영상 정보 등)를 대상으로 총체적 접근법을 사용
[오답: 통계학과 데이터 사이언스는 "데이터를 다룬다"는 것이 비슷하지만 통계학은 더욱 확장된 유형의 데이터를 다룬다.]
[오답: 데이터 사이언스는 기존 통계학에 데이터 마이닝을 접목한 새로운 학문이다.]
[오답: 분석의 정확성에 초점을 두고 진행한다.]
2. 데이터 사이언스의 핵심 구성 요소
- IT Management : IT 영역
시그널 프로세싱, 프로그래밍(파이썬 프로그래밍 등등), 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅
- Analytics : 분석적 영역
수학, 머신러닝, 확률모델, 분석학, 패턴 인식/학습
- 비즈니스 분석 : 비즈니스 컨설팅 영역
데이터 시각화, 커뮤니케이션, 프레젠테이션, 스토리텔링
2-1. 데이터 사이언티스트가 갖춰야 할 역량
- DJ Patil
기술적 숙련도, 호기심, 스토리텔링, 영리함
- Gartner 가트너
데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬
[오답] 하드 스킬
2-2. 데이터 사이언티스트의 요구 역량 ★
- 하드 스킬
빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
- 소프트 스킬
통찰력 있는 분석, 설득력 있는 전달, 다분야간 협력
3. 전략적 통찰력과 인문학의 부활
단순 세계화 → 복잡한 세계화
비즈니스 중심 : 제품 생산 → 서비스
경제/산업 논리 : 생산 → 시장 창조
■ 제3절. 빅데이터 그리고 데이터 사이언스의 미래
생략
'TIP > 자격증' 카테고리의 다른 글
제26회 데이터분석 준전문가(ADsP) 합격 후기 (0) | 2020.10.03 |
---|---|
[ADsP기출 위주 핵심 정리] 2과목. 데이터 분석 기획 (0) | 2020.05.18 |
제33회 SQLD (SQL 개발자 자격시험) 합격 후기 (인천 인하공전) (0) | 2019.07.02 |
[SQLD] 2과목. SQL 기본 및 활용 (1) - SQL 기본 요약 (3) | 2019.06.14 |
[SQLD] 1과목. 데이터 모델링의 이해 요약 (0) | 2019.06.14 |