반응형

안녕하세요. JohnComputer입니다.

이번에 컴퓨터를 교체하기 위해서 자료를 이동중에 있는데요.

이전에 공부하던 자료들이 조금 남아서 공유차원에서 올려 두려고 이렇게 글을 씁니다.

시험에 나오는 필수 내용들을 시험전에 출력해서 바로 보고 시험치러 들어가려고 따로 정리해둔 파일들입니다.

 

ADSP 준비 필기 (필수 암기)

1장


1. 특성

1. 존재적 특성 : 객관적 사실 (FACT 기반)

2. 당위적 특성 : 추론, 예측 ( 기대에 의한 추정 )

 

2. 유형

구분 형태 특징
정성적 데이터 언어, 문자 등 비정형 데이터, 통계분석 어려움
정량적 데이터 수치, 도형, 기호 등 객관석이고 통계분석이 용이

 

 

3. 지식경영 핵심 이슈

구분 의미 특징 상호작용
암묵지 학습과 경험을 통해
내면적으로 갖고있는 지식
자전거 타기 다른 사람에게 공유되기 어려움 공통화, 내면화
조직의 지식으로 공통화
형식지 문서나 매뉴얼처럼
보여지는 지식
데이터베이스, 전달과 공유가 용이 표출화, 연결화
개인의 지식으로 연결화

 

4. DIKW

지혜 Wisdom A사이트 보다 B사이트가 다른 물건도 비싸게 팔걸?
지식 Knowledge B사이트보다 가격이 저렴한 A사이트에서 사야겠다
정보 Information B사이트가 A사이트 보다 싸다
데이터 Data A= 2000, B = 1000

 

5. OLTP / OLAP

- OLTP : 컴퓨터가 데이터베이스를 액세스 하고, 바로 처리 결과를 돌려 보내는 형태

(Transaction Processing) 복잡하고 정규적인 데이터를 바로바로 존나 빠름 -> 예측가능

- OLAP : 다차원적인 데이터를 대화식으로 분석하는 기술

(Analytical Processing) 단순한데 분석이니깐 오랜 많은 데이터를 정적으로 천천히 분석 함. -> 예측불가

 

6. 간단 용어

- ERP : 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율을 주는 시스템.

- SCM : 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용 최적화.

자재구매, 생산, 제고, 유통, 판매, 고객 데이터로 구성된다

- CRM : 고객관계관리. 기업이 고객과 관련된 모든자료 분석 통합 하여 고객 맞춤 서비스 하는 것.

 

1-6 기출문제

1. 다음 중 정성 데이터는?

1) 풍향 2) 습도 3) 기상특보 4) 1시간 강수량

 

2. 다음 중 암묵지와 형식지의 상호작용과 상관 없는 것은?

1) 공통화 2) 내면화 3) 연결화 4) 추상화

 

3. 개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석 하는 과정은?

1) 연결화 2) 내면화 3) 표출화 4) 공통화

 

 

기출문제 답 : 3,4,3

 

**빅데이터

1. 빅데이터의 정의

가트너 그룹의 더그래니의 3V

3V : (Volume), 다양성 (Variety), 속도 (Velocity)

+

4V : 가치(Value) / 시각화 (Visualiztion) / 정확성 (Veracity)

 

2. 빅데이터의 기능 비유

산업혁명의 석탄, 제조업 + 서비스분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올것
21세기의 원유 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업 만듦.
렌즈 현미경이 생물학 발전에 미쳤던만큼 데이터가 산업발전에 영향을 미칠것임.
Ngram Viewer (Google)
플랫폼 공동 확용의 목적으로 구축된 유무형의 구조물 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것. 카톡 / 페이스북 등 Social Media

 

3. 과거에서 현재로의 변화

과거 현재
사전처리 사후처리
표본조사 전수조사
인관관계 상관관계

4. 빅데이터 활용 기본 테크닉

 

기술 내용 예시
연관규칙학습 상관관계 찾아내는 방법 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가?
유형분석 문서를 분류 하거나 조직을 그룹으로 나눌 때, 특성에 따라 나눌 때 이 사용자는 어떤 특성을 가진 집단에 속하는가?
유전자알고리즘 최적화 요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화 시켜 나가는 방법 최대의 시청률을 얻으려면 어떤 프로그램을 언제 방송해야하는가?
기계학습 훈련 데이터로부터 학습하여 예측하는 방법 NETFLIX
회귀분석 독립변수 조작하여 종속변수가 어떻게 변하는 지를 보면서 두 변인의 관계를 파악할 때 사용 고객의 만족도가 충성도에 어떤 영향을 미치는가?
감정분석 특정 주제에 대해 말하거나 글을 쓴 사람 감정 분석 새로운 환불 정책에 대한 고객평가는?
SNS분석 (Social Media...) 특정인과 다른 사람이 몇촌 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람 찾을 때 사용 친분관계가 승진에 어떤 영향을 미치는가?

5. 빅데이터 시대의 위기 요인

- 책임 원칙 훼손 : 범죄 예측 프로그램에 의해 범행을 저지르기 전 체포

- 데이터 오용

- 책임원칙 훼손

- 사생활 침해

-> 사생활 침해 문제를 해결하기 위한 적극적인 보호장치를 강구하는 방법은?

- 개인정보를 사용하는 사람이 직접 책임지는 책임제의 도입.

-> 사생활 침해를 막기 위해 개인정보를 무작위 처리하는 등의 방지 기술은?

- 난수화

 

6. 딥러닝 관련 분석 기법

- LSTM

- RNN

- Autoencoder

 

7. 딥러닝 오플소스와 관련이 있는 것

- Caffe

- Tensorflow

- Theano

 

8. 1차원적인 분석 - 시험출제 중요내용만

산업 일차원적 분석 애플리케이션
금융 서비스 신용점수, 사기탐지, 가격 책정, 트레이딩, 클레임, 고객 수익성
병원 가격 책정, 고객 로열티, 수익 관리
에너지 트레이딩, 공급/수요 예측
정부 사기탐지, 사례관리, 범죄방지, 수익 최적화

 

9. 데이터 사이언티스트/사이언스

: 다양한 방법으로 복잡한 대용량 데이터를 찾고 서로 연결하고 의미있는 정보를 추출함.

: 하드 Skill + 소프트 Skill을 겸비해야함.

- 구성요소

- 분석적영역 : 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습

- IT : 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스 .. 컴퓨터관련

- 비즈니스 분석 : 커뮤니케이션, 스토리텔링, 프리젠테이션

 

10. 데이터 사이언스에 인문학적 사고

- 디버전스 동역학이 작용하는 복잡한 세계화

- 비즈니스 중심이 제품생산에서 체험 경제를 기초로 한 서비스로 이동

- 경제의 논리가 생산에서 최근 패러다임인 시장 창조로 변화

 

11. 간단 용어

데이터 웨어하우스 : 시간성을 가지는 비휘발성 데이터의 집합.

데이터 레이크 : 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트.

 

2 장


1. 분석대상 What-How 도표

WHAT 무엇
Known Un-Know
HOW
방법
Optimization 최적화 Insight 통찰 Known
Solution 솔루션 Discovery 발견 Un-Known

 

2. 목표 시점 별 분석 기획 방안

과제 중심적인 접근 방식 : 바로 앞에 당면한 과제를 빠르게 해결

Speed & Test / Quick & Win / Problem Solving

장기적인 마스터 플랜 방식 : 지속적인 분석 내재화

Accuracy & Deploy / Long Term View / Problem Definition

 

3. 분석 기획시 고려사항

1) 가용 데이터에 대한 고려

- 관련 데이터의 파악

- 빠짐없이 문제를 도출하고 식별

2) 적절한 활용방안과 유즈케이스 탐색 필요.

- 비즈니스 케이스 확보

3) 장애요소들에 대한 사전 계획 수립

- 이행 저해 요소 관리

- 분석 모형의 안정적 성능 확보

- 조직 역량으로 내재화를 위한 변화 관리

- 비용대비 효과의 적정한 비용

 

종류 정형 데이터 반정형 데이터 비정형 데이터
특징 - 데이터 자체 분석 가능
- RDB 구조의 데이터
- DB로 관리
-데이터 분석은 가능
-해석 불가 메타정보를 활용하여 해석해야함.
-데이터 자체 분석 불가
유형 ERP, CRM, SCM
Demand Forecasts
모바일데이터, 로그데이터 등
기기에서 생성된 데이터
Competitor Pricing
음성, 영상, 문자
Email Records0

 

4. 분석 방법론

- 절차 / 방법 / 도구와 기법 / 템플릿과 산출물

 

5. 합리적 의사결정을 가로막는 장애요소 :

고정관념 / 편향된 생각 / 프레이밍 효과

 

6. 방법론에 따른 모델

1) 폭포수 모델 : 대표적인 하향식 모델, 단계를 순차적으로 진행하는 방법, 이전단계가 완료되어야 넘어감.

2) 프로토타입 모델 : 일부분을 우선 개발하여 시범 사용 후 요구를 받아 개선 작업을 시작함.

3) 나선형 모델 : 반복을 통해 점증적으로 개발하는 방법, 복잡도가 상승한다는 단점이 있음.

7. 방법론의 구성

 

단계 단계별 산출물 생성 각 단계는 기준선으로 설정되어 관리 된다.
테스크 단계를 구성하는 단위 활동 물리적 or 논리적 단위 / 품질검토의 항목
스탭 WBS의 워크 패키지에 해당되고, 입력자료, 처리 및 도구, 출력자료로 구성 되어짐.

 

8. KDD 와 CRISP-DM

KDD CRISP-DM
분석대상 비즈니스 이해 업무 이해 ( 데이터 마이닝 목표 설정 )
데이터셋 선택 (목표데이터 구성, 비즈니스 도메인) 데이터의 이해 (초기 데이터 수집, 데이터 탐색 )
데이터 전처리 (잡음,이상치,결측치 식별)
데이터 변환
(데이터 차원 축소, 학습용 검증용 데이터 분리 )
데이터 준비 ( 데이터셋 선택, 데이터 정제 )
데이터 마이닝
(기법 선택, 전처리와 변환프로세스 추가 실행 최적 결과 산출 )
모델링 (모델링 기법 선택, 모델 테스트 계획 설계, 모델 평가 )
데이터 마이닝 결과 평가 평가
데이터 마이닝 활용 전개

 

** 연관 문제 **

CRISP-DM 방법론의 모델링 단계에서 수행하는 Task 는 무엇인가?

- 모델링 기법 선택

- 모델 테스트 계획 설계

- 모델 작성

- 모델 평가

 

9. 빅데이터 분석 방법론 - 5단계

 

분석 기획 -> 데이터준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개

가장 많은 피드백 이동

 

10. 비즈니스 모델 기반 문제 탐색

- 업무

- 제품

- 고객

- 규제와 감사

- 지원 인프라

 

11. 비즈니스 모델 분석 기회 발굴의 범위 확장

거시적 관점 사회, 기술, 경제, 환경, 정치 (STEEP)으로 외우자
경쟁자 확대 대체제, 경쟁자, 신규진입자
시장니즈 탐색 고객, 채널, 영향자들
역량의 재해석 내부역량, 파트너 네트워크

 

** 연관문제

비즈니스 모델 캔버스의 채널에 대한 기능은?

-> 판매하는 영역, 고객에게 전달하는 경로등을 가지고 있다. AS는 미포함.

12. 분석 과제 관리를 위한 5가지 주요 영역

Data Complexity 잘 적용될 수 있는 분석 모델의 선정
Speed 분석 모델의 성능 및 속도를 고려한 개발
Analytic Complexity 해석이 가능하며 정확도를 올릴 수 있는 최적모델
Accuracy & Precision 실제 값 사이의 차이의 정확도, 편차의 수준 일관성
Data Size 분석하고자 하는 데이터의 양

 

13. 마스터 플랜 수립 프레임 워크

1) 우선순위 고려 요소

- 전략정 중요도

- 비즈니스 성과 / ROI

- 실행 용이성

 

2) 적용 범위 / 방식 고려요소

- 업무 내재화 적용 수준

- 분석 데이터 적용 수준

- 기술 적용 수준

 

14. ROI 관점에서 빅데이터의 핵심 특징

- 크기 / 다양성 / 속도 -> 투자비용 요소 (3V)

- Value 가치 -> 비즈니스 효과 (4V)

 

15. 거버넌스 체계

: 단순히 대용량 데이터 수집이 아닌 어떤 목적으로 어떻게 데이터를 활용할 것인가를 정하고 방향을 잡는 것.

구성요소

- Process / System / Data / Human Resource / Organization

 

16. 데이터 분석 수준진단

분석 분비도

- 분석업무 / 분석 인력,조직 / 분석기법 / 분석 데이터 / 분석 문화 / 분석 인프라

분석 성숙도

- 도입 / 활용 / 확산 / 최적화

 

17. 데이터 거버넌스 구성요소

- 원칙 : 게이터 유지관리 지침 가이드 / 보안,품질 기준, 변경 관리

- 조직 : 데이터를 관리할 조직의 역할과 책임 / DBA, DA, 데이터 아키텍트

- 프로세스 : 데이터 관리를 위한 활동과 체계 / 작업절차, 모니터링, 측정 활동

 

18. 데이터 거버넌스 체계

- 데이터 표준화 / 데이터 관리 체계 / 데이터 저장소 관리 / 표준화 활동

 

3장


 

1.데이터 처리

- DW, DM의 데이터를 가져와 분석에 활용한다.

- ODS는 정제된 데이터이다.

- 어디서든 데이터를 가져와 활용할 수 있지만 가급적 ODS에서 데이터 전처리 후 DW, DM과 결합하여 사용.

 

2. 시각화

- 시각화는 가장 낮은 분석

- 복잡한 분석보다도 더 효율적 (보이기 때문)

- 빅데이터 분석에서 필수

- SNA분석에 활용 (발전된 형태)

- 텍스트 마이닝에서의 워드 클라우드를 통한 그래프화 (발전된 형태)

- polygon, heatmap, mosaic graph 등의 그래프 작업 (발전된 형태)

 

** 공간 분석 = Spatial Analysis = GIS

 

3. 탐색적 자료 분석 (EDA)

- 점차적의로 특이한 점이나 의미있는 데이터를 도출하고 분석하여 줄여 나가는 것.

- 구조적 관계를 알아내기 위한 기법들의 통칭.

 

4. EDA4가지 주제

- 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성

 

5. 통계분석

- 기술통계 : 표본이 가지고 있는 정보를 쉽게 파악하기 위해 숫자 or 그래프로 표현하는 절차.

- 추측(추론)통계 : 표본의 표본 통계량으로부터 모집단의 모수에 관해 통계적으로 추론하는 절차.

 

6. 데이터마이닝

- 대용양의 자료로부터 정보를 요악하고 미래에 대한 예측을 목표로 자료에서 관계, 패턴, 규칙등을 탐색하고

모형화 함으로써 유용한 지식을 추출하는 분석방법

- 데이터에 있는 패턴을 파악해 예측하는 분석으로 데이터가 크고 정보가 다양할수록 보다 활용하기 유리한 분석

 

7. 데이터마이닝의 방법론

- 데이터베이스에서의 지식탐색

- 기계학습

- 패턴인식

 

** 관련 문제

1. 데이터 마이닝 모델링에 대한 설명.

- 데이터마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말자.

- 굳이 다양한 옵션을 줘서 도출할 필요는 없다.

- 분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 비율로 상황에 맞게 실시한다.

- 훈련 및 테스트 성능에 큰 편차가 없으면서 예상 성능을 만족한다면 중단한다.

 

2. 모델링 성능을 평가함에 있어, 데이터 마이닝에서 활용하는 평가 기준

- 정확성 / 정밀도 / 리프트 / 디텍트 레이트 / 리프트

3. 시물레이션 활용 평가 기준

- Throughput, Average Waiting Time, Average Queue Length, Time in system 등의 지표 활용

 

4장


4- 데이터마트

 

1.요약변수

- 고객 + 상품 + 채널 종합

- 분석에 맞게 종합한 변수

- 데이터 분석을 위해 만들어진 변수

- 재활용성이 높음.

- 기준갑의 의미해석이 애매할 수 있다.

 

2.파생변수

- 매우 주관적

- 논리적 타당성이 뒷받쳐 줘야 함.

- 세분화, 고객행동 예측, 캠페인 반응 예측에 잘 활용되어짐.

 

reshape : 변수를 조합해 요약 변후와 파생변수를 쉽게 생성하여 데이터 마트르 구성할 수 있는 패키지

- melt () / cast() 핵심 함수 존재.

- melt() -> 원테이터 형태로 만드는 함수.

- cast() -> 요약 형태로 만드는 함수.

 

cast 이용 방법 -> cast(df, 칼럼명 [+] 칼럼명 [~] 값이될칼럼명 )

melt 이용 방법 -> melt(df, id = c("기준칼럼명“,”기준칼럼명2“, 조건) -> 조건은 na.rm=TRUE - 결측값제외

 

ddply : d(데이터) -> d(데이터프레임)

사용법 -> ddply(df(), ~칼럼명, 요약방법(summarize), groupmean=mean(그룹기준))

 

3. 결측값

- is.na : 결측값이 NA인지 여부를 판단하여 반환하는 함수

- knnImputation() : NA값을 K 최근 이웃 분류 알고리즘을 사용하여 대치하는 함수 k개 주변 이웃까지의 거리 고려 가중 평균한 값을 대치해 주는 함수

- rfImpute() : 랜덤 포레스트 모형은 결측값이 있으면 에러발생 -> 랜덤 포레스트 패키지에서 NA결측값 대치하는 함수

 

4. 이상값

- 의도치 않은 값

- 목적과 부합하지 않는 값

- 그냥 이상하게 입력된 값.

** 의미있는 이상값은 제거하지 않는다.

* 이상값 인식 방법

- ESD : 평균으로 3 표준편차 이상 떨어진 값.

* 극단값 절단 방법

- 기하평균을 이용한 제거

- 10% 절단 ( 상,하위 5%값 제거 ) - 데이터 손신율 때문에 잘 이용안함.

- 극단값 조정 : 상한값 하한값 벗어난 값들을 하한, 상한값으로 바꾸어 활용.

 

ADSP -2장.hwp
0.03MB
ADSP -3장.hwp
0.14MB
ADSP - 4장.hwp
0.03MB
ADSP -1장.hwp
0.02MB

반응형