빅데이터UI전문가

빅데이터 정의, 빅데이터 특징, 종류, 인사이트

해요빈 2021. 10. 5. 13:08

빅데이터 정의

  • 일반적인 데이터베이스 체계가 저장, 관리, 분석 할 수 있는 범위를 초과하는 규모의 데이터
  • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집/발굴/분석을 지원하도록 고안된 차세대 기술
  • 대량으로 수집한 데이터를 활용 분석하여 가치있는 정보를 추출하고 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 정보화 기술

빅데이터 

  • 데이터 관점 - 정형(excel,...), 비정형(sns,...), 반정형
  • 기술 관점 - 수집, 저장, 분석, 시각화

빅데이터의 특징

  • 3V - Volume 데이터의 양, Velocity 입출력 속도, Variety 종류의 다양성
          (Veracity 정확성, Variability가변성)
  • 분석 알고리즘 - 통계 기반 데이터 분석 알고리즘(가설검정, 시계열, 선형, 다변량, 탐색적 분석)
                         데이터 마이닝(의사결정트리, KNN, ANN, SVM 등....)
                         텍스트 마이닝, 머신러닝(딥러닝)

데이터 분석의 4요소

  • 데이터 사이언티스트 : 데이터 분석가 - 미적분, 통계, 수학, 컴공, 비즈니스 이해
  • 분석 기반 기술 : 하둡(아파치 하둡::페이스북), 스파크
  • 알고리즘 : 분석 모델 이해 - 다양한 알고리즘, 모델링 기법을 선택 / 개발
  • 통찰력(Insight) 기술적인 관점보다는 데이터와 비즈니스를 연결할 수 있는 안목 
    • 해당 분야의 배경지식이 필요하다. 기본지식이 없으면 인사이트가 있을 수 없다.
    • 개선사항을 도출하고 분석 목표를 설정하여 분석한 후 분석 결과를 시각화 한다.
  • 분석 영역 이해 -> 문제점 및 개선과제 도출 -> 분석방법 정의와 데이터 분석 -> 분석결과
  • 데이터 사이언티스트는 데이터에 의미를 부여하고 생명을 불어넣는 사람.
  • 분석가의 역량에 따라 같은 데이터라도 분석 결과가 달라진다. 데이터의 패턴을 발견하고 패턴에 의미를 파악하여 전략적인 시사점을 도출해야 한다.

데이터 인사이트를 기르는 방법

  1. 데이터에 대한 오류 검증 : 전처리,, 현실 세계의 데이터는 오류 투성이다.
  2. 데이터에 대한 수많은 질문 : 데이터에 대한 질문, 분석 과정에서의 질문, 분석 결과에 대한 질문, 이러한 질문은 그 분야에 대한 배경 지식과 경험으로부터 나온다.
  3. 선입견을 지양해야 한다. 분석의 고정이나 결과를 본인이 원하거나 누군가 원하는 방향으로 해석하고 끌고 가려는 습성이 있다. 선입견을 넘어서는 새로운 해석과 시사점이 필요하다.
  4. 폭넓은 지식과 개방적인 사고가 필요하다. 융합의 시대에 한 분야만의 지식으로는 인사이트를 도출하기 어렵다. 한 분야에만 매몰된 데이터 분석은 단순한 패턴의 발견으로 끝날 수 있다.

빅데이터 플랫폼 구축

  • 빅데이터 플랫폼은 빅데이터를 생산/분석/유통 시키는 시스템, 현대는 플랫폼 시대이기에 단순히 하나의 시스템을 구축하는 것이 아니라 지속적으로 개발/분석/유통할 수 있는 시스템이 필요하다.

플랫폼 구축 프로세스

  • 목표 설정: 요구사항 분석
  • 계획 수립: 개발 계획, 목표 시스템 정의, 기초 설계
  • 분석/설계: 데이터 수집 설계, 데이터 처리 설계
  • 구축: 플랫폼 구축
  • 테스트: 버그, 개선

 

요구사항 분석

 

빅데이터 요구사항 관리 프로세스는 추출-분석-명세-관리/유지보수의 5단계로 이뤄진다. 사용자들이 왜 빅데이터를 구축하려고 하는가에 대한 목적을 이해하고 기술서에 명확히 기술한다.

 

  1. 수집 기법: 인터뷰, 설문조사, 워크숍, 브레인스토밍, ...
  2. 분석 기법: 사용자가 필요한 것을 알아내고 제약사항을 정리, 어떻게 빅데이터 시스템을 만들것인가 보다는 어떤 시스템을 만들것인가를 고민
  3. 명세 기법: 분석한 요구사항을 명확하게 기록하여 문서화하는 공정. 요구사항을 ID로 함께 만들어서 향후 요구사항 관리를 위한 추적성을 보장한다.
  4. 검증 기법 : 사용자들의 요구사항에 맞게 정확하고 완벽하며 추척할 수 있게 명화세 되었는지를 점검

개발 계획 수립

개발  계획은 크게 범위 계획, 일정 계획, 비용 계획, 인력 계획으로 나뉜다.

범위 계획 - 빅데이터 구축을 위한 사용자로부터 얻은 요구사항 비즈니스 범위, 시스템 범위

일정 계획 - 시스템 오픈 일정에 맞게 분석/설계, 구축, 테스트의 일정을 고려한다.

비용 계획 - 프로젝트 진행에서 필요한 비용의 지출 계획, 서버 구매/ 인력 고용/ SW/HW

인력 계획 - 프로젝트를 진행하면서 필요한 개발자의 고용/투입 시기 결정, 개발자, 설계자, 테스터, 품질 관리

 

일정 계획

  • 빅데이터 구축 시 범위와 일정을 상세화 하는 작업 분할 구조(WBS: Work Breakdown Structure)를 사용한다.
    개발해야하는 업무를 1~2주 단위로 나누어 기술한 과업 내역서이다. 이 구조에서 가장 작은 과업의 단위를 워크 패키지라고 부른다. 이 워크 패키지는 1~2주 단위로 작성한다. 워크 패키지에 일정을 기술하면 상세한 개발 일정이 수립된다.
  • 빅데이터 구축 프로젝트에서 대부분의 일정은 구축 및 테스트 단계에서 많은 시간이 소요된다.
  • 빅데이터를 구축하면서 나오는 산출물 들을 사용하여 요구
  • 일정 계획 단계에서부터 문서를 만들어 놓는 것이 좋다.

간트 차트

  • 빅데이터 구축 프로젝트 일정 관리를 일목요연하게 보여주는 간트차트
  • 작업 분할 구조의 각 활동을 시간 군서대로 나열
  • 빅데이터 구축의 여러 활동을 일목요연하게 나타낼 수 있고 모두가 이해하기 편하다.

인력 계획

프로젝트에 필요한 인력에 대한 분야, 기술 수준, 인력수, 인력 확보, 인력 투입 계획 기술.

일반적인 프로젝트와 동일하게 빅데이터 프로젝트에서도 조직을 구성하고 조직별 역할을 정해야 한다.

프로젝트 조직이 구성되었으면 파트별 역할 및 책임을 명확히 정의한다.

담당자 역할 및 책임
홍길동  실시간 시스템 구축을 위한 요구사항 정의, 사업관리, 하드웨어, 소프트웨어 솔루션 관리
이몽룡 실시간 시스템 구축 수행 PM, 아키텍쳐 관리, 품질관리, 요구사항 관리, 테스트 수행
구분 설명 상주/비상주
프로젝트 PM 프로젝트 전체 일정 및 산출물 총괄 전체 기간 상주
데이터 처리 엔지니어 데이터 수집/정체/처리 작업 및 데이터 마트 개발 업무 담당 투입 기간 상주
데이터 분석가 데이터 탐색 및 모델링 업무, 분석 내용 검증 업무 담당 투입 기간 상주
화면 개발자 데이터 분석 결과에 대해 화면으로 개발하는 업무 담당 투입 기간 상주
IT 지원 담당자 데이터 수집 시 인프라(하드웨어/소프트웨어)지원 업무 비상주

데이터 수집 설계

빅데이터 구축 프로젝트 계획이 완료되었으면 데이터 수집 설계를 할 차례다.

가장 중요하게 고민해야할 부분은 어떤 What 데이터를 어디서 where 어떻게 how 수집하느냐를 결정하는 것이다.

데이터를 보유하고 있는 원천 시스템에 따라서 데이터의 생성 주기가 천차 만별이고 그 양과 개수가 매우 상이하고 복잡하다. 데이터 수집은 일반적으로 다음의 과정을 거친다.

 


기초 데이터 수집(핵심 단계)

  • 원천 시스템으로 부터 빅데이터 분석에 필요한 자료를 수집하는 활동

수집 계획 수립

보안성 검토

  • 수집된 데이터가 법규(개인정보보호법)에 문제가 없는지 점검

데이터 유형

정형 Excel,csv 등 1회/1주일
반정형 HTML,XML,JSON,RSS 1회/1일
비정형 동영상, 이미지, SNS 1회/1시간

 

최근에는 정보보안이 엄격해져 데이터수집에 따른 절차가 매우 복잡하고 까다롭다.

연락처, 상세 주소와 같은 개인정보가 포함된 데이터는 어떤 법규에서 규정하고 있는지 검토하는 것이 좋다.

 

데이터 처리 설계

  • 비정형 데이터 처리
  • 정형 데이터 처리 : 해당 데이터 형식을 다루고 처리할 수 있는 전용 프로그램을 개발 

플랫폼 구축

설계가 완료되면 개발자들에게 개발 설계서를 나누어 주고 개발 요청을 한다.

 

프로젝트가 크든 작든 프로젝트 자체를 관리하는 사람과 조직이 준비되어야 한다.

프로젝트 관리 조직 PMO(Project Management Organization) 관리 조직제 의해 통제가 이루어져야 한다.

PMO가 관리하는 3가지 핵심과제(일정관리, 리스크 관리, 결함 관리)

 

'빅데이터UI전문가' 카테고리의 다른 글

설치방법  (0) 2021.09.06