빅데이터 시대가 도래하면서 데이터과학자가 주목받고 있다. 데이터과학자는 데이터 분석은 물론 IT 기술 접목을 통해 데이터를 탐색, 정제하고 가치를 찾는 역할까지 담당하게 되므로, 데이터에 토대를 둔 전반적 프로세스를 총괄할 수 있는 능력이 요구된다. 이 책에서는 잠재적인 데이터과학자로서 전공자들이 갖추어야 할 기본적인 지식을 다루었다. 데이터의 정의에서부터 많은 데이터과학자들의 노력으로 이룩한 데이터과학의 체계 및 절차, 그리고 구체적인 활용 도구 등을 개론 수준에서 전반적으로 살펴보았다.
제 1 장 데이터와 데이터과학
1.1 데이터의 개념과 속성
1.2 데이터과학
제 2 장 데이터의 관리와 분석
2.1 데이터의 수집과 관리
2.2 데이터 분석
제 3 장 데이터의 품질과 표현
3.1 데이터 품질관리
3.2 데이터의 표현
제 4 장 데이터과학의 도구
4.1 빅데이터의 분석도구
4.2 프로그래밍 언어
제 5 장 R 데이터 편집
5.1 기본적 데이터 구조
5.2 새로운 개념의 데이터 구조
제 6 장 R을 이용한 데이터 시각화
6.1 데이터 시각화
6.2 ggplot2 패키지의 활용
제 7 장 Pandas와 NumPy를 이용한 데이터 가공
7.1 파이썬 실행 환경
7.2 데이터 프레임의 생성
7.3 데이터의 선택과 샘플링
7.4 누락 데이터의 처리
7.5 중복 데이터의 제거
7.6 데이터 연산
7.7 정 렬
7.8 그룹과 집계
7.9 데이터 프레임의 병합
7.10 데이터 분석
7.11 NumPy
제 8 장 Matplotlib을 통한 데이터 시각화
8.1 산점도
8.2 서브 플롯
8.3 선 그래프
8.4 막대 그래프
8.5 히스토그램
8.6 상자 그림
8.7 히트맵
8.8 줄기-잎 그림
8.9 오차 막대 그래프
장영재 (집필)
서울대학교 자연과학대학 계산통계학과(이학사) 미국 University of Wisconsin-Madison 통계학과(이학석사, 통계학박사) 한국은행 경제통계국 조사국 차장 현재: 한국방송통신대학교 자연과학대학 통계·데이터과학과 교수
유찬우 (집필)
서울대학교 공과대학 컴퓨터공학부(공학사) 서울대학교 공과대학 전기컴퓨터공학부(컴퓨터공학박사) 라인플러스 Data Science Dev Lead 하나금융융합기술원 Data Science Cell 수석연구원 현재: 한국방송통신대학교 프라임칼리지 첨단공학부 조교수