1. 토픽 소개
1-1 토픽 소개
통계 : 어떤 상황을 쉽게 이해할 수 있도록 숫자로 정리하는 것
=> 종류 2가지 : 기술 통계, 추론 통계
시각화
seabron : 파이썬 라이브러리
=> 통계 기반 데이터 시각화 툴
1-2 수강 가이드
선이수 지식 안내
이번 토픽에서는 파이썬이라는 프로그래밍 언어를 사용합니다. 아직 파이썬을 써 본 적 없다면 [Python 기초]를 공부해 보세요! 그리고 [데이터 사이언스 Toolkit] 토픽을 통해 NumPy, pandas, Matplotlib 등 데이터 분석에 필요한 툴들의 사용법을 익힌 뒤 이번 토픽을 수강하는 것을 추천합니다.
개발 환경
이번 토픽에서는 아래와 같은 프로그램을 사용합니다. 여러분의 PC에서 직접 실습해 보고 싶다면 설치 가이드를 참고해서 프로그램을 설치해 주세요!
Anaconda(Windows 설치 가이드, macOS 설치 가이드)
Anaconda를 설치하면 Jupyter Notebook, NumPy, pandas, Matplotlib 등 데이터 사이언스를 할 때 주로 사용되는 툴들이 함께 설치됩니다. 이번 토픽에서는 23.03-0 버전을 사용했습니다.
라이브러리
이번 토픽 영상 레슨들에서 사용된 라이브러리의 버전은 아래와 같습니다. 여러분의 PC에 설치된 라이브러리 버전이 더 낮거나 높다면 실습 결과가 조금 달라질 수 있습니다.
NumPy 1.26.4
pandas 2.1.4
Matplotlib 3.8.0
seaborn 0.12.2
이미 Anaconda가 설치되어 있는 경우에는, Jupyter Notebook에서 아래와 같은 코드를 실행해서 conda와 관련 패키지들을 최신 버전으로 업데이트해 보세요! 시간이 몇 분 정도 걸릴 수 있습니다.
!conda update conda -y
!conda update --all -y
데이터셋
이번 토픽에서 사용하는 데이터는 아래와 같습니다. 미리 다운로드해 두셔도 좋고, 데이터를 처음 사용하는 레슨에서 다운로드하셔도 괜찮습니다. 다운로드 링크는 그때그때 다시 한번 안내드릴 예정이에요.
2. 통계 기본 상식과 그래프
2-1 통계 기본 상식
- 통계 : 비교 분석
- 평균 : 데이터 합계 / 데이터 갯수
- 중간값 : 전체 데이터의 중간값 (홀수와 짝수가 다름)
- 최솟값
- 최댓값
- 1사분위수 : Q1
- 2사분위수 : Q2, 중간값
- 3사분위수 : Q3
- 4사 분위수 : Q4, 최댓값
- 수치형 데이터 : 숫자
- 범주형 데이터 : 문자
2-2 평균 vs 중간값
중간값 사용하기 좋은 경우
: 일반적인 데이터와 다른 튀는 값이 있는 경우
ex)
2-3 사분위수 계산하기
이번 챕터의 첫 번째 레슨에서 1사분위수, 3사분위수 등을 계산하는 방법은 여러 가지가 있다고 말씀드렸는데요. 이번 레슨에서는 NumPy와 pandas에서 기본적으로 사용하는 계산 방식에 대해 알아보겠습니다. 수식을 정확히 몰라도 코드 몇 줄로 간단하게 계산할 수 있으니까, 이번 노트는 그냥 한번 가볍게 읽어 보세요!
일단 아래와 같이 9명의 영어 시험 점수가 있다고 합시다. 여기서 중간값(Q2)은 딱 가운데에 있는 73인데요.
이어서 1사분위수와 3사분위수도 구해 볼 건데, 점수들을 중간값을 기준으로 둘로 나눠 볼 겁니다. 아래 이미지처럼 첫 번째 값부터 중간값까지, 중간값부터 가장 마지막 값까지 이렇게 둘로 나눠진다고 보시면 되는데요. 먼저 왼쪽 묶음의 중간값은 70으로, 이건 50%의 중간, 즉 25% 지점에 해당하는 1사분위수(Q1)라고 볼 수 있습니다. 반대로 오른쪽 묶음의 중간값 85는 75% 지점, 즉 3사분위수(Q3)이 되죠.
중간값 계산하기
그런데 아래와 같이 중간값과 1사분위수, 3사분위수의 위치를 명확하게 정하기 어려운 경우도 있습니다. 이렇게 데이터의 개수가 짝수일 때 중간값을 구하려면 가운데에 있는 두 값의 합을 2로 나눠 주면 된다고 배웠었죠? 그러면 75와 80을 더하고 이걸 다시 2로 나누면 되니까, 여기서 중간값은 77.5가 되는거죠.
1사분위수와 3사분위수 계산하기
다음에는 1사분위수를 구해 볼게요. 먼저 1사분위수가 몇 번 인덱스에 있는 값인지 구해야 하는데요. 데이터에서 특정 퍼센트 지점의 인덱스를 구하려면 데이터의 개수에서 1을 뺀 뒤, 여기에 원하는 숫자를 곱해 주면 됩니다. 지금은 데이터의 개수가 총 8개니까, (8−1)×0.25
를 해서 1.75라는 결과물을 얻을 수 있습니다. 참고로 데이터 개수에서 1을 빼는 건, 파이썬에서 인덱스가 0부터 시작하니까 이를 보정해 주기 위한 거라고 보시면 됩니다!
그런데 0번, 2번, 4번… 이런 정수 값이 아니라 1.75번 인덱스에 있는 숫자를 어떻게 구해야 할까요? 일단 1.75번 인덱스는 1번 인덱스와 2번 인덱스에 있는 값이라고 볼 수 있습니다. 이제 1.75에서 정수 부분 1이 무엇을 의미하는지 알았으니까, 0.75라는 소수 부분을 고려할 차례네요.
쉽게 말하자면, 소수 부분은 두 값 사이에서 정확히 어느 정도 위치에 있는지를 의미한다고 볼 수 있습니다. 0.75를 분수로 표현하면 4분의 3인데요. 즉, 1사분위수는 아래 그림과 같이 60(1번 인덱스)과 74(2번 인덱스) 사이에서 4분의 3 지점에 위치하고 있습니다. 이 값을 구하려면 60×(1−0.75)+74×0.75
를 계산하면 됩니다. 즉, 1사분위수는 70.5가 되죠.마지막으로 3사분위수도 계산해 볼게요. 일단 3사분위수의 인덱스는 (8−1)×0.75
를 해서 5.25가 되고요. 즉, 82(5번 인덱스)와 92(6번 인덱스) 사이에서 4분의 1 지점에 위치한 값이라고 할 수 있습니다. 즉, 82×(1−0.25)+92×0.25 를 계산해 주면, 3사분위수는 84.5가 되죠.2-4 통계 기본 상식 퀴즈
2-5 박스 플롯과 이상점
2-6 스타벅스 음료의 칼로리는?
2-7 히스토그램
2-8 중고차 데이터 분석1
2-9 모집단과 표본
2-10 확률 밀도 함수와 KDE plot
2-11 중고차 데이터 분석 ㅈ
2-12 데이터 분포의 모양
2-13 분산과 표준편차
2-14 데이터 분포 퀴즈
2-15 누적값 계산하기
2-16 코드댓, 성공할 수 있을까?
3. seaborn
3-1 seaborn으로 그래프 그리기
3-2 set_theme() 함수로 그래프 커스터마이징하기
3-3 공유 자전거 데이터 더 살펴보기 1
3-4 데이터 분포 시각화 1
3-5 공유 자전거 데이터 더 살펴보기 2
3-6 데이터 분포 시각화
3-7 이코노미와 비즈니스
3-8 흡연 여부와 보험금
3-9 상관관계 시각화
3-10 피어슨 상관계수와 공분산
3-11 비싼 와인이 더 맛있을까?
3-12 보험료 데이터 분석하기
'데이터 사이언스 > 인강' 카테고리의 다른 글
[코드잇] 데이터 사이언스 Toolkit 4. pandas (0) | 2024.08.19 |
---|---|
[코드잇] 데이터 사이언스 Toolkit 3. Matplotlib (0) | 2024.08.07 |
[코드잇] 데이터 사이언스 Toolkit 2. Numpy (0) | 2024.08.07 |
[코드잇] 데이터 사이언스 Toolkit 1. Jupyter Notebook (0) | 2024.07.29 |
[코드잇] 데이터 사이언스 오버뷰 (1) | 2024.07.29 |