[코드잇] 기초 통계와 데이터 시각화

2024. 8. 5. 17:33·데이터 사이언스/인강

1. 토픽 소개

1-1 토픽 소개

통계 : 어떤 상황을 쉽게 이해할 수 있도록 숫자로 정리하는 것

=> 종류 2가지 : 기술 통계, 추론 통계

 

시각화

seabron : 파이썬 라이브러리

=> 통계 기반 데이터 시각화 툴


1-2 수강 가이드

선이수 지식 안내
이번 토픽에서는 파이썬이라는 프로그래밍 언어를 사용합니다. 아직 파이썬을 써 본 적 없다면 [Python 기초]를 공부해 보세요! 그리고 [데이터 사이언스 Toolkit] 토픽을 통해 NumPy, pandas, Matplotlib 등 데이터 분석에 필요한 툴들의 사용법을 익힌 뒤 이번 토픽을 수강하는 것을 추천합니다.

개발 환경
이번 토픽에서는 아래와 같은 프로그램을 사용합니다. 여러분의 PC에서 직접 실습해 보고 싶다면 설치 가이드를 참고해서 프로그램을 설치해 주세요!

Anaconda(Windows 설치 가이드, macOS 설치 가이드)

Anaconda를 설치하면 Jupyter Notebook, NumPy, pandas, Matplotlib 등 데이터 사이언스를 할 때 주로 사용되는 툴들이 함께 설치됩니다. 이번 토픽에서는 23.03-0 버전을 사용했습니다.

라이브러리
이번 토픽 영상 레슨들에서 사용된 라이브러리의 버전은 아래와 같습니다. 여러분의 PC에 설치된 라이브러리 버전이 더 낮거나 높다면 실습 결과가 조금 달라질 수 있습니다.

NumPy 1.26.4
pandas 2.1.4
Matplotlib 3.8.0
seaborn 0.12.2
이미 Anaconda가 설치되어 있는 경우에는, Jupyter Notebook에서 아래와 같은 코드를 실행해서 conda와 관련 패키지들을 최신 버전으로 업데이트해 보세요! 시간이 몇 분 정도 걸릴 수 있습니다.


!conda update conda -y
!conda update --all -y
데이터셋
이번 토픽에서 사용하는 데이터는 아래와 같습니다. 미리 다운로드해 두셔도 좋고, 데이터를 처음 사용하는 레슨에서 다운로드하셔도 괜찮습니다. 다운로드 링크는 그때그때 다시 한번 안내드릴 예정이에요.


2. 통계 기본 상식과 그래프

2-1 통계 기본 상식

  • 통계 : 비교 분석
  • 평균 : 데이터 합계 / 데이터 갯수
  • 중간값 : 전체 데이터의 중간값 (홀수와 짝수가 다름)
  • 최솟값
  • 최댓값
  • 1사분위수 : Q1
  • 2사분위수 : Q2, 중간값
  • 3사분위수 : Q3
  • 4사 분위수 : Q4, 최댓값

  • 수치형 데이터 : 숫자
  • 범주형 데이터 : 문자

2-2 평균 vs 중간값

중간값 사용하기 좋은 경우

: 일반적인 데이터와 다른 튀는 값이 있는 경우

ex)

 

 

 


2-3 사분위수 계산하기

이번 챕터의 첫 번째 레슨에서 1사분위수, 3사분위수 등을 계산하는 방법은 여러 가지가 있다고 말씀드렸는데요. 이번 레슨에서는 NumPy와 pandas에서 기본적으로 사용하는 계산 방식에 대해 알아보겠습니다. 수식을 정확히 몰라도 코드 몇 줄로 간단하게 계산할 수 있으니까, 이번 노트는 그냥 한번 가볍게 읽어 보세요!

 

일단 아래와 같이 9명의 영어 시험 점수가 있다고 합시다. 여기서 중간값(Q2)은 딱 가운데에 있는 73인데요.

이어서 1사분위수와 3사분위수도 구해 볼 건데, 점수들을 중간값을 기준으로 둘로 나눠 볼 겁니다. 아래 이미지처럼 첫 번째 값부터 중간값까지, 중간값부터 가장 마지막 값까지 이렇게 둘로 나눠진다고 보시면 되는데요. 먼저 왼쪽 묶음의 중간값은 70으로, 이건 50%의 중간, 즉 25% 지점에 해당하는 1사분위수(Q1)라고 볼 수 있습니다. 반대로 오른쪽 묶음의 중간값 85는 75% 지점, 즉 3사분위수(Q3)이 되죠.

중간값 계산하기

 

그런데 아래와 같이 중간값과 1사분위수, 3사분위수의 위치를 명확하게 정하기 어려운 경우도 있습니다. 이렇게 데이터의 개수가 짝수일 때 중간값을 구하려면 가운데에 있는 두 값의 합을 2로 나눠 주면 된다고 배웠었죠? 그러면 75와 80을 더하고 이걸 다시 2로 나누면 되니까, 여기서 중간값은 77.5가 되는거죠.

1사분위수와 3사분위수 계산하기

 

다음에는 1사분위수를 구해 볼게요. 먼저 1사분위수가 몇 번 인덱스에 있는 값인지 구해야 하는데요. 데이터에서 특정 퍼센트 지점의 인덱스를 구하려면 데이터의 개수에서 1을 뺀 뒤, 여기에 원하는 숫자를 곱해 주면 됩니다. 지금은 데이터의 개수가 총 8개니까, (8−1)×0.25(8−1)×0.25를 해서 1.75라는 결과물을 얻을 수 있습니다. 참고로 데이터 개수에서 1을 빼는 건, 파이썬에서 인덱스가 0부터 시작하니까 이를 보정해 주기 위한 거라고 보시면 됩니다!

 

그런데 0번, 2번, 4번… 이런 정수 값이 아니라 1.75번 인덱스에 있는 숫자를 어떻게 구해야 할까요? 일단 1.75번 인덱스는 1번 인덱스와 2번 인덱스에 있는 값이라고 볼 수 있습니다. 이제 1.75에서 정수 부분 1이 무엇을 의미하는지 알았으니까, 0.75라는 소수 부분을 고려할 차례네요.

 

쉽게 말하자면, 소수 부분은 두 값 사이에서 정확히 어느 정도 위치에 있는지를 의미한다고 볼 수 있습니다. 0.75를 분수로 표현하면 4분의 3인데요. 즉, 1사분위수는 아래 그림과 같이 60(1번 인덱스)과 74(2번 인덱스) 사이에서 4분의 3 지점에 위치하고 있습니다. 이 값을 구하려면 60×(1−0.75)+74×0.7560×(1−0.75)+74×0.75를 계산하면 됩니다. 즉, 1사분위수는 70.5가 되죠.

마지막으로 3사분위수도 계산해 볼게요. 일단 3사분위수의 인덱스는 (8−1)×0.75(8−1)×0.75를 해서 5.25가 되고요. 즉, 82(5번 인덱스)와 92(6번 인덱스) 사이에서 4분의 1 지점에 위치한 값이라고 할 수 있습니다. 즉, 82×(1−0.25)+92×0.2582×(1−0.25)+92×0.25를 계산해 주면, 3사분위수는 84.5가 되죠.


2-4 통계 기본 상식 퀴즈

 

 

 

 

 

 


2-5 박스 플롯과 이상점

2-6 스타벅스 음료의 칼로리는?

2-7 히스토그램

2-8 중고차 데이터 분석1

2-9 모집단과 표본

2-10 확률 밀도 함수와 KDE plot

2-11 중고차 데이터 분석 ㅈ

2-12 데이터 분포의 모양

2-13 분산과 표준편차

2-14 데이터 분포 퀴즈

2-15 누적값 계산하기

2-16 코드댓, 성공할 수 있을까?


3. seaborn

3-1 seaborn으로 그래프 그리기

3-2 set_theme() 함수로 그래프 커스터마이징하기

3-3 공유 자전거 데이터 더 살펴보기 1

3-4 데이터 분포 시각화 1

3-5 공유 자전거 데이터 더 살펴보기 2

3-6 데이터 분포 시각화

3-7 이코노미와 비즈니스
3-8 흡연 여부와 보험금
3-9 상관관계 시각화
3-10 피어슨 상관계수와 공분산
3-11 비싼 와인이 더 맛있을까?
3-12 보험료 데이터 분석하기

저작자표시

'데이터 사이언스 > 인강' 카테고리의 다른 글

[코드잇] 데이터 사이언스 Toolkit 4. pandas  (0) 2024.08.19
[코드잇] 데이터 사이언스 Toolkit 3. Matplotlib  (0) 2024.08.07
[코드잇] 데이터 사이언스 Toolkit 2. Numpy  (0) 2024.08.07
[코드잇] 데이터 사이언스 Toolkit 1. Jupyter Notebook  (0) 2024.07.29
[코드잇] 데이터 사이언스 오버뷰  (1) 2024.07.29
'데이터 사이언스/인강' 카테고리의 다른 글
  • [코드잇] 데이터 사이언스 Toolkit 3. Matplotlib
  • [코드잇] 데이터 사이언스 Toolkit 2. Numpy
  • [코드잇] 데이터 사이언스 Toolkit 1. Jupyter Notebook
  • [코드잇] 데이터 사이언스 오버뷰
smile blog
smile blog
건국대 첨단바이오공학부 & 컴퓨터공학부 BT & IT 기술로 희망을 꿈 꿉니당
  • smile blog
    스마일 블로그
    smile blog
  • 전체
    오늘
    어제
    • 분류 전체보기 (816) N
      • 일상 생각들 (2)
      • 학과에 대해 (4)
        • 첨단바이오공학부 (4)
        • 컴퓨터공학부 (0)
      • -------- 프로젝트 -------- (0)
      • [DS] 토이 프로젝트 (1)
      • [Web, Game, XR] 토이 프로젝트 (11)
      • 경진대회 (1)
      • -------- 진로 -------- (0)
      • 생물정보학자 (18)
        • 데이터 과학이란? (0)
        • 되는 방법 (8)
        • 책 추천 (2)
        • 인강 (1)
        • 대학 (2)
        • 회사 (1)
        • 학원 (2)
        • 학회 (2)
      • 디지털 헬스케어 (72)
        • 방법 (8)
        • 생각들 (10)
        • 공부법 (4)
        • 책 추천 (2)
        • 학원 (2)
        • 참고 (2)
        • 대학 (3)
        • 회사 (3)
        • 인강 (2)
        • 게임 엔진들 (1)
        • 게임 프로그래머 개론 (2)
        • 게임 프로그래머 취업 전략 가이드 (7)
        • 취업 서류 (1)
        • 애정하는 게임들 (4)
        • XR 테크니컬 아티스트 (9)
        • 영화, 애니메이션 테크니컬 디렉터 (12)
      • -------- 기초 학문 -------- (0)
      • 생명과학 이야기 (2)
        • 대학 강의 (2)
      • 화학 이야기 (0)
      • 컴퓨터과학 이야기 (0)
      • 통계학 이야기 (0)
      • 수학 이야기 (1)
        • 공학 수학 (1)
      • 영어 이야기 (1)
      • 심리학 이야기 (7)
        • 현대인과 정신건강 (7)
      • -------- 컴퓨터 언어 -------- (0)
      • Python (3)
        • 나도코딩의 파이썬 입문 (1)
        • 파이썬 관련 정보 (1)
      • SQL (0)
      • C 언어 (32)
        • 혼자 공부하는 C언어 요약 (1)
        • [책 정리] 혼자 공부하는 C언어 (31)
      • C++ (33)
        • 명품 C++ 프로그래밍 요약 (1)
        • [책 정리] 명품 C++ 프로그래밍 (27)
        • C++ STL (0)
        • 뇌를 자극하는 C++ STL (5)
      • -------- 생명과학 -------- (0)
      • 생화학 (5)
        • 대학 강의 (5)
      • 분자세포생물학 (3)
        • 대학 강의 (3)
      • 유전자치료공학 (2)
        • 대학 강의 (2)
      • 생명정보학 (5)
        • 대학 강의 (5)
      • 약리학 (2)
        • 대학 강의 (2)
      • -------- 컴퓨터과학 -------- (0)
      • 자료구조와 알고리즘 (8)
        • 자료구조와 알고리즘의 정의 (3)
        • [책 정리] C언어로 쉽게 풀어쓴 자료구조 요약 (1)
        • [인강] 자료구조와 알고리즘 (2)
        • 코딩 테스트 대비하기! (1)
      • 컴퓨터 회로 (0)
      • 컴퓨터 구조 (43)
        • 컴퓨터 구조와 운영체제 요약 (1)
        • ---------------------------------------- (0)
        • [전공 책 정리] 컴퓨터 구조 및 설계 (1)
        • Ch1. 컴퓨터 추상화 및 관련 기술 (8)
        • Ch2. 명령어 : 컴퓨터 언어 (11)
        • Ch3. 컴퓨터 연산 (8)
        • Ch4. 프로세서 (11)
        • Ch5. 메모리 계층구조 (3)
        • Ch6. 병렬 프로세서 : 클라이언트에서 클라우드까지 (0)
      • 시스템 프로그래밍 (15)
        • [책 정리] 시스템 프로그래밍 유닉스 & 리눅스 (0)
        • [인강] 리눅스 시스템 프로그래밍 (2)
        • 리눅스에서 코딩이란? (8)
        • 대학교 강의 정리 (5)
      • 운영체제 (0)
      • 컴퓨터 네트워크 (37)
        • 모두의 네트워크 요약 (1)
        • [책 정리] 모두의 네트워크 (10)
        • ---------------------------------------- (0)
        • [전공 책 정리] 컴퓨터 네트워킹 하향식 접근 8판 (1)
        • Ch1. 컴퓨터 네트워크와 인터넷 (7)
        • Ch2. 애플리케이션 계층 (7)
        • Ch3. 트랜스포트 계층 (8)
        • Ch4. 네트워크 계층 : 데이터 평면 (3)
        • Ch5. 네트워크 계층 : 제어 평면 (0)
        • Ch6. 링크 계층과 근거리 네트워크 (0)
        • Ch7. 무선 및 이동 네트워크 (0)
        • Ch8. 컴퓨터 네트워크 보안 (0)
      • 데이터베이스 (1)
      • -------- 데이터과학 -------- (0)
      • 데이터 사이언스 (8)
        • 인강 (8)
      • 데이터 분석 (2)
        • 인강 (2)
      • 머신러닝 (2)
        • 대학 수업 (2)
      • 인공지능 (11)
        • 대학교 강의 정리 (10)
        • 인공지능 관련 정보 (1)
      • -------- +a -------- (0)
      • Visual Studio Community (7)
        • 설치법 (1)
        • 단축키 (1)
        • 오류 (5)
      • Visual Studio Code (0)
      • 노션 (1)
      • 깃허브 (7)
        • 깃허브 사용법 (5)
        • 유니티, 언리얼 & 깃허브 (1)
        • 깃허브 주의사항 (1)
      • 챗GPT 활용법 (0)
      • 기타 feat. 프로그래밍 (7)
        • 프로그래머로 살아남기 (5)
        • 코딩 vs 프로그래밍 (1)
        • 애플 비전 프로 (1)
      • 메타버스 (5)
      • -------- 예술 -------- (0)
      • 음악 (1)
      • 미술 (0)
      • -------- XR -------- (0)
      • 유니티 이야기 (23)
        • 레트로의 유니티 게임 프로그래밍 에센스 요약 (4)
        • 유니티 관련 정보 (1)
        • 유니티 디버깅 (13)
        • 유니티 인강 (3)
        • 대학교 게임 프로그래밍 강의 (2)
      • 언리얼 이야기 (0)
        • 인생 언리얼 교과서 요약 (0)
      • 컴퓨터 그래픽스 (6)
        • OpenGL (6)
      • 가상현실 & 증강현실 (4)
        • 유니티 vr (4)
      • HCI 와 UI UX (7)
        • [책 정리] HCI 개론 (6)
      • -------- Design -------- (0)
      • 캐릭터 (1)
        • 모델링 (0)
        • 리깅 (1)
      • 포토샵 (3)
      • 3ds Max (7)
      • Maya (9)
        • 블로그 (1)
        • 인강 (6)
        • 대학교 (2)
      • Blender (14)
        • 책 (1)
        • 인강 (7)
        • 기타 (3)
        • 대학교 (3)
      • 아트 작업물들 (2)
      • 에셋 사이트 (1)
      • -------- 건강관리 -------- (0)
      • 건강관리 ft. 정현 (12)
        • 목 디스크 (2)
        • 눈 관리 (2)
        • 일상생활 습관 (6)
        • 일상생활 꿀팁 (2)
        • 사무직 꿀팁 (0)
      • 헬스의 정석 ft. 정현 (28)
        • 헬스와 건강 (8)
        • 헬스 구체화 정보 (6)
        • 헬스 유튜버 (1)
        • 헬스 서적 (1)
        • 도전 바디프로필! (11)
        • 헬스장 패션 (1)
      • -------- etc -------- (0)
      • 진로 관련 잡다한 글들 (34)
        • 진도율 (9)
        • 진로 관련 글들 (15)
        • 학교 강의 관련 글들 (10)
      • 인생 꿀 Tip (23)
        • 컴퓨터 초기 설정 (9)
        • 원격 데스크톱 (1)
        • 노트북 발열 (1)
        • 전자기기 (2)
        • 중고기기 팔기 (1)
        • 아이패드 필기 어플 (1)
        • 에어팟 (1)
        • 커피 (1)
        • 맥북 (1)
        • lg 그램 (1)
        • 검색엔진에서 내 티스토리 검색 (1)
        • hELLO 다크 모드 없애기 (1)
        • 인터넷 연결 문제 (1)
        • 키보드 문제 해결 (1)
      • 유튜브 (3)
      • 청춘 그리고 추억 (1)
      • 인생 계획표 (2)
        • 2024년 2학기 (1)
        • 2024년 여름방학 (0)
        • 2024년 1학기 (0)
        • 2023년 겨울방학 (1)
      • 다양한 글들 (98)
        • C++ STL (6)
        • Win32 API (24)
        • PushPush 게임 (13)
        • 컴퓨터구조 (1)
        • 자료구조와 알고리즘 (50)
        • 게임의 정의 (3)
        • 영상 회사 (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

    • Dream
    • 코딩을 시작한 이유
    • 나를 소개합니다!
    • 블로그 공부법
    • IT & 가치 있는 일들
  • 인기 글

  • 태그

    리눅스
    코드잇
    명령어
    유니티
    리눅스 터미널
    컴퓨터 네트워크
    AI
    인공지능
    알고리즘
    함수
    심리학
    C++
    생물정보학
    데이터과학
    연산자
    포인터
    건국대
    생명공학
    C언어
    의생명공학
    데이터사이언스
    자료구조
    컴퓨터구조
    의생명공학과
    블렌더
    C++ STL
    첨단바이오공학부
    배열
    unity
    스택
  • 최근 댓글

  • hELLO· Designed By정상우.v4.10.3
smile blog
[코드잇] 기초 통계와 데이터 시각화
상단으로

티스토리툴바