1. 데이터 리터러시 갖추기
1-1 세상을 바꾸고 있는 데이터 사이언스
- Data 와 Computer와 연관이 있을 것 같지만 아니다!
- 데이터는 컴퓨터, 스마트폰이 있기 전부터 있었다 [ ex) 초등학생들의 수학 점수들 ]
- 데이터 사이언스 = 데이터를 다루는 일
- 소프트웨어 = 데이터를 모으는 1등 공신!
- 그래서 21세기에 데이터 사이언스가 뜨는 이유다!
1-2 데이터 사이언스 이해하기
프로그래밍 + 수학과 통계 + 특정 분야 전문성 = 데이터 사이언스
데이터 사이언티스트 : 가치를 더할 수 있는 일이 무엇인지 찾아내고 데이터를 이용해서 위 문제를 해결하는 것이다
1-3 데이터 사이언스에 대한 오해
오해 1 : 데이터 사이언스의 핵심은 인공지능, 딥러닝 이다
=> 인공지능, 딥러닝은 피라미드 데이터 사이언스의 최종 단계이다
오해 2 : 데이터 사이언티스트는 왠지 하루 종일 컴퓨터랑 수학만 하는 사람일 것 같다
데이터 사이언스는 다순 기술 분야는 아니다!!
=> 문제 찾기, 인사이트, 커뮤니케이션 역량도 필요하기 때문!
1-4 다양한 산업에서 활용되는 데이터 사이언스
데이터 사이언스가 산업 곳곳에서 활용되고 있습니다. 다 나열하려면 아마 끝도 없을 텐데요. 대표적인 사례들을 몇 가지 소개해 드릴게요. 우리 주변에서 데이터 사이언스가 어떻게 활용될 수 있는지 감을 익힐 수 있을 거예요. 워낙 다양한 사례가 있기 때문에, 몇 가지 유형으로 나눠서 살펴보겠습니다.
추천
먼저, 추천 시스템입니다. 내가 보고 싶던 영상, 혹은 찾고 싶던 상품이 눈앞에 딱 나와서 신기했던 경험 다들 있으실 거예요. 때로는 내가 전혀 생각하지 못한, 맘에 쏙 드는 상품을 추천을 받을 때도 있는데요. 요즘은 온라인 쇼핑몰이든 소셜 미디어든, 어딜 가도 너무 많은 제품과 콘텐츠가 있기 때문에, 어떤 게 있는지 다 파악하기도 어렵고, 필터나 검색으로 원하는 걸 찾기도 꽤 어렵습니다.
여기에 데이터 사이언스가 활용되면서, 사람들이 좋아할 만한 걸 자동으로 추천해 주고 있어요. 이미 다양한 산업에서 이런 추천 시스템이 활용되고 있습니다. 예를 들어, 카드 회사에서는 카드 사용 내역을 통해 소비자를 파악하고, 맞춤형 카드 혜택을 제공해 줄 수 있고요. 데이트 매칭 플랫폼에서는 나와 성향이 잘 맞을 것 같은 사람을 추천해 주기도 합니다. 교육 업계에서도 학생의 수준에 맞게 학습이 이루어질 수 있도록, 적당한 난이도의 문제 혹은 틀리기 쉬운 문제를 추천해 주기도 해요. 이것 말고도 활용 가능성이 정말 무궁무진하겠죠? 추천이 잘 이루어지면, 고객 입장에서는 내가 원하는 선택지를 쉽게 찾아서 좋고, 기업 입장에서는 더 많은 가치를 전달할 수 있으니, 그만큼 기업의 성과도 올라갈 수 있습니다.
예측
다음으로는 예측입니다. '머니볼'이라는 영화를 혹시 보셨을지 모르겠는데요. 한 야구팀에서 여러 선수들의 경기 데이터를 분석하고, 팀에 적합한 선수를 예측해서 찾아내는 내용이 나옵니다. 기존에는 사람의 직관적인 판단을 통해 이루어지던 작업을 데이터 분석으로 대체해서, 더 좋은 성적을 내는 이야기를 다루고 있어요. 아직 이 영화를 안 보신 분들은 한번 보시는 것도 좋을 것 같네요.
이런 식으로 데이터 사이언스를 활용해서 선수의 성과를 예측할 수도 있고, 또 투자를 위해 기업의 주가를 예측할 수도 있을 거고요. 부동산이나 집값, 혹은 제품의 수요를 예측할 수도 있습니다. 제품의 수요를 예측할 수 있으면 재고나 물류 관리에 많은 도움이 되겠죠? 이런 식으로 데이터를 활용해서 다양한 영역에 대한 예측이 이루어지고 있습니다.
지금 말씀드린 건 대부분 특정 숫자값으로 나오는 수치 예측인데요. 카테고리 값을 예측해서 어떤 것들을 분류하는 작업에 활용할 수도 있습니다.
예를 들어, 제조업에서는 생산 과정에서 잘못 만들어진 제품들이 생길 수 있고, 이런 제품이 시중에 나가지 않게 미리 걸러내야 합니다. 완성품들을 두 가지 카테고리, 양품과 불량품으로 분류해야 하는 거죠. 데이터 사이언스를 활용하면, 이런 품질 관리 작업을 사람이 직접 하지 않고 기계가 할 수 있게 해 줘요.
비슷한 방식으로, 제품이 아니라 사람의 건강 데이터를 분석해서 질병을 조기에 예측하고 치료 계획을 수립할 수도 있습니다. 사람들의 건강 검사 데이터를 보고, 특정 질병의 위험이 있는 사람과 없는 사람으로 분류해 줄 수 있겠죠.
하나만 더 예시를 들어보자면, 손으로 직접 쓴 숫자 이미지를 보고, 이게 어떤 숫자인지 찾아내는 것도 분류에 해당합니다. 각 이미지를 0부터 9까지의 숫자 중 하나로 분류하는 거죠. 신용카드나 신분증의 사진을 찍으면 스마트폰에 정보가 자동으로 채워지는 게 다 이런 기술을 활용한 겁니다.
생성
마지막으로, 생성이라는 분야에 대해 설명드리겠습니다. 요즘 챗GPT부터 시작해서, 글이나 이미지 같은 것들을 생성해 주는 '생성형 인공 지능'이 많아지고 있습니다. 오디오나 영상도 만들어 주고, 데이터 자체를 생성해 주기도 하는데요. 워낙 강력한 도구이기 때문에 거의 모든 산업에서, 생성형 인공 지능을 잘 활용하기 위해 많은 시도들이 이루어지고 있고, 성공적인 사례들도 많이 나오고 있습니다.
정리
데이터 사이언스의 다양한 활용 사례를 살펴봤는데요. 예전에는 이런 일을 다 사람이 직접 했다면, 이제는 데이터 사이언스를 통해 알고리즘이 그 작업을 대신하고 있습니다. 사람이 하기에는 너무 반복이 많고 지루한 일, 혹은 사람이 판단하기 어려운 일들을 데이터 사이언스가 해결해 주고 있는 거예요.
데이터 사이언스가 산업과 실생활에 적용될 부분은 아직 무궁무진합니다. 여러분이 관심을 두고 있는 산업이나 업계에서는 현재 어떤 식으로 데이터 사이언스를 활용하고 있는지, 그리고 앞으로 어떤 활용 가능성이 있을지도 한번 살펴보세요!
이번 레슨은 어땠나요?
1-5 데이터 리터러시란?
일상 속의 데이터 사이언스
이전 레슨에서 데이터 사이언스가 어떻게 활용되고 있는지를 살펴봤습니다. '산업'이라고 얘기하니까 나와는 우리 일상 생활과는 거리가 있는 것처럼 느껴질 수 있는데요.
사실 우리 일상도 자세히 살펴보면 데이터로 가득 차 있습니다. 뉴스에서 접하는 통계, 기업 보고서의 그래프와 차트, 소셜 미디어의 여론조사 결과까지, 데이터는 우리 곁에 항상 존재해요. 이렇게 데이터가 넘쳐나는 시대에 데이터를 올바르게 읽고, 해석하고, 활용하는 능력이 더욱 중요해지고 있습니다.
데이터 리터리시
'데이터 리터러시'라는 말, 들어보셨나요? 원래 리터러시라고 하면, '글을 읽고 쓸 줄 아는 능력'을 말하는데요. 이제는 글만큼이나 우리 주변에 데이터가 많아졌기 때문에 데이터 리터러시를 갖추는 게 필요하다는 얘기가 많이 나오는 거죠.
데이터 리터러시를 갖춘다는 게 뭔지 잠깐 살펴봅시다. 일반적으로 리터러시를 갖춘다고 했을 때, 단순히 글을 소리내어 읽을 수 있고 각 단어가 무슨 의미인지 아는 것만으로는 충분하지 않은데요. 문학적인 표현이나 이야기의 숨은 의도를 파악할 줄 알거나, 글의 논리를 파악하고 주장이 타당한지 판단하는 것도 때로는 필요하죠.
데이터 리터러시도 비슷합니다. 단순히 데이터를 읽는 것을 넘어서, 데이터가 어떻게 수집되고 변형되는지, 최종적으로는 어떤 결과물로 표현되었는지 등을 종합적으로 이해하는 게 필요해요. 그랬을 때 데이터에서 의미 있는 인사이트를 얻을 수 있기도 하고, 또 반대로 데이터 분석 결과가 조작되거나 편향되지는 않았는지 파악할 수 있기도 하죠.
내 주변에 있는 수많은 데이터들, 그리고 데이터를 기반으로 한 주장들을 단순히 있는 그대로 받아들이는 것이 아니라, 다각도로 파악하고 활용하고 해석하는 것이 바로 '데이터 리터러시'인 거죠. 데이터를 잘 이해하고 나면, 주변에 많은 것들이 새롭게 보이게 될 겁니다.
데이터 기반 의사 결정
데이터 리터러시는 우리의 의사 결정에도 큰 영향을 미칩니다. 가깝게는 쇼핑을 할 때 비용을 어떻게 지출하면 좋을지와 같은 일상적 선택부터, 기업의 전략이나 정부 정책까지 데이터는 여러 의사 결정의 토대가 되기 때문이에요. 직관이나 주관적 판단 대신 데이터에서 얻은 객관적 증거를 바탕으로 의사 결정을 내리는 겁니다.
정리
정리하자면, 데이터 리터러시는 단순한 기술 이상의 것을 의미합니다. 복잡한 문제를 데이터 사이언스적인 사고로 바라보고, 데이터를 기반으로 소통하고 협업하는 종합적 역량이에요. 4차 산업혁명 시대, 이제 데이터 리터러시는 우리에게 선택이 아닌 필수가 되었어요. 데이터의 힘을 이해하고 활용할 때, 우리는 더 나은 의사결정자가 되고, 더 가치 있는 통찰을 얻을 수 있을 거예요. 이번 토픽에서 그 방법과 큰 그림을 하나씩 알려드릴 예정이니, 끝까지 잘 따라와 주시길 바랍니다!
2. 데이터 사이언스 미리보기
2-1 데이터 사이언스 분야의 직무들
데이터 엔지니어 [백엔드 엔지니어]
: 많은 양의 데이터를 효과적으로 처리하는 직군
=> 필요 능력 : 데이터 베이스, 빅데이터 처리 기술
=> 데이터가 적은 기업은 백엔드 엔지니어가 위 일을 함
데이터 애널리스트
: 데이터를 활용해서 직관적 분석을 하는 직군
=> SQL 언어로 필요한 데이터를 추출해서 python 으로 다양한 각도로 분석
=> 그리고 발견한 인사이트를 다른 사람들에게 전달
데이터 사이언티스트
: 통계나 수학적 기법을 사용해서 머신러닝을 이용해서 미래 예측
=> python
=> 머신러닝 기법들을 서비스에 도입할 방법에 대해 고민 [ex) 유튜브 알고리즘]
머신러닝 엔지니어 [AI 엔지니어]
: 백엔드 엔지니어가 머신러닝을 배우면 머신러닝 엔지니어
=> 실제 서비스에 머신러닝 기법을 녹여냄
머신러닝 리서처
: AI에 진심인 회사에 있는 직군
=> 수학과 통계에 깊이가 있는 석사, 박사
2-2 머신 러닝과 딥 러닝 간단히 이해하기
머신 러닝과 딥 러닝
요즘 데이터 사이언스에 대한 소식을 접하다 보면 머신 러닝이나 딥 러닝이라는 용어를 정말 자주 듣게 되는데요. 이게 뭔지 어렴풋이는 알겠지만 막상 제대로 설명을 하려면 좀 막막한 느낌이 드는 분들도 많으실 거예요.
그래서 이번에는 머신 러닝과 딥 러닝에 대해 간단하게만 설명을 드리려고 해요. 물론 이후 강의에서 좀 더 자세한 내용들이 나오겠지만, 이번 레슨에서는 데이터 사이언스 분야에 입문하는 지금 시점에 필요한 정도만 간단히 알아볼게요.
머신 러닝이란?
먼저 '머신 러닝'입니다. 한글로 번역하면 '기계 학습'이죠. 여기서 기계는 컴퓨터를 의미해요. 컴퓨터가 학습을 한다는 건데요. 보통 컴퓨터는 사람이 알려 준 방법에 의해서 움직입니다. 웹사이트를 만들거나 게임 같은 걸 할 때도, 유저가 어떤 행동을 하면 어떻게 움직여야 하는지 이런 규칙을 사람이 다 미리 프로그래밍해서 정해 두게 되죠. 이게 일반적으로 컴퓨터가 동작하는 방식인데, 머신 러닝은 조금 다릅니다.
바로 컴퓨터가 데이터를 기반으로 스스로 학습을 해서 방법을 찾아낸다는 건데요. 예를 들어, '빨간색이고 둥글면 사과', '노란색이고 길쭉하면 바나나' 이런 식으로 사람이 규칙을 알려주는 게 아니라, 사과 사진 1,000장을 주고 바나나 사진도 1,000장을 주어서 학습시킨 뒤, 새로운 사진을 하나 주었을 때 이게 사과인지 바나나인지 컴퓨터가 스스로 알아내는 겁니다. 이때 사람이 구분 기준을 직접 고민하고 생각할 필요 없이, 그냥 데이터를 컴퓨터에게 전달해 주면 돼요. 이런 원리를 통해 사진을 분류하는 것뿐 아니라 음성도 인식하고 스팸 메일도 걸러 내고 하는 거죠.
어떻게 그게 가능한지는 지금 당장은 모르셔도 괜찮습니다. 이후에 머신 러닝에 대해 본격적으로 배울 때 자세히 알려드릴게요.
딥 러닝이란?
그럼 딥 러닝은 뭐가 다를까요? 사실 딥 러닝도 머신 러닝의 한 분야로, 컴퓨터가 데이터 기반으로 학습을 해서 원래 사람이 하던 일을 대신해 냅니다. 딥 러닝은 우리의 뇌 구조를 모방해서 만든 알고리즘을 통해 학습을 하는데요. 뇌에는 '뉴런'이라는 신경 세포가 있고, 수백억 개의 뉴런들이 서로 연결되어 전기 신호를 주고받습니다. 딥 러닝에서는 뉴런과 비슷한 역할을 하는 구조를 여러 층으로 깊게 쌓아 올려서 학습을 진행합니다. 그래서 '딥 러닝'이라는 이름이 붙은 거예요.
머신 러닝 분야가 점점 발전하면서 사람의 말소리를 인식한다거나, 영상에서 물체를 인식한다거나, 사람과 대화를 한다거나 이런 식으로 점점 더 어렵고 복잡한 문제에 도전하게 되었는데요. 그러면서 일반적인 머신 러닝보다 더 복잡한 방법들을 시도했다고 생각하면 됩니다. 복잡한 만큼 훨씬 더 많은 컴퓨터 자원과 시간을 필요로 하기도 해요.
딥 러닝에 대해서도 조금 더 자세한 내용은 이후 딥 러닝 토픽들에서 배우실 수 있습니다. 일단은 딥 러닝도 머신 러닝의 일종이고, 좀 더 복잡한 방식으로 더 어려운 문제를 푸는 거라는 정도만 이해하셔도 괜찮습니다.
3. 데이터 사이언스 성장 가이드
3-1 데이터 사이언스를 위한 프로그래밍 언어 추천
=> R보단 Python 배우는 게 좋음!
3-2 어디서부터 시작하면 되나요?
모두에게 필요한 데이터 사이언스
데이터 사이언스는 여러 분야에 접목하기 좋습니다. 다양한 업종의 스타트업이나 대기업뿐 아니라, 자영업, 자기 계발, 취미 활동 등에도 데이터 사이언스를 활용할 수 있어요. 그리고 직무별로 보더라도, 요즘은 꼭 데이터 분석가나 데이터 사이언티스트가 아니더라도, 마케터, PM, 기획자, 디자이너 등 다양한 직무에서 모두 데이터 역량을 필요로 합니다. 예를 들어 좋은 UX와 UI 디자인을 만들고 싶을 때, 유저 데이터를 확인하고 다양한 방법으로 분석을 하고 데이터 기반 의사 결정을 내리는 게 이제는 많은 곳에서 보편적으로 추구하는 방식이 되었습니다.
사실상 모든 분야에서 데이터를 다루고 있고, 상상력을 발휘하기에 따라 어디든 접목해서 의미 있는 가치를 만들 수 있는 거죠.
추천하는 공부 순서
데이터 사이언스는 방대한 분야이고 정말 많은 주제가 있기 때문에, 순차적으로 학습을 하는 게 중요합니다. 딥 러닝이나 생성형 인공 지능 같은 주제로 바로 들어갈 수도 있겠지만, 추천해 드리지 않습니다. 데이터를 올바르게 읽고 이해할 수 있는 '데이터 리터러시'를 갖추는 것부터 시작해서, 점차 역량과 스킬을 쌓고 데이터 분석가나 데이터 사이언티스트 같은 커리어로 나아가는 걸 추천드려요. 데이터 리터러시는 데이터 분야 커리어를 준비하는 분과 그렇지 않은 분 모두에게 해당되는 공통 역량이기 때문입니다.
다음 스텝은?
데이터 리터러시를 갖추는 것의 첫 발걸음은, 아주 작은 데이터라도 직접 만져 보는 겁니다. 내가 가진 데이터를 원하는 대로 바꿔 보기도 하고, 탐색도 해 보는 거예요. 데이터를 특정 값들끼리 모아서 볼 수도 있고, 정렬을 해 볼 수도 있고, 그래프를 그려서 보기 좋게 시각화를 해 볼 수도 있을 거고요. 데이터를 어떻게 다루고 다듬는지에 따라, 원래 보이지 않았던 새로운 인사이트를 얻을 수도 있죠.
다음으로 이어지는 코드잇 토픽에서 이런 부분들을 하나씩 차근차근 배워 볼 수 있습니다. 저희가 공부와 실습에 필요한 데이터들을 다 제공해 드릴 예정이지만, 데이터를 구해서 따로 연습해 보셔도 좋습니다. 카드사에서 제공하는, 나의 신용카드 사용 내역일 수도 있고요. 내가 관심을 갖는 스포츠나 영화 등에 대한 데이터도 좋습니다. 인터넷에 검색하면 어렵지 않게 찾을 수 있을 거예요. 그러면 흥미도 생기고, 실제 내 주변의 데이터를 바라보고 해석하는 연습이 자연스럽게 될 겁니다.
커리어 목표
기본적인 데이터 리터러시를 갖추고 나면, 그 이후로는 원하는 주제와 스킬을 선택해서 쌓아가면 됩니다. 데이터 분석 역량을 더 갖추고 싶은 분들은 통계 분야를 더 공부해 보거나, 장바구니 분석이나 클러스터 분석 같은 분석 방법에 대해 더 알아보시는 것도 좋고요. 인터넷이나 데이터베이스에서 원하는 데이터를 구할 수 있도록 웹 크롤링이나 SQL 같은 스킬을 배우시는 것도 좋습니다.
머신 러닝이나 딥 러닝 등의 인공 지능 관련 주제로 나아가실 분들은, 그에 필요한 수학이나 알고리즘이나 실제 코드로 구현하는 방법들에 대해 배우시면 됩니다.
코드잇에서 이를 위한 다양한 토픽들을 준비하고, 로드맵으로도 만들어 두었으니까요. 한 단계씩 성장하며 여러분의 목표를 성취하는 여정에 코드잇이 함께 하겠습니다!
'데이터 사이언스 > 인강' 카테고리의 다른 글
[코드잇] 데이터 사이언스 Toolkit 4. pandas (0) | 2024.08.19 |
---|---|
[코드잇] 데이터 사이언스 Toolkit 3. Matplotlib (0) | 2024.08.07 |
[코드잇] 데이터 사이언스 Toolkit 2. Numpy (0) | 2024.08.07 |
[코드잇] 기초 통계와 데이터 시각화 (0) | 2024.08.05 |
[코드잇] 데이터 사이언스 Toolkit 1. Jupyter Notebook (0) | 2024.07.29 |