데이터 분석이란? 어디에, 어떻게, 왜 사용하나요?
1.데이터 분석을 위한 언어 선택
정말 정말 기초적인 부분부터 이야기하듯 서론을 시작해보려 합니다.
영화 같은 미디어에서 자주 보이는 해커를 이미지 해보면 항상 컴퓨터에 검은 화면을 띄우고 뭔가 알 수 없는 영어들을 적어가고 있습니다. 실제로는 그렇게 빨리 작성한다거나 한 번에 결과물이 나오는 작업은 아니지만... 아무튼! 그들이 작성하고 있는 것이 바로 프로그래밍 언어입니다.
프로그래밍 언어에는 흔히들 들어보셨을 C, Java, R, Python 등부터 코볼, 그루비,스칼라 등 전공생이 아니라면 듣기는 어려웠을 언어들까지 수학적 알고리즘에서 비롯된 언어들이 존재합니다. 그중에서도 Python이라는 우리가 사용할 언어는 다소 배포가 파편화되었다는 단점이 있지만 초보자 친화적인 언어로 교육 자료가 방대하고 빠르게 개발하기에 편리한 언어입니다.
2.데이터 분석의 정의와 활용
우리는 이제 데이터 분석을 하기 위한 언어를 선택했습니다. 그런데... 데이터 분석을 한다고는 하지만 데이터를 분석한다는 게 정확히 무슨 뜻일까요? 이해를 위해 추상적인 예시 하나를 들어보겠습니다. 여기 사이버 주민 A가 있습니다. 우리가 21세기에 살고 있듯이 A는 정보의 홍수라는 시기에 살고 있습니다. 이 시대에는 과거와 달리 전 세계적으로 수맥이 거나하게 터져 데이터라는 강이 거세게 흐르는 환경이 특징입니다.
A는 이 시대에서 살아남기 위해 음료수 장사를 하려 합니다. 여러가지 숫자나 사실 등 불순물이 섞인 데이터 강의 상류와 하류에서 물을 잔뜩 퍼온 A는 음료수를 만들기 전 물을 깨끗하게 정제해 마실 수 있는 물로 바꾸기 위해 노력합니다. 불순물을 걸러내기 위해 체를 사용해보기도 하고 화학적인 가루를 사용해 물을 변환시켜 드디어 깨끗한 물을 얻을 수 있게 되었습니다. A는 깨끗한 물을 한 모금 마셔보고는 생각했습니다. 상류에서 퍼온 물은 단맛이 나니 과일농축액과 섞어 과일주스를 만들고 하류에서 퍼온 물은 산미가 있는 것이 커피가루를 갈아 커피를 내리는 데 사용하면 되겠다!
조금 추상적이고 대략적인 예시였지만 사이버 주민 A의 행동이 이해가 되시나요? 정리해서 말하자면 데이터 분석이란 단순한 숫자나 사실의 나열인 데이터에서 유용하게 활용할 수 있는 데이터인 정보를 추출하기 위해 변환, 정제, 전처리 등의 과정을 거쳐 모델링한 뒤 결론을 추출하는 전 과정을 의미합니다. 데이터 분석을 통해 기업 등에서는 의사결정을 하거나 사업의 객관적인 자료로써 예측을 하고 전략을 개선하는 데 사용합니다.
금융업에서 대출 상품이나 카드 혜택 등을 고안하거나 의료, 마케팅 등의 업종에서 동향을 예측하는데 사용되는 등 중요하게 사용되는 것을 알 수 있죠.
3.데이터 분석 기법
실제 활용되어야 한다는 점에서 데이터 분석의 전반적인 과정은 문제를 정의하는 것부터 시작하며, 필요한 데이터를 수집하여 전처리한 뒤 이것을 모델링하고, 모델이 잘 만들어졌는지 검증 및 모델을 수정하는 튜닝으로 진행됩니다. Python은 데이터 분석 및 머신러닝 분야에서 보편적으로 사용되며, 주피터 노트북을 따로 설치해 사용할 수도 있지만 별도의 프로그램 설치 없이 colab이라는 구글 제공의 소프트웨어를 통해 간단하게 실습이 가능합니다.
.
.
.
다음시간에는 데이터 수집을 위한 간단한 Python 활용을 해볼게요:D
'Python' 카테고리의 다른 글
[Python] 1. 파이썬 시작하기 : 데이터 분석을 하기위해 (0) | 2024.06.22 |
---|