데이터 분석을 배우고 싶지만 어떻게 시작해야 할지 막막한가요? 또는 Python을 실행할 환경이 마땅치 않아서 고민한 적이 있나요? 그렇다면, 이번 포스팅에서 구글 코랩(Google Colab)과 캐글(Kaggle) API를 활용한 데이터 분석 방법을 상세하게 소개해드리겠습니다. 이 가이드를 끝까지 읽고 따라 하면 여러분도 데이터 분석을 쉽게 시작할 수 있습니다!
1. 구글 코랩(Google Colab)이란?
구글 코랩은 설치 없이 웹에서 Python 코드를 실행할 수 있는 클라우드 기반의 Jupyter Notebook 환경입니다. 주요 특징은 다음과 같습니다.
- 무료 사용 가능: 별도의 비용 없이 Python 환경을 이용할 수 있습니다.
- GPU 및 TPU 지원: 머신러닝과 딥러닝을 실행할 때 유용합니다.
- 구글 드라이브 연동: 파일을 쉽게 저장하고 불러올 수 있습니다.
2. 구글 코랩 시작하기
2.1. 구글 코랩 접속 및 새 노트북 생성
- 구글 계정으로 로그인한 후 Google Colab에 접속합니다.
- 화면 오른쪽 아래의 "새 노트북" 버튼을 클릭합니다.
- 새로운 Python 노트북이 생성되면, 코드 셀에 Python 코드를 입력하고 실행할 수 있습니다.
2.2. 기본적인 Python 코드 실행
코드 셀에 다음과 같이 입력해 보세요.
print("Hello, Google Colab!")
셀 왼쪽의 ▶ 실행 버튼을 클릭하면 결과가 출력됩니다.
3. 캐글(Kaggle) API란?
캐글은 데이터 분석 및 머신러닝 대회를 진행하는 플랫폼으로, 다양한 데이터셋을 제공합니다. 하지만 웹사이트에서 매번 데이터를 다운로드하는 것은 번거로울 수 있습니다. 이를 해결하기 위해 캐글 API를 사용하면 코드 한 줄로 데이터를 다운로드할 수 있습니다.
3.1. 캐글 API 설정 방법
1) 캐글 계정 만들기
- Kaggle 홈페이지에서 계정을 생성합니다.
2) API 키 다운로드
- 캐글 로그인 후 우측 상단 프로필 아이콘을 클릭합니다.
- Settings 페이지로 이동합니다.
- "API" 섹션에서 "Create New Token" 버튼을 클릭합니다.
- kaggle.json 파일이 자동으로 다운로드됩니다.
3) 구글 코랩에 API 키 업로드
- 코랩 왼쪽 사이드바의 파일 아이콘(📁) 클릭
- kaggle.json 파일을 드래그하여 업로드
이제 API를 설정할 차례입니다.
!pip install kaggle # 캐글 라이브러리 설치
import os
os.environ['KAGGLE_CONFIG_DIR'] = '/content' # API 키 저장 경로 설정
!chmod 600 /content/kaggle.json # 보안 설정
이제 캐글 API를 사용할 준비가 완료되었습니다.
4. 캐글 데이터 다운로드 및 분석
4.1. 캐글 데이터 다운로드
캐글 데이터셋을 다운로드하려면 데이터셋 ID를 확인한 후 아래 명령어를 실행하세요.
!kaggle datasets download -d khsamaha/aviation-accident-database-synopses -p /content/aviation_data --unzip
위 코드는 항공기 사고 데이터셋을 다운로드하고 압축을 해제하는 과정입니다.
- -d : 다운로드할 데이터셋의 ID
- -p : 저장할 경로
- --unzip : 압축 해제 옵션
4.2. 데이터 분석 시작하기
데이터가 준비되었으니 Pandas를 활용해 분석을 시작해 봅시다.
import pandas as pd
# 데이터 로드
file_path = '/content/aviation_data/AviationData.csv'
df = pd.read_csv(file_path, encoding='ISO-8859-1')
# 데이터 미리보기
print(df.head())
위 코드의 주요 역할:
- pandas 라이브러리를 사용하여 데이터를 DataFrame 형태로 불러옵니다.
- .read_csv() 함수를 통해 CSV 파일을 로드합니다.
- .head() 함수를 이용해 데이터의 첫 5개 행을 출력합니다.
이제 기본적인 데이터 분석이 가능합니다!
5. 정리: 데이터 분석의 첫걸음
오늘은 구글 코랩과 캐글 API를 활용하여 데이터를 다운로드하고 분석하는 방법을 알아보았습니다. 정리하면:
✅ 구글 코랩을 활용하면 설치 없이 Python을 실행할 수 있다.
✅ 캐글 API를 사용하면 간편하게 데이터셋을 다운로드할 수 있다.
✅ Pandas를 활용하여 데이터를 로드하고 분석할 수 있다.
이제 직접 데이터를 다운로드하고 분석해보세요! 다음 포스팅에서는 더욱 심화된 데이터 분석 기법을 다뤄보겠습니다. 🚀
'IT' 카테고리의 다른 글
결혼과 출산에 대한 인식 변화: 데이터 분석 및 시각화 (0) | 2025.02.28 |
---|---|
파이썬 지도 시각화 라이브러리 완벽 가이드: Folium부터 GeoPandas까지 (0) | 2025.02.28 |
워드프레스 차일드 테마 만들기: 초보자도 쉽게 따라하는 방법 (0) | 2025.02.28 |
파이토치 설치: 기초부터 활용 사례까지 (0) | 2025.02.28 |
스마트폰 VPN 무료로 쓰는 법부터 유료 추천까지! VPN 사용 이유 완벽 정리 (0) | 2025.02.28 |