Python pandas란?

IT/Python

Python pandas란?

itmeet 2023. 8. 5. 22:00

1. 소개

pandas는 Python에서 데이터 조작과 분석을 위한 강력한 라이브러리로서, 테이블 형태의 데이터를 다루는 데 특화되어 있습니다. pandas는 NumPy와 함께 데이터 과학 분야에서 가장 많이 사용되는 도구 중 하나로, 데이터를 불러오고 필터링하며 변환하고 시각화하는 기능을 제공합니다. 이 보고서에서는 pandas 라이브러리의 주요 기능과 사용법에 대해 설명하고, 예시를 통해 실제 데이터 처리 과정을 살펴보겠습니다.

2. pandas의 주요 기능

DataFrame: 행과 열로 이루어진 테이블 형태의 데이터를 다루기 위한 기본 자료구조로 DataFrame을 제공합니다.
데이터 읽기와 쓰기: CSV, Excel, SQL 등 다양한 데이터 소스에서 데이터를 읽고, CSV, Excel 등으로 데이터를 저장할 수 있습니다.
데이터 조작과 필터링: 데이터를 조작하거나 필터링하여 원하는 형태로 가공할 수 있습니다.
그룹화와 집계: 데이터를 그룹화하고 집계하여 통계적 분석을 수행할 수 있습니다.
데이터 시각화: Matplotlib과 함께 사용하여 데이터를 시각화하는 기능을 제공합니다.

3. pandas의 사용법

pandas를 사용하기 위해서는 먼저 해당 라이브러리를 설치해야 합니다. 설치 방법은 다음과 같습니다:

$ pip install pandas

다음으로, pandas를 사용하기 위해 아래와 같이 import합니다:

import pandas as pd

4. 예시

4.1. 데이터 불러오기

pandas를 사용하여 CSV 파일을 불러오는 예시입니다. CSV 파일은 쉼표(,)로 구분된 텍스트 파일로서 많이 사용됩니다.

import pandas as pd

# CSV 파일을 불러와 DataFrame으로 저장
data = pd.read_csv('data.csv')

# 데이터의 처음 몇 줄 출력
print(data.head())

4.2. 데이터 필터링과 집계

DataFrame에서 특정 조건에 맞는 데이터를 필터링하고, 그룹화하여 집계하는 예시입니다.

import pandas as pd

# CSV 파일을 불러와 DataFrame으로 저장
data = pd.read_csv('data.csv')

# 'Age' 열이 30 이상인 데이터 필터링
filtered_data = data[data['Age'] >= 30]

# 'Department'별 평균 연봉 집계
salary_by_department = data.groupby('Department')['Salary'].mean()

# 결과 출력
print("Age가 30 이상인 데이터:")
print(filtered_data.head())

print("\n부서별 평균 연봉:")
print(salary_by_department)

5. 결론

pandas는 데이터 조작과 분석에 특화된 강력한 라이브러리로서 DataFrame을 사용하여 테이블 형태의 데이터를 다룹니다. pandas의 주요 기능과 사용법을 설명하고, 데이터 불러오기, 필터링, 집계하는 예시를 통해 실제 데이터 처리 과정을 살펴보았습니다. pandas는 데이터 과학 분야에서 필수적인 도구로 여겨지며, 다양한 데이터 처리와 분석 작업에 활용됩니다.