728x90
개요
이전 프로젝트를 회고하면서 프로젝트에서 Pandas를 활용한 대용량 게임 데이터 효율적 처리했습니다.
본글에서는 Pandas에 대해서 정리하고자 합니다.
pandas란❓
Pandas는 파이썬에서 데이터 분석과 조작을 위한 핵심적인 라이브러리입니다.
특히 구조화된 데이터, 예를 들어 테이블 형태의 데이터를 쉽게 다룰 수 있도록 설계되었습니다. 데이터 처리와 분석 작업에서 매우 유용하게 사용되며, 데이터프레임(DataFrame)이라는 강력한 자료 구조를 통해 데이터를 효율적으로 조작할 수 있습니다.
주요 기능
1. 데이터 구조
- Pandas는 DataFrame과 Series라는 자료 구조를 제공하여, 엑셀의 스프레드시트와 유사한 형태로 데이터를 다룰 수 있습니다.
2. 데이터 로드 및 저장
- CSV, Excel, SQL, JSON 등 다양한 파일 형식에서 데이터를 불러오고 저장할 수 있습니다.
3. 데이터 정제
- 결측치 처리, 중복 데이터 제거, 열과 행 추가/삭제, 필터링 등 데이터 정제 작업이 간편합니다.
4. 데이터 조작
- 그룹화(groupby), 피벗 테이블, 조인(join) 등 다양한 데이터 조작 기능을 제공합니다.
5. 데이터 분석
- 다양한 수학적, 통계적 연산이 가능하며, 복잡한 분석도 코드 몇 줄로 수행할 수 있습니다.
pandas의 간단 예시
예를 들어, CSV 파일을 불러와 데이터프레임으로 저장하고 간단한 데이터 분석을 할 수 있습니다.
import pandas as pd
# 데이터 로드
df = pd.read_csv("data.csv")
# 데이터 요약 정보 확인
print(df.describe())
import pandas as pd
# 데이터프레임 생성
data = {
'name': ['John', 'Anna', 'Peter'],
'age': [28, 22, 35],
'city': ['New York', 'Paris', 'London']
}
df = pd.DataFrame(data)
# 기본적인 데이터 조작
df.head() # 상위 5개 행 보기
df.describe() # 기술 통계량 확인
df['age'].mean() # 평균 나이 계산
Pandas를 사용해 이름, 나이, 도시 정보를 담은 데이터를 테이블 형태(DataFrame)로 만들고, 이를 통해 데이터 확인과 기본적인 통계 분석(평균, 기술통계량)을 수행하는 코드입니다.
'TIL,일일 회고' 카테고리의 다른 글
[TIL, 일일 회고] 2024.11.08 - StringBuilder의 공백 처리 방법: deleteCharAt()과 setLength() 비교 (3) | 2024.11.08 |
---|---|
[TIL, 일일 회고] 2024.11.07 - DDD에서 도메인 서비스와 애플리케이션 서비스를 나누는 이유 (2) | 2024.11.07 |
[TIL, 일일 회고] 2024.11.05 - 왜 N+1 문제에서 Fetch Join을 주로 사용할까❓ (0) | 2024.11.05 |
[TIL, 일일 회고] 2024.11.04 - 코딩 관련 기초 지식 (등차수열) (0) | 2024.11.04 |
[TIL, 일일 회고] 2024.11.04 - 게시판 좋아요 기능 동시성 문제 해결 및 고도화된 부하 테스트 (0) | 2024.11.04 |