본문 바로가기
IT/파이썬

파이썬(python)을 활용한 데이터 분석 pandas

by 호유(ho_you) 2022. 12. 13.
반응형

 

 

오늘 정리할 내용은 파이썬(python)을 활용하여 데이터를 분석할때

가장 많이 쓰이는 데이터 구조인 pandas의 series와 dataframe입니다.

 

1. pandas의 자료형 : Series

- 1차원 배열 자료형으로 인덱스와 쌍으루 구성
- data의 자료형은 ndarray

index data
a 1
b 2
c 3

 

import pandas as pd

#리스트 이용하여 정의한 Series
S = pd.Series([1,2,3],index=['a','b','c']) 

#사전을 이용한 정의한 Series
S2 = pd.Series({'a':1,'b':2,'c':3})

 

2. pandas의 자료형 : DataFrame


(1) DataFrame 구조
- 2차원 배열 자료형으로 인덱스와 쌍으루 구성
- Col1, Col2 는 ndarray.
- DataFrame은 하나 이상의 Series로 구성됨 ( Col1,Col2 는 Series )

index Col1 Col2
a 1 7
b 2 8
c 3 9
import pandas as pd

#사전을 이용한 정의
D = pd.DataFrame({'Col1':[1,2,3] , 'Col2':[7,8,9],index=['a','b','c']})

#데이터 ,컬럼,인덱스 정의
D2 = pd.DataFrame([1,7],[2,8],[3,9],
                  columns=['Col1','Col2'],
                  index=['a','b','c']
                  
# 행 인덱스 출력
print(D.index)
# 출력 a, b, c


# 컬럼 출력
print(D.columns)
# 출력 Col1 , Col2


(2) DataFrame 인덱싱, 슬라이싱
- loc : 명시적 인덱스 참조
- iloc : 암묵적 인덱스 참조

암묵적
인덱스
명시적
인덱스
data
0 a 4
1 b 7
2 c 9
import pandas as pd

S = pd.Series([4,7,9],index=['a','b','c']) 

#loc 명시적 인덱스
S.loc['a']
#출력 : 4

#iloc 암묵적 인덱스
S.iloc[2]
#출력 : 9

#loc 슬라이싱: a부터c까지 (c포함)
S.loc['a':'c'] 
#출력 4,7,9


#iloc 슬라이싱 : 1~2까지 ( 맨끝 미포함 )
S.iloc[1:2]
# 출력 7


(3) DataFrame 다루기
- DataFrame 기준

index Col1 Col2
a 1 7
b 2 8
c 3 9


- loc 예제

S.loc['a', 'col2']
# 출력 7

S.loc['a':'c' , 'col1']
# 출력
# a 1
# b 2
# c 3

S.iloc[1:3 , 1]
# 출력
# b 8
# c 9


- df['컬럼명'] : 컬럼명이 인자일 경우, series으로 반환

df['col1'] # Series로 반환
index Col1
a 1
b 2
c 3


- df[리스트] : 리스트가 인자일 경우, DataFrame으로 반환

df[['col1']] #DataFrame 으로 반환
index Col1
a 1
b 2
c 3




2022.12.10 - [IT/파이썬] - 파이썬(python)을 활용한 데이터 분석 - numpy

 

파이썬(python)을 활용한 데이터 분석 - numpy

1. numpy 자료형 : numpy의 자료형은 ndarray로 효율적인 배열 연산을 위해 개발됨. : 서로 다른 데이터 타입의 요소를 담을수 없음 (1) np.array 함수 : 위 함수를 이용하여 ndarray를 생성 할 수 있음 import nu

itforest.tistory.com

 

반응형

댓글