본문 바로가기
반응형

IT/파이썬12

파이썬(python)을 활용한 데이터 분석 pandas 오늘 정리할 내용은 파이썬(python)을 활용하여 데이터를 분석할때 가장 많이 쓰이는 데이터 구조인 pandas의 series와 dataframe입니다. 1. pandas의 자료형 : Series - 1차원 배열 자료형으로 인덱스와 쌍으루 구성 - data의 자료형은 ndarray index data a 1 b 2 c 3 import pandas as pd #리스트 이용하여 정의한 Series S = pd.Series([1,2,3],index=['a','b','c']) #사전을 이용한 정의한 Series S2 = pd.Series({'a':1,'b':2,'c':3}) 2. pandas의 자료형 : DataFrame (1) DataFrame 구조 - 2차원 배열 자료형으로 인덱스와 쌍으루 구성 - Col.. 2022. 12. 13.
파이썬(python)을 활용한 데이터 분석 - numpy 1. numpy 자료형 : numpy의 자료형은 ndarray로 효율적인 배열 연산을 위해 개발됨. : 서로 다른 데이터 타입의 요소를 담을수 없음 (1) np.array 함수 : 위 함수를 이용하여 ndarray를 생성 할 수 있음 import numpy as np #1. np.array() : ndarray 생성 a = np.array([1,2,3,4,5]) print(a) #a의 형태는 ndarray #출력 : [1 2 3 4 5] (2) np.zeros(x) : x 모양의 0행렬 ndarray 반환 # 2. np.zeros() : 2x2 영행렬 ndarray 생성 b= np.zeros((2,2), dtype=int) print(b) # 출력 : #[[0 0] # [0 0]] (3) np.arang.. 2022. 12. 10.
파이썬(python)을 활용한 데이터 분석 - 반복문 주요 함수 1. 반복문 기초 (1) for 문 기초문법 for 요소 in 이터레이터: 반복할 구문 L1 = [1,2,3,4,5] for l in L1: print(l) if l == 2: break; #break를 만났을때 가장 가까운 for문만 빠져나감 # 1 2 출력 (2) 대표적인 이터레이터(iterator) 객체 생성 함수 - 이터레이터 객체 : 값을 차례대로 꺼낼 수 있는 객체를 의미 2-1) range - range(시작 , 끝 , 스텝) - range(x) x인자 하나만 넣을 경우 range(0, x , 1) 와 동일함. 시작 0과 스텝 1이 디폴트 인자가됨. - range(a,b) a,b 인자 두개만 넣을 경우 range(a,b,1)과 동일함. 스텝 1이 디폴트 인자가됨. range(1,10,2) #.. 2022. 12. 8.
파이썬(python)을 활용한 데이터 분석-파이썬 주요 데이터 구조2(사전 dictionary) 1. 사전(dictionary) (1) 사전 : 키(key)와 값(value)쌍으로 이루어진 해시 테이블 : 키(key)는 불변 , 값(value)는 불변or가변 Key value key 1 val 1 key 2 val 2 key 3 val 3 dict = {key 1:val 1, key 2:val 2, key 3:val 3} (2) 사전 요소 # 사전 선언 dict = { 1:1 , 2:4 , 3:3 , 4:20 } # 접근하기 print(dic[1]) # 1출력 # 값 추가 dict[5] = 15 # { 1:1 , 2:4 , 3:3 , 4:20, 5:15 } # 값 변경 dict[5] = 25 # { 1:1 , 2:4 , 3:3 , 4:20 , 5:25 } # 값 삭제 del(dict[5]) # { .. 2022. 12. 8.
파이썬(python)을 활용한 데이터 분석 - 파이썬 주요 데이터 구조1 (리스트, 튜플) 1. 리스트와 튜플 1) 리스트 L1 = [1,2,3,4,5] L2 = [‘a’,’b’,’c’,1,2] L3 = [1,2,[3,4]] ​ 2) 튜플 T1 = (1,2,3,4,5) T2 = (‘a’,’b’,’c’,1,2) T3 = (1,2,(3,4)) T4 = 1 T5 = 1, ​ 2. 리스트와 튜플의 공통점 1) 인덱싱 : 인덱싱은 0부터 시작 : 끝은 -1부터 시작 ​ 2) 슬라이싱 : 아래 예제를 통해 학습 # 튜플 L = [1,2,3,10,5] L[2] # 3 #맨뒤에서 부터 -1 L[-1] # 5 #0에서 부터 3개 L[0:3] # [1,2,3] #위와 동일 L[:3] # [1,2,3] #2에서 부터 끝까지 L[2:] # [3,10,5] #0부터 4까지 2칸씩 L[0:4:2] # [1,3] 3) .. 2022. 12. 7.
파이썬(python)을 활용한 데이터 분석 - 데이터 전처리는 왜 필요한가? ​ 1. 데이터 전처리는 왜 필요할까요? : 데이터가 분산되어 있거나, : 다양한 포멧으로 형식이 다른 경우가 많음 또는 비정상적인 시간순서의 데이터인 경우도 있음 * 효율적인 분석과, 불필요한 정보를 제거하여 인사이트를 얻는데 도움을 준다. ​ 2. 데이터 전처리를 배워야 하는 이유 : 데이터 분석을 함에 있어 시간을 줄이기 위해서. : 데이터 분석에 소요되는 시간이 실제로 분석 하는 시간보다 데이터를 정제하고 준비하는데 더 많은 시간이 소요됨. ​ 3. 데이터 전처리를 잘하기 위해선? : 최종 결과물이 어떠할지 구조를 먼저 정리한다. : 구글링 - python pandas(모듈) how to 내용 : 영어로 검색하라 - statckoverflow 파이썬을 활용한 데이터 분석 - 파이썬 주요 데이터 구.. 2022. 12. 7.
파이썬[python] - 엑셀 읽고 쓰기 : openpyxl 안녕하세요 호유입니다. 오늘은 파이썬으로 엑셀 다루는 법에 대해서 알아보도록 하겠습니다. 요새 파이썬 공부하면서 느끼는 점은 다른 C언어, JAVA...와 같은 컴퓨터 언어와는 다르게 라이브러리(패키지)가 정말 막강하다는 것입니다. (잡소리 집어 치우고 어서 엑셀 다루는 법이나 알려줘바...) ■ openpyxl 패키지 설치 엑셀을 다루기 위한 패키지인 openpyxl을 설치해야 합니다. CMD 창(또는 아나콘다 prompt)에서 아래 명령어를 통해 패키지를 설치해 주세요. pip install openpyxl ■ openpyxl 사용방법 openpyxl 패키지를 사용하기 위한 import 는 필수 ! import openpyxl 1. 엑셀(Excel) 파일 읽기 - 엑셀 파일 불러오기 workbook .. 2020. 3. 5.
파이썬(python) - koNLPy(코엔엘파이) 설치하기 1. KoNLPy 설치 방법 한글 형태소 분석을 하기 위해서는 koNLPy(코엔엘파이)가 필요하더군요. 아래 사이트에 접속하여 설치를 진행하려고 하니 설치전 체크사항이 있었습니다. https://konlpy-ko.readthedocs.io/ko/v0.4.3/install/ 설치하기 — KoNLPy 0.4.3 documentation 주석 설치 및 사용 도중 문제가 발생하는 경우 다음 페이지들을 참고해주세요: 리눅스. 맥 OS. 윈도우. 발생한 문제가 어디에도 없는 경우 “New Issue” 버튼을 눌러 새로운 이슈를 생성해주시기 바랍니다. 각 머신 별 테스팅 로그는 이 곳 에서 보실 수 있습니다. konlpy-ko.readthedocs.io 1) KoNLPy 설치전 체크사항 Java 1.7+이 설치되어 .. 2020. 2. 28.
[파이썬][기초][크롤링]BeautifulSoup 을 이용하여 기상청 스크래핑 BeautifulSoup 을 이용하여 기상청 스크래핑 ㅁ 필수 설치 패키지 1) BeautifulSoup 설치 - 명령어 : pip3 install BeautifulSoup ㅁ 소스코드 - 복사해서 실행 가능합니다. # 라이브러리 읽기 from bs4 import BeautifulSoup import urllib.request as req # 기상청 URL url = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp' # URL OPEN으로 데이터 가져오기 res = req.urlopen(url) #beautifulsoup 으로 분석 soup = BeautifulSoup(res, 'html.parser') #원하는 데이터 추출 title = soup.f.. 2018. 10. 26.