Python 52

[pandas] 판다스에서 문자열 슬라이싱 & 시리즈를 데이터프레임 or 리스트로 만들기

판다스 데이터프레임에서 문자열을 슬라이싱 하는 방법과 판다스의 시리즈 데이터를 리스트 형식으로 바꾸는 방법이다. 데이터프레임 안에 있는 문자열을 슬라이싱 하기 데이터프레임 안에 있는 문자열을 슬라이싱 하기 위해서는 str 을 이용하여야 한다. str 이 데이터프레임 안에 있는 문자열을 다뤄주는 함수이기 때문이다. str 을 사용한 후 슬라이싱 하는 방법은 기존 방법과 동일하다 아래가 예시이다. 시리즈 리스트 형태로 만들기 & 데이터프레임 형태로 만들기 아래의 변수 names 는 시리즈 형식이다. 시리즈 형식을 리스트로 만들기 위해서는 to_list() 를 사용하면 된다. 리스트 형식으로 데이터를 리턴해준다. 만약 시리즈 형식을 데이터프레임으로 만들고자 한다면, to_frame() 을 사용하면 된다. 아래..

Python 2022.11.30

[pandas] dataframe.plot 함수

dataframe.plot import matplotlib.pyplot as plt 필요한 라이브러리를 임포트 해준다. 데이터프레임 자체에서 차트를 그리고자 할 때는 dataframe.plot 함수를 이용하면 된다. 데이터프레임의 모든 컬럼이 차트에 나타난다. 데이터프레임의 plot 함수는 x축에 인덱스를 셋팅하고, y축에는 모든 컬럼의 데이터를 셋팅해준다. => 모든 컬럼을 차트로 다 그려준다 data_result 라는 데이터프레임이 있을 때 데이터프레임에 plot() 을 해주면 아래와같은 차트가 리턴된다. x축은 인덱스, y축에는 모든 컬럼을 셋팅 해준다. 단, 인덱스가 갯수가 많을 경우 모든 데이터가 차트에 나타나지 않고 소수의 데이터만 나오기 때문에 데이터가 많을 경우에는 bar 차트로 표현해주면..

Python 2022.11.29

Python 숫자 데이터가 담긴 csv 파일 효율적으로 불러오기, thousands

thousands 파라미터 숫자 데이터가 들어있는 csv 파일을 불러올 때, csv 파일 데이터가 int 형이 아닌 str 형으로 되어있는 경우가 많다. 아래의 데이터프레임에서도 9,751,415 나 52,269 와 같은 데이터들은 사람이 보기엔 숫자인데, 컴퓨터가 봤을 때는 문자열이다. 숫자데이터가 들어있는 데이터프레임을 효율적으로 불러올 수 있는 방법은 파라미터 thousands = ',' 를 이용하는 것이다. thousands =',' 파라미터는 1000단위에 컴마 , 가 들어있다는 것을 컴퓨터에게 알려주는 값이다. csv 파일을 불러올 때, thousands 파라미터를 넣었을 경우의 결과값이다. csv 파일을 str 형이 아닌 int 형으로 불러왔기 때문에 데이터를 처리할 때 좀 더 효율성 있게 ..

Python 2022.11.29

한글 처리를 할 때 필요한 코드

한글처리를 할 때 자꾸 에러가 나고 공백으로 뜬다면, 아래의 코드를 실행하면 된다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': path = "c:/Windows/Fonts/malgun.ttf" ..

Python 2022.11.28

[Matplotlib] 두 컬럼간의 관계, Scatter, regplot, pairplot, Heat map

Scatter import matplotlib.pyplot as plt import seaborn as sb 필요한 라이브러리를 임포트 해준다. 두 컬럼간의 관계를 차트로 나타내는 방법이다. 여기서 관계란 ? 비례관계, 반비례관계 , 아무관계 없음 - 이 세가지를 말한다. 두개의 컬럼을 비교하고 싶을 때 scatter을 사용하면 된다. plt.scatter() 을 이용할 때 파라미터 data에는 데이터프레임명, x, y 에는 비교하고자하는 컬럼명을 적어주면 된다. 아래의 차트가 예시이다. plt.scatter(data= df, x= 'displ', y= 'comb')의 data에는 데이터프레임명 df를 넣어주고, x에는 컬럼명 'displ', y에는 두번째 컬럼명 'comb' 를 넣었을 때의 결과를 리턴..

Python 2022.11.28

[Matplotlib] Histogram, 히스토그램 차트 만들기

히스토그램 import matplotlib.pyplot as plt 필요한 라이브러리를 임포트 해준다. 구간을 설정하여, 해당 구간에 포함되는 데이터가 몇개인지(갯수) 세는 차트를 히스토그램이라고 한다. 구간을, bin 이라고 부른다. ( 구간이 여러일때는 , bins ) 히스토그램은, 똑같은 데이터를 가지고 bin을 어떻게 잡느냐에 따라서 차트모양이 달라져서 해석을 다르게 할 수도 있다. 히스토그램의 기본 형태이다. 함수 호출을 할 떄는 plt.hist() 로 하고 파라미터 data 에는 데이터프레임명, x 에는 컬럼명을 넣어주면 된다. 히스토그램을 이용할 때, rwidth 파라미터를 이용하여 각 도표의 넓이를 지정해줄 수 있다. 히스토그램에서 bins의 갯수는 기본 10로 출력이 되고, bins 갯수..

Python 2022.11.28

[Matplotlib] Pie Chart 만들기

Pie Chart import matplotlib.pyplot as plt 필요한 라이브러리를 임포트 해준다 데이터프레임의 컬럼의 데이터 갯수를 퍼센테이지로 표현하고자 할 때는 pie chart 를 이용하면 된다. 많은 데이터가 들어있는 데이터프레임 자체로는 바로 파이차트를 표현할 수 없기 때문에, 나타내고자 하는 데이터의 값을 새로운 변수에 저장을 해준다. plt.pie() 함수를 이용하여 괄호안에 나타내고자 하는 값을 넣어주면 파이차트가 출력된다. plt.pie() 에는 여러가지 파라미터값이 있다. 먼저 어떤 데이터가 나타났는지 데이터의 이름을 표현하고 싶다면 labels 를 이용하면 된다. autopct 는 각각의 데이터가 몇퍼센트로 나타났는지 보여주는 파라미터이다. '%.2f' 는 퍼센테이지를 소..

Python 2022.11.28

[Matplotlib] Bar Chart 만들기

Bar Charts # 각 value 별로 몇개씩 있는지를 차트로 나타내고 싶을 때 # seaborn 의 countplot 함수 사용 import matplotlib.pyplot as plt import seaborn as sb 필요한 라이브러리를 임포트 해준다. 아래와같은 데이터프레임이 있을 때, generation_id 컬럼의 데이터를 차트로 나타내는 방법이다. 먼저 generation_id 컬럼에 각각 몇개의 데이터가 있는지 확인을 한다. generation_id 컬럼이 카테고리컬 데이터인 것을 확인을 하면 차트를 그려주면 된다. 각 value 별로 몇개씩 있는지를 차트로 나타내고 싶을 때, seaborn 의 countplot 함수 사용한다. sb.countplot()을 해준 후 괄호 안에는 나타내..

Python 2022.11.28

[pandas] - str.contains

str.contains 데이터프레임 컬럼에서 특정 문자열이 포함된 값들을 추출하고 싶다면 str.contains 를 이용하면 된다. 아래 예시는 reviews['description'] 컬럼에 'fruity' 라는 문자열이 포함되어있는지 확인하는 내용이다. str.contains() 괄호안에 찾고자하는 문자열을 넣어주면 결과값이 리턴된다. str.contains 에는 case라는 파라미터가 있다. case= False 로 두면 대소문자를 구별하지 않고 문자열을 찾는다는 의미이다. 만약, 여러개의 문자열 'tropical' 또는 'fruity' 가 들어있는 데이터를 출력하고 싶다면 | ( 또는 ) 기호를 입력해주면 된다.

Python 2022.11.25