Python 52

Openai의 gpt api를 이용한 간단한 챗봇 구현

요즘 OpenAI가 개발한 GPT의 3세대 모델이 굉장히 핫하다. gpt3를 이용하여 간단한 챗봇을 구현해볼 것이다. API Key를 등록하기 위하여 OpenAi의 사이트로 이동을 한다 https://openai.com/product Product Our API platform offers our latest models and guides for safety best practices. openai.com Get Started를 선택한다. 간단한 챗봇 기능을 구현할 것이기 때문에 아래에서 Chat을 선택한다 API키를 발급받기 위하여 오른쪽 상단에서 View API keys를 선택한다. 새로운 시크릿키를 생성한다. 이제 openai에서 제공하는 text-davinci-003 모델을 이용하여 자연스러운 ..

Python 2023.04.18

Pandas read_csv의 error_bad_lines 파라미터

read_csv 의 error_bad_lines 파라미터 판다스에서 csv 파일을 불러올 때, ParserError가 발생하는 경우가 있다. 잘못된 데이터 몇개로 인해서 전체 데이터를 못불러오는 오류가 발생한 것이다. 이럴때는, error_bad_lines = False 파라미터를 이용하면 된다. error_bad_lines = False 는 필요없는 데이터는 스킵하고 잘 돼있는 데이터만 가져오도록 하는 파라미터이다. 아래는 error_bad_lines 파라미터를 이용하여서, csv 파일을 성공적으로 불러온 예시이다. chicago_df_1 = pd.read_csv('Chicago_Crimes_2005_to_2007.csv', error_bad_lines=False, index_col= 0) chicag..

Python 2023.01.03

Time Series 데이터를 처리할 때 사용하는 resample 함수

Pandas 데이터프레임 datetime으로 형변환 하기 pandas.to_datetime(데이터, format= '표시 할 형식') 데이터의 타입을 datetime으로 변경 format : 기존의 데이터의 형식을 지정, 어떤 부분이 년월일 등등인지 사전에 지정 % 사용 : 예) %m/ %d /Y %I:%M:%S %p > 01/03/2023 3:33:38 PM 문자사용 : 예) yyyy-MM-dd HH:mm:ss > 2023-01-03 15:33:38 pd.to_datetime(chicago_df['Date'], format= '%m/%d/%Y %I:%M:%S %p') pandas.dt의 사용 dt는 시리즈(1차원 배열)의 형태에서 사용 가능하다. 만약 데이터프레임(2차원 배열)에서 사용 할 경우에는, ..

Python 2023.01.03

Python 데이터프레임을 sb.heatmap 으로 나타내기

아래에 0부터 100 사이의 수치로 되어있는 데이터프레임이 있다. 이 데이터프레임의 수치 비교를 쉽게 하기 위해서 데이터프레임 자체를 heatmap 으로 나타내려한다. 데이터를 쉽게 분석하기 위해서 데이터가 많으면 진한 색으로 나타내고, 데이터가 적으면 연한 색으로 나타나게 할 것이다. import matplotlib.pyplot as plt import seaborn as sb 필요한 라이브러리를 임포트 해준다. sb.heatmap() 안에 data 파라미터에는 데이터프레임명( df2 )을 넣어준다. 아래와같이 데이터프레임 자체가 heatmap 으로 표현되었다. 현재 아래의 데이터프레임은 데이터가 많으면 연한색, 데이터가 적으면 진한색으로 나타나게 설정되어있다. 이제부터 몇몇 파라미터를 이용하여 수치 ..

Python 2022.11.30

[pandas] 피봇 테이블 다루기 pivot table

pivot table 피봇팅 한다. 즉 컬럼의 값을 인덱스로 만들되, 인덱스를 중복제거하여 유니크 하게 만드는 방법이다. 아래와같은 데이터프레임이 있을 때, 피봇테이블을 알아보자. 피봇 테이블 만들기 pd.pivot_table() 을 이용하여서 동일한 컬럼명의 수치 데이터들을 합치는 결과를 리턴할 수 있다. 파라미터 값으로는 데이터프레임명과, index 에는 유니크하게 만들고자 하는 컬럼명을 넣어준다. 결과값은 수치데이터들의 평균값이 리턴된다. 만약, 수치 데이터들의 더한 값을 리턴받고 싶다면 파라미터 aggfunc 에 구하고자 하는 데이터의 계산 값을 넘파이 형식으로 적어준다. 더한 값을 리턴 받고자 하였으니, np.sum 을 넣어주면 된다. 두개의 컬럼을 유니크하게 만들기 만약 두개의 컬럼을 유니크하..

Python 2022.11.30

[pandas] 판다스에서 datetime 다루기 - Pandas Time Series

# 문자열로 되어있는 날짜의 리스트를 # 한번에 파이썬의 날짜 형식으로 변환하는 함수 판다스를 이용해서 효율적으로 시간과 날짜를 다루는 방법이다. 만약 리스트형식이나 데이터프레임 컬럼 자체를 시간 데이터로 바꾸고자 할 때는 판다스 datetime 을 이용하면 된다. 아래의 리스트를 파이썬의 날짜 형식으로 바꾸는 방법이다. pd.DatetimeIndex() & pd.to_datetime() pd.DatetimeIndex() 또는 pd.to_datetime() 을 이용하면 리스트를 한번에 파이썬의 날짜 형식으로 바꿀 수 있다. 컬럼을 파이썬의 날짜 형식으로 바꾸는 방법도 동일하다. df['날짜'] 컬럼을 예시로 들었을 때, pd.to_datetime( df['날짜'] ) 를 해주면 dtype이 object ..

Python 2022.11.30