python6 Polars 라이브러리 문법 정리 [1] pandas 이용해서 데이터 분석, 전처리 진행하면서 답답함을 느껴 Polars 라이브러리 공부하면서 작업을 진행한 문법들을 Pandas 와 비교하며 정리해보겠습니다. Polars 라이브러리 특징 1. Index 존재하지 않음. - pandas에서 이용하는 index 사용하는 문법 사용 불가 ex) iloc, set_index, reset_index 2. 절대적인 컬럼 타입의 통일 - 파일 read 시 컬럼내 여러 타입의 Value 존재시 바로 read 할 수 없음 3. df.col_name 과 같은 도트 연산자 사용 불가 - 항상 df["col_name"] 같은 방법으로 접근해야함 Polars VS Pandas 문법 비교 제가 이용한 Polars 버전은 0.18.15 입니다. (pandas 1.4.1).. 2023. 8. 22. 벡터와 벡터 유사성측정 벡터 벡터 유사성 측정 방법 3가지 L1,L2, 코사인 유사도 다른 많은 방법 존재 코사인 유사도 벡터의 내적을 이용해 두 벡터의 코사인 값을 구하는 것 x*y/|x|*|y| =cos 인것을 이용 1. 유클리드 거리 계산 1-1 def euclidean_distance(v1,v2): distance = np.sqrt(np.sum((v1-v2)**2)) #distance = np.linalg.norm(v1,v2) 이거 norm함수의 문제가 있음 위에꺼 쓰자 return distance 1-2 f = lambda x,y : np.sqrt(np.sum(np.square(x,y))) 2. 코사인 유사도 def cosine_similarity(v1,v2): # distance = np.sum(v1*v2)/((np.. 2022. 5. 14. [통계학] 3. 공분산과 상관계수 및 시각화 ※ 인공지능 회귀분석 강의 통계와 확률을 바탕으로 정리하였습니다. 2차원 데이터 분석은 크게 2가지 방법으로 볼 수 있다. 1. 수치 지표: 상관계수, 공분산 2. 시각화 그래프: 산점도, 회귀직선 등 공분산 두 변수의 상관관계를 수치화 하기 위한 지표 두 변수의 각각 편차의 곱의 합과 길이 만큼 나눈 것 # 공분산 구하기 np.cov(수학점수, 영어점수, ddof=0) 아래와 같이 매트릭스로 나옴 자기 자신과 자기 자신의 공분산은 분산으로써 결과값이 나옴 array([ [86, 65], [65,68] ]) 하지만, 공분산으로 우리는 상관관계를 파악하기는 쉽지 않다. 왜냐하면 변수의 단위가 변수마다 다르기 때문이다. ex) (키: cm, 몸무게: kg) 각 두 값은 하나로 공분산을 표현할 때 어느 정도 .. 2022. 5. 14. [통계학] 4. 확률 및 통계 ※ 인공지능 회귀분석 강의 통계와 확률을 바탕으로 정리하였습니다. 통계 큰 흐름 두가지 1. 추측 통계 일부 데이터로부터 전체의 통계적 성질을 추측하는 방식 관측 대상 전체의 통계쩍 성질을, 그 관측 대상의 일부분만 사용하여 추측 ex) 표본을 뽑고 표본으로 모집단의 성질(평균, 분산 등등)을 추측하는 것 2. 기술통계 전체 데이터의 통계 지표를 계산하는 방식 ex) 모집단을 가지고 모집단의 성질()을 계산하는 방식 통계 및 확률 용어 정리 모집단(population) 추측하고 싶은 관측 대상 전체 -모수 : 모집단의 평균(모평균),분산(모분산), 상관계수 등과 같은 모집단의 통계지표 표본(sample) 추측에 사용되는 모집단의 일부분 표본 추출(sampling): 모집단에서 표본을 골라내는 일 표본 크.. 2022. 5. 14. [통계학] 1. 산포도 (분산, 표준편차, 사분위) ※ 인공지능 회귀분석 강의 통계와 확률을 바탕으로 정리하였습니다. 산포도 대표값(보통 평균)을 중심으로 자료들이 흩어져 있는 정도 하나의 수치로 표현됨 따라서 수치가 낮을 수록 평균에서 분포가 밀집 수치가 높을 수록 평균에서 분포가 퍼짐을 나타냄 ex) 분산, 표준편차, 사분위 편차 각 데이터가 평균으로부터 어느 정도 떨어져 있는지를 나타내는 지표 ex) 전체 학생 국어 성적 평균 50일때 본인은 100맞았다면 편차는 100-50으로 50이 된다. 편차 값들의 합과 평균은 0이다. 따라서 편차 평균으로는 산포도를 계산할 수 없다.(그래서 분산 나옴) 분산 편차의 제곱을 합산하여 평균을 계산한 값 # pandas df_score.var() df_socre.var(ddof=0) ddof는 자유도를 의미하며 .. 2022. 5. 11. [통계학] 0. 대표값(평균값, 중앙값, 최빈값) 대표값이란 주어진 데이터를 대표하는 특정 값 데이터를 하나의 값으로 요약한 지표 ex) 평균값, 중앙값, 최빈값 등 평균값(mean,average) # pandas 평균 구하는 두가지 방법 sum(df['age'])/len(df['age']) df['age'].mean() # numpy 평균 구하는 법 np.mean(df['age']) 중앙값(median) 데이터를 크기 순서대로 나열하였을 때, 정확하게 중앙에 위치한 값 ※짝수일 때와 홀 수 일때 계산 방법이 다름 짝수일 경우 중앙에 가까운 두개 수를 평균낸 값을 중앙값으로 함 ex) 데이터 개수 n, 홀수라면 (n+1)/2번째 데이터가 중앙값 홀수일 경우 중앙에 있는 값을 중앙값으로 함 ex) 데이터 개수 n, 짝수라면 n/2,(n/2)+1 번째 데이.. 2022. 5. 11. 이전 1 다음