-
sklearn.inspection.partial_dependence(이론)<Python>/[Sklearn] 2021. 12. 29. 20:02728x90
partial_dependence
Partial Dependence Function(부분의존도 함수)
용어 : partial는 회귀계수(가중치)를 의미한다.
베이스 : 주변확률분포
사용 목적 : target과 관심있는 변수의 평균영향력 or 관계를 알고자 쓴다.
사용법 : (’고정’이라는 단어를 사용한다.)
- 관심없는 변수(학위, 인종)는 놔두고 관심있는 변수(성별)를 고정시켜(=주변확률분포를 쓴다.) target(연봉 5천 이상=1, 이하=0)를 예측한다.
- 관심없는 변수(x1=학위, x2 = 인종)와 관심있는 변수(y=성별)로 아래와 같이 표를 만들면 3차원표가 만들어진다.(이론)
3. 사용하려면 3차원→1차원으로 바꿔야하지만 어려워 주변확률분포를 구하긴 힘들다.(이론)
4. 대체하자. 주변확률분포를 데이터 프레임에 적용해보자.
5. 주변확률분포처럼 데이터프레임을 수정한다. 관심없는 변수의 행은 그대로 둔다.(바꾸지 않는다.)
관심있는 변수의 행은 fy(1)과 같이 고정(데이터프레임의 모든 성별을 남자=1로 바꾼다)시킨다.
이후 랜덤포레스트 함수에 넣고 target(연봉 5천 이상=1, 이하=0)를 예측한다6. 그러면 예측값들(ex. 0,1,1,1,0,1,0,0....)이 나온다.
7. 이걸 총 샘플 수(n)로 나눈다. 즉, 평균을 구한다.
8. 평균값이 남자는 0.356, 여자는 0.123이면(=남자일때 1(연봉 5천이상)이 많이 나왔다.)
여자보다 남자가 연봉 5천 이상이 많다는 걸 의미한다.728x90'<Python> > [Sklearn]' 카테고리의 다른 글
sklearn.inspection.permutation_importance 파라미터 정리 (0) 2021.12.29 sklearn.inspection.partial_dependence 파라미터 정리 (0) 2021.12.29 sklearn.impute.KNNImputer 파라미터 정리 (0) 2021.12.28 sklearn.impute.MissingIndicator 파라미터 정리 (0) 2021.12.28 sklearn.impute.IterativeImputer 파라미터 정리 (0) 2021.12.28