LGBM 하이퍼 파라미터
num_iterations(default : 100) : =n_estimator
learning_rate(Default : 0.1)
max_depth(Default : -1)
min_data_in_leaf(Default : 20)
num_leaves(Default : 31)
boosting(Default : gbdt)
bagging_fraction(Default : 1.0)
feature_fraction(Default : 1.0)
lambda_l2(Default : 0.0)
lambda_l1(Default : 0.0)
'boosting_type': 'dart # ‘gbdt’, traditional Gradient Boosting Decision Tree. ‘dart’, Dropouts meet Multiple Additive Regression Trees. ‘goss’, Gradient-based One-Side Sampling. ‘rf’, Random Forest.
학습태스크 파라미터
objective
boosting_type ( str , optional ( default='gbdt' ) ) – 'gbdt', 전통적인 그래디언트 부스팅 결정 트리. 'dart', 탈락자가 다중 가법 회귀 트리를 만납니다. 'goss', 그라디언트 기반 단측 샘플링. 'rf', 랜덤 포레스트.
num_leaves ( int , optional ( default=31 ) ) – 기본 학습자를 위한 최대 트리 리프.
max_depth ( int , optional ( default=-1 ) ) – 기본 학습자의 최대 트리 깊이, <=0은 제한이 없음을 의미합니다.
learning_rate ( float , optional ( default=0.1 ) ) – 학습률을 높입니다. callbacks메소드 의 매개변수를 사용 하여 콜백 fit을 사용하여 훈련에서 학습률을 축소/적응할 수 있습니다. reset_parameter이것은 learning_rate훈련의 인수를 무시합니다.
n_estimators ( int , optional ( default=100 ) ) – 맞출 부스트 트리의 수.
subsample_for_bin ( int , optional ( default=200000 ) ) – bin 구성을 위한 샘플 수.
Objective ( str , callable 또는 None , optional ( default=None ) ) – 학습 작업 및 해당 학습 목표 또는 사용할 사용자 정의 목적 함수를 지정합니다(아래 참고 참조). 기본값: LGBMRegressor의 경우 '회귀', LGBMClassifier의 경우 'binary' 또는 'multiclass', LGBMRanker의 경우 'lambdarank'입니다.
class_weight ( dict , 'balanced' 또는 None , optional ( default=None ) ) – 형식의 클래스와 관련된 가중치 . 다중 클래스 분류 작업에만 이 매개변수를 사용하십시오. 이진 분류 작업의 경우 또는 매개변수 를 사용할 수 있습니다 . 이러한 모든 매개변수를 사용하면 개별 클래스 확률에 대한 추정치가 좋지 않다는 점에 유의하십시오. 모델의 확률 보정( https://scikit-learn.org/stable/modules/calibration.html ) 수행을 고려할 수 있습니다 . '균형' 모드는 y 값을 사용하여 다음과 같이 입력 데이터의 클래스 빈도에 반비례하는 가중치를 자동으로 조정합니다.{class_label: weight}is_unbalancescale_pos_weightn_samples / (n_classes * np.bincount(y)). None이면 모든 클래스의 가중치가 1이어야 합니다. 이 가중치 는 지정된 경우 (메소드 sample_weight를 통해 전달 ) 곱해집니다.fitsample_weight
min_split_gain ( float , optional ( default=0. ) ) – 트리의 리프 노드에 추가 파티션을 만드는 데 필요한 최소 손실 감소.
min_child_weight ( float , optional ( default=1e-3 ) ) – 자식(리프)에 필요한 인스턴스 가중치(Hessian)의 최소 합계.
min_child_samples ( int , optional ( default=20 ) ) – 자식(리프)에 필요한 최소 데이터 수.
subsample ( float , optional ( default=1. ) ) – 훈련 인스턴스의 subsample 비율.
subsample_freq ( int , optional ( default=0 ) ) – subsample의 빈도, <=0은 활성화가 없음을 의미합니다.
colsample_bytree ( float , optional ( default=1. ) ) – 각 트리를 구성할 때 열의 하위 샘플 비율입니다.
reg_alpha ( float , optional ( default=0. ) ) – 가중치에 대한 L1 정규화 용어.
reg_lambda ( float , optional ( default=0. ) ) – 가중치에 대한 L2 정규화 용어.
random_state ( int , RandomState 객체 또는 None , 선택 사항 ( default=None ) ) – 난수 시드. int인 경우 이 숫자는 C++ 코드를 시드하는 데 사용됩니다. RandomState 개체(numpy)인 경우 상태에 따라 임의의 정수가 선택되어 C++ 코드를 시드합니다. None이면 C++ 코드의 기본 시드가 사용됩니다.
n_jobs ( int , optional ( default=-1 ) ) – 훈련에 사용할 병렬 스레드 수(예측 시 변경 가능).
Important_type ( str , optional ( default='split' ) ) – 채워질 기능 중요도의 유형입니다 feature_importances_. '분할'인 경우 결과에는 모델에서 기능이 사용된 횟수가 포함됩니다. '이득'인 경우 결과에는 해당 기능을 사용하는 분할의 총 이득이 포함됩니다.