[ํ˜ผ๊ณต๋จธ์‹ ] 05. ์ •๋ฆฌ

2022. 6. 22. 07:33

โ–ท ํ‚ค์›Œ๋“œ ํ•ต์‹ฌ ํฌ์ธํŠธ

๊ฒฐ์ •ํŠธ๋ฆฌ : ์˜ˆ/์•„๋‹ˆ์˜ค์— ๋Œ€ํ•œ ์งˆ๋ฌธ์„ ์ด์–ด๋‚˜๊ฐ€๋ฉด์„œ ์ •๋‹ต์„ ์ฐพ์•„ ํ•™์Šตํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜

                  ๋น„๊ต์  ์˜ˆ์ธก ๊ณผ์ •์„ ์ดํ•ดํ•˜๊ธฐ ์‰ฝ๊ณ  ์„ฑ๋Šฅ๋„ ๋›ฐ์–ด๋‚จ

๋ถˆ์ˆœ๋„ : ๊ฒฐ์ • ํŠธ๋ฆฌ๊ฐ€ ์ตœ์ ์˜ ์งˆ๋ฌธ์„ ์ฐพ๊ธฐ ์œ„ํ•œ ๊ธฐ์ค€

               ์‚ฌ์ดํ‚ท๋Ÿฐ์€ ์ง€๋‹ˆ ๋ถˆ์ˆœ๋„์™€ ์—”ํŠธ๋กœํ”ผ ๋ถˆ์ˆœ๋„ ์ œ๊ณต

์ •๋ณด์ด๋“ : ๋ถ€๋ชจ ๋…ธ๋“œ์™€ ์ž์‹ ๋…ธ๋“œ์˜ ๋ถˆ์ˆœ๋„ ์ฐจ์ด

                 ๊ฒฐ์ • ํŠธ๋ฆฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ •๋ณด ์ด๋“์ด ์ตœ๋Œ€ํ™”๋˜๋„๋ก ํ•™์Šต

๊ฐ€์ง€์น˜๊ธฐ : ๊ฒฐ์ • ํŠธ๋ฆฌ์˜ ์„ฑ์žฅ์„ ์ œํ•œํ•˜๋Š” ๋ฐฉ๋ฒ•

                 (๊ฒฐ์ • ํŠธ๋ฆฌ๋Š” ์ œํ•œ ์—†์ด ์„ฑ์žฅํ•˜๋ฉด ํ›ˆ๋ จ ์„ธํŠธ์— ๊ณผ๋Œ€์ ํ•ฉ๋˜๊ธฐ ์‰ฌ์›€)

ํŠน์„ฑ ์ค‘์š”๋„ : ๊ฒฐ์ • ํŠธ๋ฆฌ์— ์‚ฌ์šฉ๋œ ํŠน์„ฑ์ด ๋ถˆ์ˆœ๋„๋ฅผ ๊ฐ์†Œํ•˜๋Š”๋ฐ ๊ธฐ์—ฌํ•œ ์ •๋„

 

๊ฒ€์ฆ ์„ธํŠธ : ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์„ ์œ„ํ•ด ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•  ๋•Œ,

                   ํ…Œ์ŠคํŠธ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ธฐ ์œ„ํ•ด ํ›ˆ๋ จ ์„ธํŠธ์—์„œ ๋‹ค์‹œ ๋–ผ์–ด ๋‚ธ ๋ฐ์ดํ„ฐ ์„ธํŠธ

๊ต์ฐจ ๊ฒ€์ฆ : ํ›ˆ๋ จ ์„ธํŠธ๋ฅผ ์—ฌ๋Ÿฌ ํด๋“œ๋กœ ๋‚˜๋ˆˆ ๋‹ค์Œ ํ•œ ํด๋“œ๊ฐ€ ๊ฒ€์ฆ ์„ธํŠธ์˜ ์—ญํ• ์„ ํ•˜๊ณ  ๋‚˜๋จธ์ง€ ํด๋“œ์—์„œ๋Š” ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•จ

                   ๊ต์ฐจ ๊ฒ€์ฆ์€ ์ด๋Ÿฐ ์‹์œผ๋กœ ๋ชจ๋“  ํด๋“œ์— ๋Œ€ํ•ด ๊ฒ€์ฆ ์ ์ˆ˜๋ฅผ ์–ป์–ด ํ‰๊ท ํ•˜๋Š” ๋ฐฉ๋ฒ•

๊ทธ๋ฆฌ๋“œ ์„œ์น˜ : ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํƒ์ƒ‰์„ ์ž๋™ํ™”ํ•ด ์ฃผ๋Š” ๋„๊ตฌ

                       ํƒ์ƒ‰ํ•  ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๋‚ญ๋ คํ•˜๋ฉด ๊ต์ฐจ ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ๊ฐ€์žฅ ์ข‹์€ ๊ฒ€์ฆ ์ ์ˆ˜์˜ ๋งค๊ฐœ๋ณ€์ˆ˜ ์กฐํ•ฉ์„ ์„ ํƒ

                       ๋งˆ์ง€๋ง‰์œผ๋กœ ์ด ๋งค๊ฐœ๋ณ€์ˆ˜ ์กฐํ•ฉ์œผ๋กœ ์ตœ์ข… ๋ชจ๋ธ ํ›ˆ๋ จ

๋žœ๋ค ์„œ์น˜ : ์—ฐ์†๋œ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐ’์„ ํƒ์ƒ‰ํ•  ๋•Œ ์œ ์šฉ

                   ํƒ์ƒ‰ํ•  ๊ฐ’์„ ์ƒ˜ํ”Œ๋งํ•  ์ˆ˜ ์žˆ๋Š” ํ™•๋ฅ  ๋ถ„ํฌ ๊ฐ์ฒด๋ฅผ ์ „๋‹ฌ

                   ์ง€์ •ํ•œ ํšŸ์ˆ˜๋งŒํผ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ๊ต์ฐจ ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์‹œ์Šคํ…œ ์ž์›์ด ํ—ˆ๋ฝํ•˜๋Š” ๋งŒํผ ํƒ์ƒ‰๋Ÿ‰ ์กฐ์ ˆ

 

 

์•™์ƒ๋ธ” ํ•™์Šต : ๋” ์ข‹์€ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜

๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ : ๋Œ€ํ‘œ์ ์ธ ๊ฒฐ์ •ํŠธ๋ฆฌ ๊ธฐ๋ฐ˜์˜ ์•™์ƒ๋ธ” ํ•™์Šต ๋ฐฉ๋ฒ•

                          ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ์ƒ˜ํ”Œ์„ ์‚ฌ์šฉํ•˜๊ณ  ๋žœ๋คํ•˜๊ฒŒ ์ผ๋ถ€ ํŠน์„ฑ์„ ์„ ํƒํ•˜๋Š” ํŠธ๋ฆฌ๋Š” ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ํŠน์ง•

์—‘์ŠคํŠธ๋ผ ํŠธ๋ฆฌ : ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์™€ ๋น„์Šทํ•˜๊ฒŒ ๊ฒฐ์ • ํŠธ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์•™์ƒ๋ธ” ๋ชจ๋ธ์„ ๋งŒ๋“ค์ง€๋งŒ ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ์‚ฌ์šฉ x

                           ๋Œ€์‹  ๋žœ๋คํ•˜๊ฒŒ ๋…ธ๋“œ๋ฅผ ๋ถ„ํ• ํ•ด ๊ณผ๋Œ€์ ํ•ฉ ๊ฐ์†Œ์‹œํ‚ด

๊ทธ๋ ˆ์ด๋””์–ธํŠธ ๋ถ€์ŠคํŒ… : ๊ฒฐ์ • ํŠธ๋ฆฌ๋ฅผ ์—ฐ์†์ ์œผ๋กœ ์ถ”๊ฐ€ํ•˜์—ฌ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ์•™์ƒ๋ธ” ๋ฐฉ๋ฒ•

                                     ํ›ˆ๋ จ ์†๋„๊ฐ€ ์กฐ๊ธˆ ๋А๋ฆฌ์ง€๋งŒ ๋” ์ข‹์€ ์„ฑ๋Šฅ ๊ธฐ๋Œ€

ํžˆ์Šคํ† ๊ทธ๋žจ ๊ธฐ๋ฐ˜ ๊ทธ๋ ˆ์ด์–ธํŠธ ๋ถ€์ŠคํŒ… : ๊ทธ๋ ˆ์ด๋””์–ธํŠธ ๋ถ€์ŠคํŒ…์˜ ์†๋„๋ฅผ ๊ฐœ์„ ํ•œ ๊ฒƒ

 


 

โ–ท ํ•ต์‹ฌ ํŒจํ‚ค์ง€, ํ•จ์ˆ˜

< Pandas > 

* info() : ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์˜ ์š”์•ฝ๋œ ์ •๋ณด ์ถœ๋ ฅ

               ์ธ๋ฑ์Šค์™€ ์ปฌ๋Ÿผ ํƒ€์ž…์„ ์ถœ๋ ฅํ•˜๊ณ , ๋„์ด ์•„๋‹Œ ๊ฐ’์˜ ๊ฐœ์ˆ˜, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰ ์ œ๊ณต

verbose : ๊ธฐ๋ณธ๊ฐ’ True๋ฅผ False๋กœ ๋ฐ”๊พธ๋ฉด ๊ฐ ์—ด์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ถœ๋ ฅํ•˜์ง€ ์•Š์Œ

 

* describe() : ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„ ์—ด์˜ ํ†ต๊ณ„ ๊ฐ’ ์ œ๊ณต

                       ์ˆ˜์น˜ํ˜• - ์ตœ์†Œ, ์ตœ๋Œ€, ํ‰๊ท , ํ‘œ์ค€ํŽธ์ฐจ, ์‚ฌ๋ถ„์œ„๊ฐ’

                       ๊ฐ์ฒด ํƒ€์ž… ์—ด - ๊ฐ€์žฅ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ๊ฐ’, ํšŸ์ˆ˜

percentiles : ๋ฐฑ๋ถ„์œ„์ˆ˜ ์ง€์ •

 

< scikit-learn > 

* DecisionTreeClassifier : ๊ฒฐ์ • ํŠธ๋ฆฌ ๋ถ„๋ฅ˜ ํด๋ž˜์Šค

criterion : ๋ถˆ์ˆœ๋„ ์ง€์ •

                 ๊ธฐ๋ณธ๊ฐ’ ์ง€๋‹ˆ๋ถˆ์ˆœ๋„ 'gini' / ์—”ํŠธ๋กœํ”ผ๋ถˆ์ˆœ๋„ 'entropy'

splitter : ๋…ธ๋“œ๋ฅผ ๋ถ„ํ• ํ•˜๋Š” ์ „๋žต

               ๊ธฐ๋ณธ๊ฐ’ 'best' ์ •๋ณด ์ด๋“ ์ตœ๋Œ€  / 'random' ์ž„์˜ ๋…ธ๋“œ ๋ถ„ํ• 

max_depth : ํŠธ๋ฆฌ๊ฐ€ ์„ฑ์žฅํ•  ์ตœ๋Œ€ ๊นŠ์ด ์ง€์ •

                      ๊ธฐ๋ณธ๊ฐ’ None ๋ฆฌํ”„ ๋…ธ๋“œ๊ฐ€ ์ˆœ์ˆ˜ํ•˜๊ฑฐ๋‚˜ min_samples_split๋ณด๋‹ค ์ƒ˜ํ”Œ ๊ฐœ์ˆ˜๊ฐ€ ์ ์„ ๋•Œ๊นŒ์ง€ ์„ฑ์žฅ

min_samples_split : ๋…ธ๋“œ๋ฅผ ๋‚˜๋ˆ„๊ธฐ ์œ„ํ•œ ์ตœ์†Œ ์ƒ˜ํ”Œ ๊ฐœ์ˆ˜ (๊ธฐ๋ณธ๊ฐ’ 2)

max_features : ์ตœ์ ์˜ ๋ถ„ํ• ์„ ์œ„ํ•ด ํƒ์ƒ‰ํ•  ํŠน์„ฑ์˜ ๊ฐœ์ˆ˜ ์ง€์ • (๊ธฐ๋ณธ๊ฐ’ None ๋ชจ๋“  ํŠน์„ฑ ์‚ฌ์šฉ)

 

* plot_tree : ๊ฒฐ์ • ํŠธ๋ฆฌ ๋ชจ๋ธ์„ ์‹œ๊ฐํ™”

                     ์ฒซ๋ฒˆ์งธ ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ ๊ฒฐ์ • ํŠธ๋ฆฌ ๋ชจ๋ธ ๊ฐ์ฒด ์ „๋‹ฌ

max_depth : ๋‚˜ํƒ€๋‚ผ ํŠธ๋ฆฌ์˜ ๊นŠ์ด (๊ธฐ๋ณธ๊ฐ’ None ๋ชจ๋“  ๋…ธ๋“œ ์ถœ๋ ฅ)

feature_names : ํŠน์„ฑ์˜ ์ด๋ฆ„ ์ง€์ •

filled : True๋กœ ์ง€์ •ํ•˜๋ฉด ํƒ€๊นƒ๊ฐ’์—ใ… ๋”ฐ๋ผ ๋…ธ๋“œ ์•ˆ์— ์ƒ‰์„ ์ฑ„์›€

 

* cross_validate()  : ๊ต์ฐจ ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ํ•จ์ˆ˜

                                   ์ฒซ ๋ฒˆ์งธ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๊ต์ฐจ ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰ํ•  ๋ชจ๋ธ ๊ฐ์ฒด ์ „๋‹ฌ

                                   ๋‘ ๋ฒˆ์งธ์™€ ์„ธ ๋ฒˆ์งธ ๋งค๊ฐœ๋ณ€์ˆ˜์— ํŠน์„ฑ๊ณผ ํƒ€๊นƒ ๋ฐ์ดํ„ฐ ์ „๋‹ฌ

scoring : ๊ฒ€์ฆ์— ์‚ฌ์šฉํ•  ํ‰๊ฐ€ ์ง€ํ‘œ ์ง€์ •

                ๊ธฐ๋ณธ์ ์œผ๋กœ ๋ถ„๋ฅ˜ ๋ชจ๋ธ - ์ •ํ™•๋„ 'accuracy'   /  ํšŒ๊ท€ ๋ชจ๋ธ - ๊ฒฐ์ •๊ณ„์ˆ˜ 'r2'

cv : ๊ต์ฐจ ๊ฒ€์ฆ ํด๋“œ ์ˆ˜๋‚˜ ์Šคํ”Œ๋ฆฌํ„ฐ ๊ฐ์ฒด ์ง€์ •  (๊ธฐ๋ณธ๊ฐ’ 5)

       ํšŒ๊ท€ - KFold   /   ๋ถ„๋ฅ˜ - StratifiedKFold  

n_jobs : ๊ต์ฐจ ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰ํ•  ๋•Œ ์‚ฌ์šฉํ•  CPU ์ฝ”์–ด ์ˆ˜ ์ง€์ •

               ๊ธฐ๋ณธ๊ฐ’ 1 (ํ•˜๋‚˜์˜ ์ฝ”์–ด ์‚ฌ์šฉ)   /   -1 ์‹œ์Šคํ…œ์— ์žˆ๋Š” ๋ชจ๋“  ์ฝ”์–ด ์‚ฌ์šฉ

return_train_score : True๋กœ ์ง€์ •ํ•˜๋ฉด ํ›ˆ๋ จ ์„ธํŠธ์˜ ์ ์ˆ˜๋„ ๋ฐ˜ํ™˜ (๊ธฐ๋ณธ๊ฐ’ False)

 

* GridSearchCV()  : ๊ต์ฐจ ๊ฒ€์ฆ์œผ๋กœ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํƒ์ƒ‰ ์ˆ˜ํ–‰

                                  ์ตœ์ƒ์˜ ๋ชจ๋ธ์„ ์ฐพ์€ ํ›„ ํ›ˆ๋ จ ์„ธํŠธ ์ „์ฒด๋ฅผ ์‚ฌ์šฉํ•ด ์ตœ์ข… ๋ชจ๋ธ์„ ํ›ˆ๋ จ

                                  ์ฒซ ๋ฒˆ์งธ ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ ๊ทธ๋ฆฌ๋“œ ์„œ์น˜๋ฅผ ์ˆ˜ํ–‰ํ•  ๋ชจ๋ธ ๊ฐ์ฒด ์ „๋‹ฌ

                                  ๋‘ ๋ฒˆ์งธ ๋งค๊ฐœ๋ณ€์ˆ˜์—๋Š” ํƒ์ƒ‰ํ•  ๋ชจ๋ธ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜์™€ ๊ฐ’์„ ์ „๋‹ฌ

scroing, cv, n_jobs, return_train_score ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” cross_validate() ํ•จ์ˆ˜์™€ ๋™์ผ

 

* RandomizedSearchCV()  : ๊ต์ฐจ ๊ฒ€์ฆ์œผ๋กœ ๋žœ๋คํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ํ–‰

                                                ์ตœ์ƒ์˜ ๋ชจ๋ธ์„ ์ฐพ์€ ํ›„ ํ›ˆ๋ จ ์„ธํŠธ ์ „์ฒด๋ฅผ ์‚ฌ์šฉํ•ด ์ตœ์ข… ๋ชจ๋ธ ํ›ˆ๋ จ

                                                ์ฒซ ๋ฒˆ์งธ ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ ๊ทธ๋ฆฌ๋“œ ์„œ์น˜๋ฅผ ์ˆ˜ํ–‰ํ•  ๋ชจ๋ธ ๊ฐ์ฒด ์ „๋‹ฌ

                                                ๋‘ ๋ฒˆ์งธ ๋งค๊ฐœ๋ณ€์ˆ˜์—๋Š” ํƒ์ƒ‰ํ•  ๋ชจ๋ธ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜์™€ ํ™•๋ฅ  ๋ถ„ํฌ ๊ฐ์ฒด ์ „๋‹ฌ

scroing, cv, n_jobs, return_train_score ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” cross_validate() ํ•จ์ˆ˜์™€ ๋™์ผ

 

* RandomForestClassifier  : ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ ๋ถ„๋ฅ˜ ํด๋ž˜์Šค

n_estimators : ์•™์ƒ๋ธ”์„ ๊ตฌ์„ฑํ•  ํŠธ๋ฆฌ์˜ ๊ฐœ์ˆ˜ ์ง€์ • (๊ธฐ๋ณธ๊ฐ’ 100)

criterion : ๋ถˆ์ˆœ๋„ ์ง€์ •

                 ๊ธฐ๋ณธ๊ฐ’ ์ง€๋‹ˆ๋ถˆ์ˆœ๋„ 'gini' / ์—”ํŠธ๋กœํ”ผ๋ถˆ์ˆœ๋„ 'entropy'

max_depth : ํŠธ๋ฆฌ๊ฐ€ ์„ฑ์žฅํ•  ์ตœ๋Œ€ ๊นŠ์ด ์ง€์ •

                      ๊ธฐ๋ณธ๊ฐ’ None ๋ฆฌํ”„ ๋…ธ๋“œ๊ฐ€ ์ˆœ์ˆ˜ํ•˜๊ฑฐ๋‚˜ min_samples_split๋ณด๋‹ค ์ƒ˜ํ”Œ ๊ฐœ์ˆ˜๊ฐ€ ์ ์„ ๋•Œ๊นŒ์ง€ ์„ฑ์žฅ

min_samples_split : ๋…ธ๋“œ๋ฅผ ๋‚˜๋ˆ„๊ธฐ ์œ„ํ•œ ์ตœ์†Œ ์ƒ˜ํ”Œ ๊ฐœ์ˆ˜ (๊ธฐ๋ณธ๊ฐ’ 2)

max_features : ์ตœ์ ์˜ ๋ถ„ํ• ์„ ์œ„ํ•ด ํƒ์ƒ‰ํ•  ํŠน์„ฑ์˜ ๊ฐœ์ˆ˜ ์ง€์ • (๊ธฐ๋ณธ๊ฐ’ auto  ํŠน์„ฑ ๊ฐœ์ˆ˜์˜ ์ œ๊ณฑ๊ทผ)

boostrap : ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ์ƒ˜ํ”Œ ์‚ฌ์šฉํ• ์ง€ ์ง€์ • (๊ธฐ๋ณธ๊ฐ’ True)

oob_scroce : OOB ์ƒ˜ํ”Œ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จํ•œ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ• ์ง€ ์ง€์ • (๊ธฐ๋ณธ๊ฐ’ False)

n_jobs : ๋ณ‘๋ ฌ ์‹คํ–‰์— ์‚ฌ์šฉํ•  CPU ์ฝ”์–ด ์ˆ˜ ์ง€์ •

               ๊ธฐ๋ณธ๊ฐ’ 1 (ํ•˜๋‚˜์˜ ์ฝ”์–ด ์‚ฌ์šฉ)   /   -1 ์‹œ์Šคํ…œ์— ์žˆ๋Š” ๋ชจ๋“  ์ฝ”์–ด ์‚ฌ์šฉ

 

* ExtraTreesClassifier : ์—‘์ŠคํŠธ๋ผ ํŠธ๋ฆฌ ๋ถ„๋ฅ˜ ํด๋ž˜์Šค 

n_estimators, criterion, max_depth, min_samples_split, max_features, oob_score, n_jobs - ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์™€ ๋™์ผ

boostrap : ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ์ƒ˜ํ”Œ ์‚ฌ์šฉํ• ์ง€ ์ง€์ • (๊ธฐ๋ณธ๊ฐ’ False)

 

* GrandientBoosintClassifier : ๊ทธ๋ ˆ์ด๋””์–ธํŠธ ๋ถ€์ŠคํŒ… ๋ถ„๋ฅ˜ ํด๋ž˜์Šค

loss : ์†์‹ค ํ•จ์ˆ˜ ์ง€์ •, (๊ธฐ๋ณธ๊ฐ’ ๋กœ์ง€์Šคํ‹ฑ ์†์‹ค ํ•จ์ˆ˜  'deviance')

learning_rate : ํŠธ๋ฆฌ๊ฐ€ ์•™์ƒ๋ธ”์— ๊ธฐ์—ฌํ•˜๋Š” ์ •๋„ ์กฐ์ ˆ (๊ธฐ๋ณธ๊ฐ’ 0.1)

n_estimators : ๋ถ€์ŠคํŒ… ๋‹จ๊ณ„๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ํŠธ๋ฆฌ์˜ ๊ฐœ์ˆ˜ (๊ธฐ๋ณธ๊ฐ’ 100)

subsample : ์‚ฌ์šฉํ•  ํ›ˆ๋ จ ์„ธํŠธ์˜ ์ƒ˜ํ”Œ ๋น„์œจ ์ง€์ • (๊ธฐ๋ณธ๊ฐ’ 1.0)

max_depth : ๊ฐœ๋ณ„ ํšŒ๊ท€ ํŠธ๋ฆฌ์˜ ์ตœ๋Œ€ ๊นŠ์ด (๊ธฐ๋ณธ๊ฐ’ 3)

 

* HistGrandientBoosintClassifier : ํžˆ์Šคํ† ๊ทธ๋žจ ๊ธฐ๋ฐ˜ ๊ทธ๋ ˆ์ด๋””์–ธํŠธ ๋ถ€์ŠคํŒ… ๋ถ„๋ฅ˜ ํด๋ž˜์Šค

learning_rate : ํ•™์Šต๋ฃฐ ๋˜๋Š” ๊ฐ์‡ ์œจ (๊ธฐ๋ณธ๊ฐ’ 0.1 / 1.0์ด๋ฉด ๊ฐ์‡  ์ „ํ˜€ ์—†์Œ)

max_iter : ๋ถ€์ŠคํŒ… ๋‹จ๊ณ„๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ํŠธ๋ฆฌ์˜ ๊ฐœ์ˆ˜ (๊ธฐ๋ณธ๊ฐ’ 100)

max_bins : ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜๋ˆŒ ๊ตฌ๊ฐ„์˜ ๊ฐœ์ˆ˜ (๊ธฐ๋ณธ๊ฐ’ 255 ์ด๋ณด๋‹ค ํฌ๊ฒŒ ์ง€์ •ํ•  ์ˆ˜ ์—†์Œ)

 

 


โ–ท ํ™•์ธ๋ฌธ์ œ

1. ๊ฒฐ์ • ํŠธ๋ฆฌ์˜ ๋ถˆ์ˆœ๋„์— ๋Œ€ํ•ด ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์„ค๋ช…

์ง€๋‹ˆ ๋ถˆ์ˆœ๋„๋Š” ํด๋ž˜์Šค์˜ ๋น„์œจ์„ ์ œ๊ณฑํ•˜์—ฌ ๋ชจ๋‘ ๋”ํ•œ ๋‹ค์Œ 1์—์„œ ๋บ€๋‹ค

์—”ํŠธ๋กœํ”ผ ๋ถˆ์ˆœ๋„๋Š” ํด๋ž˜์Šค ๋น„์œจ๊ณผ ํด๋ž˜์Šค ๋น„์œจ์— ๋ฐ‘์ด 2์ธ ๋กœ๊ทธ๋ฅผ ์ ์šฉํ•œ ๊ฐ’์„ ๊ณฑํ•ด์„œ ๋ชจ๋‘ ๋”ํ•œ ํ›„ ์Œ์ˆ˜๋กœ ๋ฐ”๊พธ์–ด ๊ณ„์‚ฐ

 

2. ๊ฒฐ์ • ํŠธ๋ฆฌ์—์„œ ๊ณ„์‚ฐํ•œ ํŠน์„ฑ ์ค‘์š”๋„๊ฐ€ ์ €์žฅ๋˜์–ด ์žˆ๋Š” ์†์„ฑ

feature_importances_

 

3. ํ›ˆ๋ จ ์„ธํŠธ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํด๋“œ๋กœ ๋‚˜๋ˆ„๊ณ  ํด๋“œ 1๊ฐœ๋Š” ํ‰๊ฐ€ ์šฉ๋„๋กœ, ๋‚˜๋จธ์ง€ ํด๋“œ๋Š” ํ›ˆ๋ จ ์šฉ๋„๋กœ ์‚ฌ์šฉ

    ๊ทธ ๋‹ค์Œ ๋ชจ๋“  ํด๋“œ๋ฅผ ํ‰๊ฐ€ ์šฉ๋„๋กœ ์‚ฌ์šฉํ•˜๊ฒŒ๋” ํด๋“œ ๊ฐœ์ˆ˜๋งŒํผ ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณต

    ์ด๋Ÿฌํ•œ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ๋ฌด์—‡?

๊ต์ฐจ ๊ฒ€์ฆ

 

4. ๋‹ค์Œ ์ค‘ ๊ต์ฐจ ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰ํ•˜์ง€ ์•Š๋Š” ํ•จ์ˆ˜๋‚˜ ํด๋ž˜์Šค๋Š”?

cross_validate()

GridSearchCV

RandomizedSearchCV

train_test_split()

 

5. ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๊ณ  ๊ฐ ๋ชจ๋ธ์˜ ์˜ˆ์ธก์„ ์ทจํ•ฉํ•˜์—ฌ ์ตœ์ข… ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“œ๋Š” ํ•™์Šต ๋ฐฉ์‹

์•™์ƒ๋ธ” ํ•™์Šต

 

6. ๋‹ค์Œ ์ค‘ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ์— ์†ํ•˜๋Š” ๊ฒƒ์€ ๋ฌด์—‡?

์—‘์…€ ๋ฐ์ดํ„ฐ

csv ๋ฐ์ดํ„ฐ

๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ๋ฐ์ดํ„ฐ

์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ

 

3. ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ค‘ ๊ธฐ๋ณธ์ ์œผ๋กœ ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ์ƒ˜ํ”Œ์„ ์‚ฌ์šฉํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜?

๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ

์—‘์ŠคํŠธ๋ผ ํŠธ๋ฆฌ

๊ทธ๋ ˆ์ด๋””์–ธํŠธ ๋ถ€์ŠคํŒ…

ํžˆ์Šคํ† ๊ทธ๋žจ ๊ธฐ๋ฐ˜ ๊ทธ๋ ˆ์ด๋””์–ธํŠธ ๋ถ€์ŠคํŒ…

 

 

 

 

 

 

 

 

 

 

 


์ฐธ๊ณ ๋„์„œ : ํ˜ผ์ž๊ณต๋ถ€ํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ + ๋”ฅ๋Ÿฌ๋‹, ๋ฐ•ํ•ด์„ , ํ•œ๋น›๋ฏธ๋””์–ด, 2020๋…„

๋ฐ˜์‘ํ˜•

BELATED ARTICLES

more