[ํ˜ผ๊ณต๋จธ์‹ ] 03. ์ •๋ฆฌ

2022. 4. 26. 09:00

โ–ท ํ‚ค์›Œ๋“œ ํ•ต์‹ฌ ํฌ์ธํŠธ

ํšŒ๊ท€ : ์ž„์˜์˜ ์ˆ˜์น˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ

        ํƒ€๊นƒ๊ฐ’๋„ ์ž„์˜์˜ ์ˆ˜์น˜๊ฐ€ ๋จ

k-์ตœ๊ทผ์ ‘ ์ด์›ƒ ํšŒ๊ท€ : k-์ตœ๊ทผ์ ‘ ์ด์›ƒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•ด ํšŒ๊ท€ ๋ฌธ์ œ ํ’‚

                           ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ด์›ƒ ์ƒ˜ํ”Œ์„ ์ฐพ๊ณ  ์ด ์ƒ˜ํ”Œ๋“ค์˜ ํƒ€๊นƒ๊ฐ’์„ ํ‰๊ท ํ•˜์—ฌ ์˜ˆ์ธก์œผ๋กœ ์‚ผ๋Š”๋‹ค

๊ฒฐ์ •๊ณ„์ˆ˜(R์ œ๊ณฑ) : ๋Œ€ํ‘œ์ ์ธ ํšŒ๊ท€ ๋ฌธ์ œ์˜ ์„ฑ๋Šฅ ์ธก์ • ๋„๊ตฌ

                       1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ข‹๊ณ , 0์— ๊ฐ€๊น๋‹ค๋ฉด ์„ฑ๋Šฅ์ด ๋‚˜์œ ๋ชจ๋ธ

๊ณผ๋Œ€์ ํ•ฉ : ๋ชจ๋ธ์˜ ํ›ˆ๋ จ ์„ธํŠธ ์„ฑ๋Šฅ์ด ํ…Œ์ŠคํŠธ ์„ฑ๋Šฅ๋ณด๋‹ค ํ›จ์”ฌ ๋†’์„ ๋•Œ

              ๋ชจ๋ธ์ด ํ›ˆ๋ จ ์„ธํŠธ์— ๋„ˆ๋ฌด ์ง‘์ฐฉํ•ด์„œ ๋ฐ์ดํ„ฐ์— ๋‚ด์žฌ๋œ ๊ฑฐ์‹œ์ ์ธ ํŒจํ„ด์„ ๊ฐ์ง€ํ•˜์ง€ ๋ชปํ•œ๋‹ค

๊ณผ์†Œ์ ํ•ฉ : ํ›ˆ๋ จ ์„ธํŠธ์™€ ํ…Œ์ŠคํŠธ ์„ธํŠธ ์„ฑ๋Šฅ์ด ๋ชจ๋‘ ๋™์ผํ•˜๊ฒŒ ๋‚ฎ๊ฑฐ๋‚˜ ํ…Œ์ŠคํŠธ ์„ธํŠธ ์„ฑ๋Šฅ์ด ์˜คํžˆ๋ ค ๋†’์„ ๋•Œ

              ๋” ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด ํ›ˆ๋ จ ์„ธํŠธ์— ์ž˜ ๋งž๋Š” ๋ชจ๋ธ ๋งŒ๋“ค๊ธฐ

 

 

์„ ํ˜• ํšŒ๊ท€ : ํŠน์„ฑ๊ณผ ํƒ€๊นƒ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ๊ฐ€์žฅ ์ž˜ ๋‚˜ํƒ€๋‚ด๋Š” ์„ ํ˜• ๋ฐฉ์ •์‹ ์ฐพ์Œ

                ํŠน์„ฑ์ด ํ•˜๋‚˜๋ฉด ์ง์„  ๋ฐฉ์ •์‹

์„ ํ˜• ํšŒ๊ท€๊ฐ€ ์ฐพ์€ ํŠน์„ฑ๊ณผ ํƒ€๊นƒ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋Š” ์„ ํ˜• ๋ฐฉ์ •์‹์˜ ๊ณ„์ˆ˜ ๋˜๋Š” ๊ฐ€์ค‘์น˜์— ์ €์žฅ

๊ฐ€์ค‘์น˜๋Š” ๋ฐฉ์ •์‹์˜ ๊ธฐ์šธ๊ธฐ์™€ ์ ˆํŽธ ๋ชจ๋‘ ์˜๋ฏธํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ

 

๋ชจ๋ธ ํ”ผ๋ผ๋ฏธํ„ฐ : ์„ ํ˜• ํšŒ๊ท€๊ฐ€ ์ฐพ์€ ๊ฐ€์ค‘์น˜์ฒ˜๋Ÿผ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด ํŠน์„ฑ์—์„œ ํ•™์Šตํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ

๋‹คํ•ญ ํšŒ๊ท€ : ๋‹คํ•ญ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์„ฑ๊ณผ ํƒ€๊นƒ ์‚ฌ์ด์˜ ๊ด€๊ณ„ ๋‚˜ํƒ€๋ƒ„

                ๋น„์„ ํ˜•์ผ ์ˆ˜ ์žˆ์ง€๋งŒ ์—ฌ์ „ํžˆ ์„ ํ˜• ํšŒ๊ท€๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Œ

 

๋‹ค์ค‘ ํšŒ๊ท€ : ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํŠน์„ฑ์„ ์‚ฌ์šฉํ•˜๋Š” ํšŒ๊ท€ ๋ชจ๋ธ

               ํŠน์„ฑ์ด ๋งŽ์œผ๋ฉด ์„ ํ˜• ๋ชจ๋ธ์€ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ ๋ฐœํœ˜

ํŠน์„ฑ ๊ณตํ•™ : ์ฃผ์–ด์ง„ ํŠน์„ฑ์„ ์กฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ํŠน์„ฑ์„ ๋งŒ๋“œ๋Š” ์ผ๋ จ์˜ ์ž‘์—… ๊ณผ์ •

๋ฆฟ์ง€ : ๊ทœ์ œ๊ฐ€ ์žˆ๋Š” ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜, ์„ ํ˜• ๋ชจ๋ธ์˜ ๊ณ„์ˆ˜๋ฅผ ์ž‘๊ฒŒ ๋งŒ๋“ค์–ด ๊ณผ๋Œ€์ ํ•ฉ ์™„ํ™”

๋ผ์˜ : ๋˜ ๋‹ค๋ฅธ ๊ทœ์ œ๊ฐ€ ์žˆ๋Š” ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ, ๋ฆฟ์ง€์™€ ๋‹ฌ๋ฆฌ ๊ณ„์ˆ˜ ๊ฐ’์„ ์•„์˜ˆ 0์œผ๋กœ ๋งŒ๋“ค ์ˆ˜๋„ ์žˆ์Œ

ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ : ๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ํ•™์Šตํ•˜์ง€ ์•Š๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ                       ์ด๋Ÿฐ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์‚ฌ๋žŒ์ด ์‚ฌ์ „์— ์ง€์ •ํ•ด์•ผ ํ•จ                       ์˜ˆ) ๋ฆฟ์ง€, ๋ผ์˜์˜ ๊ทœ์ œ ๊ฐ•๋„ alpha ํŒŒ๋ผ๋ฏธํ„ฐ

 

โ–ท ํ•ต์‹ฌ ํŒจํ‚ค์ง€, ํ•จ์ˆ˜

< scikit-learn > 

* KNeighborsRegressor : k-์ตœ๊ทผ์ ‘ ์ด์›ƒ ํšŒ๊ท€ ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ์‚ฌ์ดํ‚ท๋Ÿฐ ํด๋ž˜์Šค

n_neighbors : ์ด์›ƒ์˜ ๊ฐœ์ˆ˜ ์ง€์ •, ๊ธฐ๋ณธ๊ฐ’ 5

๋‹ค๋ฅธ ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” KNeighborsClassifier ํด๋ž˜์Šค์™€ ๊ฑฐ์˜ ๋™์ผ

* mean_absolute_error( ) : ํšŒ๊ท€ ๋ชจ๋ธ์˜ ํ‰๊ท  ์ ˆ๋Œ“๊ฐ’ ์˜ค์ฐจ๋ฅผ ๊ณ„์‚ฐ

์ฒซ ๋ฒˆ์งธ ๋งค๊ฐœ๋ณ€์ˆ˜ = ํƒ€๊นƒ, ๋‘ ๋ฒˆ์งธ ๋งค๊ฐœ๋ณ€์ˆ˜ = ์˜ˆ์ธก๊ฐ’

* mean_squared_error( ) : ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ ๊ณ„์‚ฐ

                                  ํƒ€๊นƒ๊ณผ ์˜ˆ์ธก์„ ๋บ€ ๊ฐ’์„ ์ œ๊ณฑํ•œ ๋‹ค์Œ ์ „์ฒด ์ƒ˜ํ”Œ์— ๋Œ€ํ•ด ํ‰๊ท ํ•œ ๊ฐ’์„ ๋ฐ˜ํ™˜

 

* LinearRegression : ์„ ํ˜• ํšŒ๊ท€ ํด๋ž˜์Šค

fit_intercept ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ False๋กœ ์ง€์ •ํ•˜๋ฉด ์ ˆํŽธ์„ ํ•™์Šตํ•˜์ง€ ์•Š์Œ, ๊ธฐ๋ณธ๊ฐ’ True

ํ•™์Šต๋œ coef_ ์†์„ฑ์€ ํŠน์„ฑ์— ๋Œ€ํ•œ ๊ณ„์ˆ˜๋ฅผ ํฌํ•จํ•œ ๋ฐฐ์—ด

์ฆ‰, ์ด ๋ฐฐ์—ด์˜ ํฌ๊ธฐ๋Š” ํŠน์„ฑ์˜ ๊ฐœ์ˆ˜์™€ ๊ฐ™์Œ

intercept_ ์†์„ฑ์—๋Š” ์ ˆํŽธ ์ €์žฅ

 

* PolynomialFeatures : ์ฃผ์–ด์ง„ ํŠน์„ฑ์„ ์กฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ํŠน์„ฑ์„ ๋งŒ๋“ ๋‹ค

degree ์ตœ๊ณ  ์ฐจ์ˆ˜ ์ง€์ •, ๊ธฐ๋ณธ๊ฐ’ 2

interaction_only๊ฐ€ True ์ด๋ฉด ๊ฑฐ๋“ญ์ œ๊ณฑ ํ•ญ์€ ์ œ์™ธ, ํŠน์„ฑ ๊ฐ„์˜ ๊ณฑ์…ˆ ํ•ญ๋งŒ ์ถ”๊ฐ€, ๊ธฐ๋ณธ๊ฐ’ False

include_bias๊ฐ€ False์ด๋ฉด ์ ˆํŽธ์„ ์œ„ํ•œ ํŠน์„ฑ์„ ์ถ”๊ฐ€ํ•˜์ง€ ์•Š์Œ, ๊ธฐ๋ณธ๊ฐ’ True

 

* Ridge : ๋ฆฟ์ง€ ํšŒ๊ท€ ๋ชจ๋ธ ํ›ˆ๋ จ

alpha ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ ๊ทœ์ œ์˜ ๊ฐ•๋„ ์กฐ์ ˆ, ๊ฐ’์ด ํด์ˆ˜๋ก ๊ทœ์ œ ์„ธ์ง, ๊ธฐ๋ณธ๊ฐ’ 1

solver ์ตœ์ ์˜ ๋ชจ๋ธ ์ฐพ๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ• ์ง€์ •

* Lasso : ๋ผ์˜ ํšŒ๊ท€ ๋ชจ๋ธ ํ›ˆ๋ จ

max_iter ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ˆ˜ํ–‰ ๋ฐ˜๋ณต ํšŸ์ˆ˜ ์ง€์ •, ๊ธฐ๋ณธ๊ฐ’ 1000

 

< numpy > 

* reshape( ) : ๋ฐฐ์—ด์˜ ํฌ๊ธฐ๋ฅผ ๋ฐ”๊พธ๋Š” ๋ฉ”์„œ๋“œ

                   ๋ฐ”๊พธ๊ธฐ ์ „ํ›„์˜ ๋ฐฐ์—ด ์›์†Œ ๊ฐœ์ˆ˜๋Š” ๋™์ผํ•ด์•ผ ํ•จ

 .reshape(-1,1) : ์ฒซ ๋ฒˆ์งธ ํฌ๊ธฐ๋ฅผ ๋‚˜๋จธ์ง€ ์›์†Œ ๊ฐœ์ˆ˜๋กœ ์ฑ„์šฐ๊ณ , ๋‘ ๋ฒˆ์žฌ ํฌ๊ธฐ๋ฅผ 1

 

< pandas > 

* read.csv( ) : csv ํŒŒ์ผ์„ ๋กœ์ปฌ ์ปดํ“จํ„ฐ๋‚˜ ์ธํ„ฐ๋„ท์—์„œ ์ฝ์–ด ํŒ๋‹ค์Šค ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ•จ์ˆ˜

sep : csv ํŒŒ์ผ์˜ ๊ตฌ๋ถ„์ž ์ง€์ •, ๊ธฐ๋ณธ๊ฐ’ ์ฝค๋งˆ(,)

header : ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์˜ ์—ด ์ด๋ฆ„์œผ๋กœ ์‚ฌ์šฉํ•  csv ํŒŒ์ผ์˜ ํ–‰ ๋ฒˆํ˜ธ ์ง€์ •, ๊ธฐ๋ณธ์ ์œผ๋กœ ์ฒซ ๋ฒˆ์จฐ ํ–‰์„ ์—ด ์ด๋ฆ„์œผ๋กœ ์‚ฌ์šฉ

skiprows : ํŒŒ์ผ์—์„œ ์ฝ๊ธฐ ์ „์— ๊ฑด๋„ˆ๋›ธ ํ–‰์˜ ๊ฐœ์ˆ˜ ์ง€์ •

nrows : ํŒŒ์ผ์—์„œ ์ฝ์„ ํ–‰์˜ ๊ฐœ์ˆ˜ ์ง€์ •

 

 

 

โ–ท ํ™•์ธ๋ฌธ์ œ

1. k-์ตœ๊ทผ์ ‘ ์ด์›ƒ ํšŒ๊ท€์—์„œ๋Š” ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ์–ด๋–ป๊ฒŒ ๋งŒ๋“œ๋‚˜์š”?

> ์ด์›ƒ ์ƒ˜ํ”Œ์˜ ํƒ€๊นƒ๊ฐ’์˜ ํ‰๊ท 

 

2. ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ์ด ์ฐพ์€ ๋ฐฉ์ •์‹์˜ ๊ณ„์ˆ˜๋ฅผ ๋ฌด์—‡์ด๋ผ๊ณ  ๋ถ€๋ฅด๋‚˜์š”?

> ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ

 

3. ์‚ฌ์ดํ‚ท๋Ÿฐ์—์„œ ๋‹คํ•ญ ํšŒ๊ท€ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•  ์ˆ˜ ์žˆ๋Š” ํด๋ž˜์Šค๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

> LinearRegression

 

4. a, b, c ํŠน์„ฑ์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ํ›ˆ๋ จ ์„ธํŠธ๋ฅผ PolynomialFeatures(degree=3)์œผ๋กœ ๋ณ€ํ™˜ํ–ˆ๋‹ค.

๋‹ค์Œ ์ค‘ ์ด ๋ณ€ํ™˜๋œ ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋˜์ง€ ์•Š๋Š” ํŠน์„ฑ์€ ๋ฌด์—‡์ธ๊ฐ€์š”?

 (1) 1

 (2) a

 (3) a*b

 (4) a*b^3

 

5. ํŠน์„ฑ์„ ํ‘œ์ค€ํ™”ํ•˜๋Š” ์‚ฌ์ดํ‚ท๋Ÿฐ ๋ณ€ํ™˜๊ธฐ ํด๋ž˜์Šค๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

> StandardScaler

 

6. ๋‹ค์Œ ์ค‘ ๊ณผ๋Œ€์ ํ•ฉ๊ณผ ๊ณผ์†Œ์ ํ•ฉ์„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํ‘œํ˜„ํ•˜์ง€ ๋ชปํ•œ ๊ฒƒ์€ ๋ฌด์—‡์ธ๊ฐ€์š”?

 (1) ๊ณผ๋Œ€์ ํ•ฉ์ธ ๋ชจ๋ธ์€ ํ›ˆ๋ จ ์„ธํŠธ์˜ ์ ์ˆ˜๊ฐ€ ๋†’์Šต๋‹ˆ๋‹ค.

 (2) ๊ณผ๋Œ€์ ํ•ฉ์ธ ๋ชจ๋ธ์€ ํ…Œ์ŠคํŠธ ์„ธํŠธ์˜ ์ ์ˆ˜๋„ ๋†’์Šต๋‹ˆ๋‹ค.

 (3) ๊ณผ์†Œ์ ํ•ฉ์ธ ๋ชจ๋ธ์€ ํ›ˆ๋ จ ์„ธํŠธ์˜ ์ ์ˆ˜๊ฐ€ ๋‚ฎ์Šต๋‹ˆ๋‹ค.

 (4) ๊ณผ์†Œ์ ํ•ฉ์ธ ๋ชจ๋ธ์€ ํ…Œ์ŠคํŠธ ์„ธํŠธ์˜ ์ ์ˆ˜๋„ ๋‚ฎ์Šต๋‹ˆ๋‹ค.

 

 

 

 


์ฐธ๊ณ ๋„์„œ : ํ˜ผ์ž๊ณต๋ถ€ํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ + ๋”ฅ๋Ÿฌ๋‹, ๋ฐ•ํ•ด์„ , ํ•œ๋น›๋ฏธ๋””์–ด, 2020๋…„

๋ฐ˜์‘ํ˜•

BELATED ARTICLES

more