๋ฐ์ดํฐ ๋ถ์ ๊ณผ์ (Data Analysis Process)
1. Goal Definition
- ๊ฐ๊ด์ , ๊ตฌ์ฒด์ ์ผ๋ก ๋ถ์ ๋์ ์ ์(=๋ฌธ์ ์ ์)
- ํด๋น ๋๋ฉ์ธ์ ๋ํ ์ดํด
- ํด๋น ํ๋ก์ ํธ์ ๋ํ ์ดํด
2. Data Searching & Collecting
- ๋ฌธ์ ์ ์ ํ ํ์ํ ๋ฐ์ดํฐ ๊ฒ์
- ๋ฐ์ดํฐ ์์ง ๋ฐ ๋ฐ์ดํฐ ํ์
3. Data Preparation
- ๋ฐ์ดํฐ์ noise๋ฅผ ์ ๊ฑฐํ๊ณ ์ํ๋ ํํ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ณํํ๋ Data preprocessing(๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ )ํฌํจ
- ์ต์ข ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํ ๋ฐ์ดํฐ ์ค๋น ๋จ๊ณ
- ๊ด๋ จ ๋ฐ์ดํฐ๋ผ๋ฆฌ ๊ด๊ณ ์ค์ ๋ฐ ๋ฐ์ดํฐ ์ดํด, ๋ฐ์ดํฐ ๋ณํฉ
4. Modeling
- ์ด๋ป๊ฒ ๋ชจ๋ธ ์ค๊ณํ ์ง ๊ตฌ์ฑ
- R, Python ๋ฑ ์ด์ฉํด ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ ๋ฑ ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ ์ ์ฉ
5. Evaluation
- ๋ชจ๋ธ๋ง ํตํด ๋์ถ๋ ๊ฒฐ๊ณผ ํ๊ฐ
- ํ๊ณผ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ ๋ฐ์ดํฐ ์ค๋น, ๋ชจ๋ธ๋ง ๋จ๊ณ ๋ฐ๋ณต
6. Deployment
- ๋ถ์๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฅ ์ ์ฉํ๊ธฐ ์ํ ์ฒด๊ณํ ๋จ๊ณ
- ๋ชจ๋ธ๋ง ํ ์ธ์ฌ์ดํธ ๋์ถ ๋จ๊ณ
์ ์ฒ๋ฆฌ์ ์ค์์ฑ (Importance of Data Preprocessing)
What is Preprocessing?
- Raw data: ๋ถ์์ ์ ์ ๋ก ๋ง๋ค์ด ์ง ๊ฒ์ด ์๋, ๊ฐ๊ณต๋์ง ์์ ๋ฐ์ดํฐ
- ์ ์ฒ๋ฆฌ ๊ณผ์ : Raw data๋ฅผ ๋ถ์์ ์๋ง์ ํํ๋ก ๋ฐ๊พธ๋ ๋ฑ ์๋ฏธ ์๊ฒ ๊ฐ๊ณตํ์ฌ ๋ณด๋ค ์ค๋ช ๋ ฅ ๋์ ๋ฐ์ดํฐ๋ก ๋ง๋๋ ์์
- ์๋นํ ๋ง์ ๋ ธ๋ ฅ๊ณผ ์๊ฐ์ ํฌ์ํด์ผ ๋ชจ๋ธ๋ง ์ฑ๋ฅ์ด ์ข์์ง
Features
- ์ ์ฒ๋ฆฌ ํ๋ ๊ณผ์ ์์ ๋ฐ์ดํฐ์ features ์ถ์ถ
- ์ด๋ค feature๋ฅผ ์ ํํ๋๋์ ๋ฐ๋ผ ๋ถ์ ๊ฒฐ๊ณผ์ ์ ํ๋๋ ์ธ์ฌ์ดํธ๊ฐ ํ์ฐํ ๋ฌ๋ผ์ง
- ์ ์ฒ๋ฆฌ ๊ณผ์ ์ด ์ฑ๊ณต์ ์ด๋ฉด feature๋ฅผ ๊ณ ๋ฅด๊ธฐ ์ฌ์ → ๋ ์ข์ ๋ถ์ ๊ฒฐ๊ณผ ์ด๋์ด๋
Modeling & Evaluation
- ๋ชจ๋ธ๋ง ๊ณผ์ ์ ๊ฑฐ์น ํ Evaluation๋จ๊ณ์์ ๋ชจ๋ธ ํ๊ฐ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ Data preprocessing ๊ณผ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ๊ธฐ๋ ํจ.
- ๊ณ ๋์ ๋ถ์ ๊ธฐ์ ์ด ์๋๋ผ๋ ์ ์ ๋ฆฌ๋ ๋ฐ์ดํฐ๊ฐ ํ๋ณด๋์ง ์์ผ๋ฉด ์๋ชป๋ ๊ฒฐ๊ณผ ๋์ฌ ์ ์์
- ๋ ์ข์ ํ์ง์ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๋ฉด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋์์ง
๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ๋ค์๊ฒ ์ด๋์ ๊ฐ์ฅ ์๊ฐ์ ๋ง์ด ์๋๊ณ ์ค๋ฌธ์กฐ์ฌ๋ฅผ ํ ๊ฒฐ๊ณผ, ์ฝ 79% ๊ฐ ๋ฐ์ดํฐ ์์ง ๋ฐ ์ ์ฒ๋ฆฌ์ผ ์ ๋๋ก ์๋นํ ์ค์ํ ๊ณผ์ ์ด๋ค.
์ง์ ํ๋ก์ ํธ๋ฅผ ์งํํ ๋, ์ด๋ฐ์ ํต์ผ์ฑ ์๋ ๋ฐ์ดํฐ๋ฅผ ๋ด ๋ชฉ์ ์ ๋ง๊ฒ ์ ์ ํ๋ ๊ฒ์ ๋งค์ฐ๋งค์ฐ๋งค์๋งค์ฐ ์ค์ํ๋ค๋ ๊ฑธ ์ ์คํ ๊นจ๋ซ๊ณ ์์ฑํ๋ ๊ธ ^^*
๋ฒ๊ฑฐ๋ก์ด ์์ ์ด์ง๋ง ๊ทธ๋งํผ ์ค์ํ ์์ ์ด๋ค.
728x90