데이터 νŒŒμ΄ν”„λΌμΈμ€ μ—¬λŸ¬ μ†ŒμŠ€μ—μ„œ 데이터λ₯Ό μˆ˜μ§‘ν•˜κ³  데이터λ₯Ό μ΅œμ ν™” 및 λ³€ν™˜ν•˜λ©° 데이터 μ†ŒλΉ„μžκ°€ μ‚¬μš©ν•  수 μžˆλ„λ‘ ν•˜λŠ” ν”„λ‘œμ„ΈμŠ€μž…λ‹ˆλ‹€. λ°μ΄ν„° μ—”μ§€λ‹ˆμ–΄λ§ μ—­ν• μ˜ μ€‘μš”ν•œ κΈ°λŠ₯은 μ΄λŸ¬ν•œ νŒŒμ΄ν”„λΌμΈμ„ μ„€κ³„ν•˜κ±°λ‚˜ μ„€κ³„ν•˜λŠ” λŠ₯λ ₯μž…λ‹ˆλ‹€.

 

이 μž₯μ—μ„œλŠ” λ‹€μŒ 주제λ₯Ό λ‹€λ£Ήλ‹ˆλ‹€.

  1. 데이터 νŒŒμ΄ν”„λΌμΈ 섀계 μž‘μ—… μ ‘κ·Ό
  2. 데이터 μ†ŒλΉ„μž 식별 및 μš”κ΅¬ 사항 이해
  3. 데이터 μ†ŒμŠ€ 식별 및 데이터 μˆ˜μ§‘
  4. 데이터 λ³€ν™˜ 및 μ΅œμ ν™” 식별
  5. 데이터 λ§ˆνŠΈμ— 데이터 λ‘œλ“œ
  6. ν™”μ΄νŠΈλ³΄λ“œ μ„Έμ…˜ 마무리

 

1. 데이터 νŒŒμ΄ν”„λΌμΈ μ•„ν‚€ν…μ²˜ μ ‘κ·Ό

μƒˆλ‘œμš΄ 데이터 μ—”μ§€λ‹ˆμ–΄λ§ ν”„λ‘œμ νŠΈλ₯Ό μ‹œμž‘ν•  λ•Œ ν”νžˆ λ³Ό 수 μžˆλŠ” μ‹€μˆ˜λŠ” λͺ¨λ“  μž‘μ—…μ„ ν•œ λ²ˆμ— μˆ˜ν–‰ν•˜μ—¬ λͺ¨λ“  μ‚¬μš© 사둀λ₯Ό ν¬ν•¨ν•˜λŠ” μ†”λ£¨μ…˜μ„ λ§Œλ“œλŠ” κ²ƒμž…λ‹ˆλ‹€. 보닀 λ‚˜μ€ 접근법은 ꡬ체적인 μ‚¬μš© 사둀λ₯Ό μ‹λ³„ν•˜κ³ , κ·Έ ν•˜λ‚˜μ˜ 결과에 μ΄ˆμ μ„ λ§žμΆ”λ©΄μ„œ ν”„λ‘œμ νŠΈλ₯Ό μ‹œμž‘ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. (단, 전체적인 그림은 염두에 두어야 ν•©λ‹ˆλ‹€.)

 

합리적인 μ‹œκ°„ 내에 μ™„λ£Œν•  수 μžˆλŠ” 달성 κ°€λŠ₯ν•œ 결과에 집쀑해야 ν•˜λŠ” λ™μ‹œμ—, ν–₯ν›„ ν”„λ‘œμ νŠΈμ— μ‚¬μš©ν•  수 μžˆλŠ” ν”„λ ˆμž„μ›Œν¬ λ‚΄μ—μ„œ λΉŒλ“œν•˜κ³  μžˆλŠ”μ§€ 확인해야 ν•©λ‹ˆλ‹€. 이 밸런슀λ₯Ό μ˜¬λ°”λ₯΄κ²Œ μž‘λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.

 

주택 섀계 및 νŒŒμ΄ν”„λΌμΈ 섀계

μƒˆ 집을 μ§“λŠ”λ‹€κ³  κ°€μ •ν•˜λ©΄ κ±΄μΆ•κ°€λŠ” 'ν΄λΌμ΄μ–ΈνŠΈ μš”κ΅¬ 사항, 건좕할 땅에 λŒ€ν•œ 정보, ν•΄λ‹Ή ν™˜κ²½μ— κ°€μž₯ μ ν•©ν•œ 재료 μœ ν˜•'κ³Ό 같은 μž‘μ—…μ„ μˆ˜ν–‰ν•©λ‹ˆλ‹€. 이 κ³Όμ •μ—μ„œ κ±΄μΆ•κ°€λŠ” λŒ€λž΅μ μΈ κ³„νšμ„ λ‚˜νƒ€λ‚΄λŠ” 밑그림을 μž‘μ„±ν•©λ‹ˆλ‹€. 높은 μˆ˜μ€€μ˜ 계약이 ν•©μ˜λ˜λ©΄ κ±΄μΆ•κ°€λŠ” '방의 배치, μƒ€μ›Œ μ‹œμ„€, μ‘°λͺ…, λ°°κ΄€ μ „κΈ°μ„  μœ„μΉ˜'처럼 보닀 μžμ„Έν•œ 정보λ₯Ό μˆ˜μ§‘ν•˜κ³  μ„ΈλΆ€ μ•„ν‚€ν…μ²˜ κ³„νšμ„ μž‘μ„±ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 

데이터 νŒŒμ΄ν”„λΌμΈμ„ μœ„ν•œ μ•„ν‚€ν…μ²˜λ₯Ό μƒμ„±ν•˜λŠ” 데이터 μ—”μ§€λ‹ˆμ–΄μ˜ 경우 μœ μ‚¬ν•œ μ ‘κ·Ό 방식을 μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

  • ν”„λ‘œμ νŠΈ μŠ€ν°μ„œ 및 데이터 μ†ŒλΉ„μžλ‘œλΆ€ν„° μš”κ΅¬ 사항에 λŒ€ν•œ 정보λ₯Ό μˆ˜μ§‘ (고객의 λͺ©ν‘œ, 데이터 μ‚¬μš©μ— μ‚¬μš©ν•  도ꡬ μœ ν˜•, ν•„μš”ν•œ 데이터 λ³€ν™˜ λ“±)
  • μ‚¬μš© κ°€λŠ₯ν•œ 데이터 원본에 λŒ€ν•œ 정보λ₯Ό μˆ˜μ§‘(μ›μ‹œ 데이터λ₯Ό μ €μž₯ν•˜λŠ” μ‹œμŠ€ν…œ, λ°μ΄ν„°μ˜ ν˜•μ‹, μ‹œμŠ€ν…œ μ†Œμœ μžμ™€ 데이터 μ†Œμœ μž λ“±).
  • μ‚¬μš© κ°€λŠ₯ν•œ λ„κ΅¬μ˜ μ’…λ₯˜μ™€ μ΄λŸ¬ν•œ μš”κ±΄μ— κ°€μž₯ μ ν•©ν•œ λ„κ΅¬μ˜ μ’…λ₯˜λ₯Ό κ²°μ •

이 정보λ₯Ό μˆ˜μ§‘ν•˜λŠ” μœ μš©ν•œ 방법은 κ΄€λ ¨ μ΄ν•΄κ΄€κ³„μžμ™€ ν™”μ΄νŠΈλ³΄λ“œ μ„Έμ…˜μ„ μˆ˜ν–‰ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.

 

정보 μˆ˜μ§‘ λ„κ΅¬λ‘œμ„œμ˜ ν™”μ΄νŠΈλ³΄λ“œ

κ΄€λ ¨ 이해 κ΄€κ³„μžμ™€ ν•¨κ»˜ ν™”μ΄νŠΈλ³΄λ“œ μ„Έμ…˜μ„ μ‹€ν–‰ν•˜λ©΄ 데이터 μ—”μ§€λ‹ˆμ–΄κ°€ 데이터 νŒŒμ΄ν”„λΌμΈμ— λŒ€ν•œ 높은 μˆ˜μ€€μ˜ κ³„νšμ„ κ°œλ°œν•˜κ³  μ‹œμž‘ν•˜λŠ” 데 ν•„μš”ν•œ 정보λ₯Ό μˆ˜μ§‘ν•  수 μžˆμŠ΅λ‹ˆλ‹€. ν™”μ΄νŠΈλ³΄λ“œμ˜ λͺ©μ μ€ νŒŒμ΄ν”„λΌμΈμ— λŒ€ν•œ μ „λ°˜μ μΈ 접근법에 λŒ€ν•΄ μ΄ν•΄κ΄€κ³„μžμ™€ ν•©μ˜ν•˜κ³  μ„ΈλΆ€ 섀계에 ν•„μš”ν•œ 정보λ₯Ό μˆ˜μ§‘ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.

 

이 μ±…μ—μ„œλŠ” 데이터λ₯Ό Amazon S3 기반 데이터 레이크둜 μˆ˜μ§‘ν•˜λŠ” μ•„ν‚€ν…μ²˜ μ ‘κ·Ό 방식을 μ‚¬μš©ν•  κ²ƒμž…λ‹ˆλ‹€. λ°μ΄ν„°λŠ” μ²˜μŒμ— μ›μ‹œ μ˜μ—­μœΌλ‘œ μˆ˜μ§‘λœ λ‹€μŒ μ—¬λŸ¬ 도ꡬλ₯Ό μ‚¬μš©ν•˜μ—¬ 데이터λ₯Ό λ³€ν™˜ 및 μ΅œμ ν™”ν•˜μ—¬ λ‹€μ–‘ν•œ 데이터 레이크 μ˜μ—­μ„ 톡해 데이터λ₯Ό μ΄λ™ν•©λ‹ˆλ‹€. 데이터 λ ˆμ΄ν¬μ—λŠ” 데이터가 μ΄λ™ν•˜λŠ” μ—¬λŸ¬ μ˜μ—­μ΄ μžˆμŠ΅λ‹ˆλ‹€. μ˜μ—­μ€ λΉ„μ¦ˆλ‹ˆμŠ€ μš”κ΅¬ 사항을 기반으둜 ν•΄μ•Ό ν•˜λ―€λ‘œ 데이터 λ ˆμ΄ν¬μ— ν•„μš”ν•œ νŠΉμ • μ˜μ—­ μˆ˜λŠ” μ—†μ§€λ§Œ ν™”μ΄νŠΈλ³΄λ“œ μ„Έμ…˜μ—μ„œλŠ” 3개의 μ˜μ—­μ„ ν‘œμ‹œν•©λ‹ˆλ‹€.

 

데이터 μ†ŒλΉ„ μš”κ΅¬ 사항에 따라 λ°μ΄ν„°μ˜ ν•˜μœ„ 집합을 λ‹€μ–‘ν•œ 데이터 λ§ˆνŠΈμ— λ‘œλ“œν•˜μ—¬ λ‹€μ–‘ν•œ μ„œλΉ„μŠ€λ₯Ό 톡해 데이터 μ†ŒλΉ„μžκ°€ 데이터λ₯Ό μ‚¬μš©ν•  수 μžˆλ„λ‘ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 

 

데이터 νŒŒμ΄ν”„λΌμΈ μ•„ν‚€ν…μ²˜μ˜ κ°œμš”

μœ„μ˜ 그림은 일반적인 데이터 νŒŒμ΄ν”„λΌμΈμ˜ κΈ°λ³Έ ꡬ성 μš”μ†Œμ— λŒ€ν•œ 높은 μˆ˜μ€€μ˜ κ°œμš”μ™€

높은 μˆ˜μ€€μ˜ νŒŒμ΄ν”„λΌμΈ μ•„ν‚€ν…μ²˜λ₯Ό κ°œλ°œν•˜λŠ” μ ‘κ·Ό 방식을 λ³΄μ—¬μ€λ‹ˆλ‹€.

 

νŒŒμ΄ν”„λΌμΈ 섀계에 μ ‘κ·Όν•  λ•Œ μˆœμ„œ

  1. Data Consumers - λΉ„μ¦ˆλ‹ˆμŠ€ λͺ©ν‘œ, 데이터 μ†ŒλΉ„μž 및 μš”κ΅¬ 사항 이해
  2. Data Access - 데이터 μ†ŒλΉ„μžκ°€ 데이터에 μ•‘μ„ΈμŠ€ν•˜λŠ” 데 μ‚¬μš©ν•  도ꡬ μœ ν˜• κ²°μ •
  3. Data Sources - μ‚¬μš©ν•  수 μžˆλŠ” 잠재적 데이터 μ†ŒμŠ€ νŒŒμ•…
  4. Ingestion Tools - 데이터 μˆ˜μ§‘μ— μ‚¬μš©ν•  도ꡬ μ„ΈνŠΈ μœ ν˜• κ²°μ •
  5. Data Transformations - μ›μ‹œ 데이터λ₯Ό 가져와 데이터 μ†ŒλΉ„μžλ₯Ό μœ„ν•΄ μ€€λΉ„ν•˜κΈ° μœ„ν•΄ ν•„μš”ν•œ 데이터 λ³€ν™˜ 이해

λ³΄μ‹œλ‹€μ‹œν”Ό νŒŒμ΄ν”„λΌμΈ 섀계 μ‹œμ—λŠ” 항상 μ—­λ°©ν–₯으둜 μž‘μ—…ν•΄μ•Ό ν•©λ‹ˆλ‹€.

즉, 데이터 μ†ŒλΉ„μžμ™€ κ·Έ μš”κ΅¬ μ‚¬ν•­μ—μ„œ μ‹œμž‘ν•˜μ—¬ κ±°κΈ°μ„œλΆ€ν„° νŒŒμ΄ν”„λΌμΈμ„ 섀계해야 ν•©λ‹ˆλ‹€.

 

ν™”μ΄νŠΈλ³΄λ“œ μ„Έμ…˜ 진행

초기 ν”„λ‘œμ νŠΈλ₯Ό νŠΉμ •ν•˜λ©΄ 데이터 μ—”μ§€λ‹ˆμ–΄λŠ” κ΄€λ ¨ κ΄€κ³„μžλ₯Ό λͺ¨μ•„ μ›Œν¬μˆμ„ κ°œμ΅œν•˜κ³  κ³ κΈ‰ 접근방식을 ν™”μ΄νŠΈλ³΄λ“œν™” ν•΄μ•Ό ν•©λ‹ˆλ‹€.λͺ¨λ“  μ΄ν•΄κ΄€κ³„μžκ°€ 직접 λ§Œλ‚˜μ„œ ν™”μ΄νŠΈλ³΄λ“œλ₯Ό μ€€λΉ„ν•˜κ³  λ°˜λ‚˜μ ˆ μ›Œν¬μˆμ„ κ³„νšν•˜λŠ” 것이 μ΄μƒμ μž…λ‹ˆλ‹€.

 

μ΄ν•΄κ΄€κ³„μžλŠ” λ‹€μŒ μ§ˆλ¬Έμ— λ‹΅λ³€ν•  수 μžˆλŠ” μ‚¬λžŒμ„ 포함

  • κ²½μ˜μ§„ ν›„μ›μžλŠ” λˆ„κ΅¬μ΄λ©° ν”„λ‘œμ νŠΈμ˜ λΉ„μ¦ˆλ‹ˆμŠ€ κ°€μΉ˜μ™€ λͺ©ν‘œλŠ” λ¬΄μ—‡μž…λ‹ˆκΉŒ?
  • 데이터(데이터 μ†ŒλΉ„μž)둜 직접 μž‘μ—…ν•  μ‚¬λžŒμ€ λˆ„κ΅¬μž…λ‹ˆκΉŒ? λ°μ΄ν„° μ†ŒλΉ„μžκ°€ 데이터에 μ•‘μ„ΈμŠ€ν•˜κΈ° μœ„ν•΄ μ–΄λ–€ μœ ν˜•μ˜ 도ꡬλ₯Ό μ‚¬μš©ν•  κ°€λŠ₯성이 μžˆμŠ΅λ‹ˆκΉŒ?
  • κ΄€λ ¨ μ›μ‹œ 데이터 μ†ŒμŠ€λŠ” λ¬΄μ—‡μž…λ‹ˆκΉŒ?
  • 높은 μˆ˜μ€€μ—μ„œ μ›μ‹œ 데이터λ₯Ό λ³€ν™˜ν•˜κ³  μ΅œμ ν™”ν•˜λ €λ©΄ μ–΄λ–€ μœ ν˜•μ˜ λ³€ν™˜μ΄ ν•„μš”ν•©λ‹ˆκΉŒ?

 

데이터 μ—”μ§€λ‹ˆμ–΄λŠ” 이 μ›Œν¬μˆμ—μ„œ 기술 μ •λ³΄λ§Œ μˆ˜μ§‘ν•˜λŠ” 것이 μ•„λ‹ˆλΌ λΉ„μ¦ˆλ‹ˆμŠ€ λͺ©ν‘œλ₯Ό 이해해야 ν•©λ‹ˆλ‹€. νŒ€μ΄ λΉ„μ¦ˆλ‹ˆμŠ€ κ°€μΉ˜λ₯Ό μ œλŒ€λ‘œ μ΄ν•΄ν•˜λ©΄ 데이터 μ—”μ§€λ‹ˆμ–΄λŠ” ν™”μ΄νŠΈλ³΄λ“œλ₯Ό μ‚¬μš©ν•˜μ—¬ κ³ κΈ‰ 섀계λ₯Ό ꡬ성할 수 μžˆμŠ΅λ‹ˆλ‹€.  λΉ„μ¦ˆλ‹ˆμŠ€ κ°€μΉ˜λ₯Ό μ œκ³΅ν•˜κΈ° μœ„ν•΄ μ΅œμ’… μƒνƒœ 데이터가 μ–΄λ–»κ²Œ μ‚¬μš©λ  것인지, 그리고 데이터 μ†ŒλΉ„μžκ°€ λˆ„κ΅¬μΈμ§€λ₯Ό λ°°μš°λŠ” 것을 ν¬ν•¨ν•˜μ—¬ ν”„λ‘œμ νŠΈμ˜ λΉ„μ¦ˆλ‹ˆμŠ€ κ°€μΉ˜μ— λŒ€ν•œ μ΄ν•΄μ—μ„œ 거꾸둜 μž‘μ—…ν•©λ‹ˆλ‹€. μ—¬κΈ°μ„œ μ΅œμ’… μƒνƒœμ˜ 데이터λ₯Ό μž‘μ„±ν•˜κΈ° μœ„ν•΄ ν•„μš”ν•œ μ›μ‹œ 데이터 μ†ŒμŠ€λ₯Ό νŒŒμ•…ν•˜μ—¬ ν•„μš”ν•œ λ³€ν™˜ μœ ν˜•μ— λŒ€ν•œ 개랡적인 κ³„νšμ„ μ„ΈμšΈ 수 μžˆμŠ΅λ‹ˆλ‹€.

 

데이터 μ†ŒλΉ„μžκ°€ λˆ„κ΅¬μΈμ§€ μ‹λ³„ν•˜κ³  μš”κ΅¬ 사항을 μ΄ν•΄ν•˜λŠ” 것뢀터 μ‹œμž‘ν•˜κ² μŠ΅λ‹ˆλ‹€.

 

 

2. 데이터 μ†ŒλΉ„μž 식별 및 μš”κ΅¬ 사항 이해

ν™”μ΄νŠΈλ³΄λ“œ μ›Œν¬μˆμ—μ„œ 데이터 μ—”μ§€λ‹ˆμ–΄λŠ” νŠΉμ • ν”„λ‘œμ νŠΈμ˜ 데이터 μ†ŒλΉ„μžκ°€ λˆ„κ΅¬μΈμ§€ μ΄ν•΄ν•˜κΈ° μœ„ν•΄ μ§ˆλ¬Έμ„ ν•΄μ•Ό ν•©λ‹ˆλ‹€. κ·Έ μΌν™˜μœΌλ‘œ 각 데이터 μ†ŒλΉ„μžκ°€ 데이터에 μ•‘μ„ΈμŠ€ν•˜κΈ° μœ„ν•΄ μ‚¬μš©ν•˜λ €λŠ” 도ꡬ μœ ν˜•μ„ μ΄ν•΄ν•˜λŠ” 것도 μ€‘μš”ν•©λ‹ˆλ‹€.

 

ν™”μ΄νŠΈλ³΄λ“œ 데이터 μ†ŒλΉ„μž 및 데이터 μ•‘μ„ΈμŠ€

더보기

데이터 뢄석가, 데이터 μ‚¬μ΄μ–Έν‹°μŠ€νŠΈ, λΉ„μ¦ˆλ‹ˆμŠ€ μ‚¬μš©μžμ˜ μ„Έ 가지 데이터 μ†ŒλΉ„μž(Data Consumers)λ₯Ό ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

 

그리고 λ‹€μŒ(Notes)을 ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€. 

- 데이터 뢄석가가 μž„μ‹œ SQL 쿼리λ₯Ό μ‚¬μš©ν•˜μ—¬ 데이터에 μ•‘μ„ΈμŠ€ν•˜κΈ°λ₯Ό 원함

- 데이터 κ³Όν•™ μ‚¬μ΄μ–Έν‹°μŠ€νŠΈκ°€ μž„μ‹œ SQL 쿼리와 μ „λ¬Έ λ¨Έμ‹ λŸ¬λ‹ 도ꡬλ₯Ό λͺ¨λ‘ μ‚¬μš©ν•˜μ—¬ 데이터에 μ•‘μ„ΈμŠ€ν•˜κΈ°λ₯Ό μ›ν•˜

- λΉ„μ¦ˆλ‹ˆμŠ€ μ‚¬μš©μžλŠ” λΉ„μ¦ˆλ‹ˆμŠ€ μΈν…”λ¦¬μ „μŠ€(BI) 데이터 μ‹œκ°ν™” 도ꡬλ₯Ό μ‚¬μš©ν•˜μ—¬ 데이터에 μ•‘μ„ΈμŠ€ν•˜λ €κ³  ν•©λ‹ˆλ‹€.

 

ν”„λ‘œμ νŠΈμ˜ 데이터 μ†ŒλΉ„μžκ°€ λˆ„κ΅¬μΈμ§€, 데이터 μž‘μ—…μ— μ‚¬μš©ν•˜λŠ” λ„κ΅¬μ˜ μ’…λ₯˜λ₯Ό νŒŒμ•…ν•œ ν›„

ν™”μ΄νŠΈλ³΄λ“œμ˜ λ‹€μŒ 단계인 μ‚¬μš© κ°€λŠ₯ν•œ 데이터 μ†ŒμŠ€μ™€ 데이터 μˆ˜μ§‘ 방법을 κ²€ν† ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 

 

3. 데이터 μ†ŒμŠ€ 식별 및 데이터 μˆ˜μ§‘

ν”„λ‘œμ νŠΈμ˜ 전체적인 λΉ„μ¦ˆλ‹ˆμŠ€ λͺ©ν‘œλ₯Ό μ΄ν•΄ν•˜κ³  데이터 μ†ŒλΉ„μžλ₯Ό μ‹λ³„ν•˜λ©΄ μ‚¬μš© κ°€λŠ₯ν•œ 데이터 μ†ŒμŠ€λ₯Ό 탐색할 수 μžˆμŠ΅λ‹ˆλ‹€. λŒ€λΆ€λΆ„μ˜ 데이터 μ†ŒμŠ€λŠ” 쑰직 내뢀에 μ‘΄μž¬ν•˜μ§€λ§Œ 일뢀 ν”„λ‘œμ νŠΈμ—μ„œλŠ” λ‹€λ₯Έ 타사 데이터 μ†ŒμŠ€λ‘œ 쑰직 μ†Œμœ  데이터λ₯Ό 보강해야 ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 데이터 μ†ŒμŠ€λ₯Ό λ…Όμ˜ν•  λ•Œ λ‚΄λΆ€ 및 μ™ΈλΆ€ 데이터 μ„ΈνŠΈλ₯Ό λͺ¨λ‘ κ³ λ €ν•΄μ•Ό ν•©λ‹ˆλ‹€. μ›Œν¬μˆμ— μ°Έμ—¬ν•œ νŒ€μ—λŠ” ν”„λ‘œμ νŠΈμ— ν•„μš”ν•œ 데이터 μ†ŒμŠ€λ₯Ό μ΄ν•΄ν•˜λŠ” μ‚¬λžŒμ΄ ν¬ν•¨λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€.

 

 

데이터 μ—”μ§€λ‹ˆμ–΄κ°€ 데이터 μ†ŒμŠ€μ— λŒ€ν•΄ μˆ˜μ§‘ν•΄μ•Ό ν•˜λŠ” 정보

  • 데이터가 ν¬ν•¨λœ μ†ŒμŠ€ μ‹œμŠ€ν…œμ— λŒ€ν•œ μ„ΈλΆ€ 정보(λ°μ΄ν„°λ² μ΄μŠ€μ˜ 데이터, μ„œλ²„μ˜ 파일, Amazon S3의 κΈ°μ‘΄ 파일, 슀트리밍 μ†ŒμŠ€μ—μ„œ μ˜€λŠ” 데이터 λ“±)
  • 이 데이터가 λ‚΄λΆ€ 데이터라면 λΉ„μ¦ˆλ‹ˆμŠ€ λ‚΄ μ†ŒμŠ€ μ‹œμŠ€ν…œμ˜ μ†Œμœ μžλŠ” λˆ„κ΅¬μž…λ‹ˆκΉŒ? λ°μ΄ν„°μ˜ μ†Œμœ μžλŠ” λˆ„κ΅¬μž…λ‹ˆκΉŒ?
  • 데이터λ₯Ό μˆ˜μ§‘ν•΄μ•Ό ν•˜λŠ” λΉˆλ„(지속적인 슀트리밍/볡제, λͺ‡ μ‹œκ°„λ§ˆλ‹€ 데이터 λ‘œλ“œ, ν•˜λ£¨μ— ν•œ 번 데이터 λ‘œλ“œ)λŠ” λ¬΄μ—‡μž…λ‹ˆκΉŒ?
  • μ„ νƒμ μœΌλ‘œ 데이터 μˆ˜μ§‘μ— μ‚¬μš©ν•  수 μžˆλŠ” λͺ‡ 가지 잠재적인 도ꡬ에 λŒ€ν•΄ λ…Όμ˜ν•©λ‹ˆλ‹€.
  • λ°μ΄ν„°μ˜ μ›μ‹œ/μˆ˜μ§‘ ν˜•μ‹(CSV, JSON, κΈ°λ³Έ λ°μ΄ν„°λ² μ΄μŠ€ ν˜•μ‹ λ“±)은 λ¬΄μ—‡μž…λ‹ˆκΉŒ?
  • 데이터 원본에 PII λ˜λŠ” κ±°λ²„λ„ŒμŠ€ μ œμ–΄κ°€ μ μš©λ˜λŠ” λ‹€λ₯Έ μœ ν˜•μ˜ 데이터가 ν¬ν•¨λ˜μ–΄ μžˆμŠ΅λ‹ˆκΉŒ? κ·Έλ ‡λ‹€λ©΄ 데이터λ₯Ό λ³΄ν˜Έν•˜κΈ° μœ„ν•΄ μ–΄λ–€ ν†΅μ œκ°€ ν•„μš”ν•©λ‹ˆκΉŒ?

 

 

ν™”μ΄νŠΈλ³΄λ“œ 데이터 μ†ŒμŠ€ 및 데이터 μˆ˜μ§‘

더보기

μš°λ¦¬λŠ” MySQL λ°μ΄ν„°λ² μ΄μŠ€μ˜ 고객 데이터, Salesforce의 μ˜μ—… 기회 정보, 쑰직의 λͺ¨λ°”일 μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ—μ„œ 얻은 거의 μ‹€μ‹œκ°„ 판맀 μ§€ν‘œ λ“± μ„Έ 가지 데이터 μ†ŒμŠ€λ₯Ό ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€. 

 

μš°λ¦¬λŠ” λ˜ν•œ λ‹€μŒμ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

  • 각 μ†ŒμŠ€ μ‹œμŠ€ν…œμ„ μ†Œμœ ν•œ μ‚¬μ—…νŒ€κ³Ό 데이터λ₯Ό μ†Œμœ ν•œ μ‚¬μ—…νŒ€
  • 속도데이터 μˆ˜μ§‘(각 데이터 μ†ŒμŠ€λ₯Ό μˆ˜μ§‘ν•΄μ•Ό ν•˜λŠ” λΉˆλ„)
  • 잠재적인 데이터 μˆ˜μ§‘μ— μ‚¬μš©ν•  수 μžˆλŠ” μ„œλΉ„μŠ€

 

이 ν™”μ΄νŠΈλ³΄λ“œ μ„Έμ…˜ λ™μ•ˆ μš°λ¦¬λŠ” 거꾸둜 μž‘μ—…ν•˜λ©΄μ„œ λ¨Όμ € 데이터 μ†ŒλΉ„μžλ₯Ό μ‹λ³„ν•œ λ‹€μŒ μ‚¬μš©ν•  데이터 μ†ŒμŠ€λ₯Ό μ‹λ³„ν–ˆμŠ΅λ‹ˆλ‹€. 이 μ‹œμ μ—μ„œ ν™”μ΄νŠΈλ³΄λ“œμ˜ λ‹€μŒ λ‹¨κ³„λ‘œ λ„˜μ–΄κ°ˆ 수 μžˆμŠ΅λ‹ˆλ‹€. ν™”μ΄νŠΈλ³΄λ“œλŠ” 뢄석을 μœ„ν•΄ 데이터λ₯Ό μ΅œμ ν™”ν•˜λŠ” 데 μ‚¬μš©ν•  κ³„νšμΈ 데이터 λ³€ν™˜μ˜ 일뢀λ₯Ό μ‚΄νŽ΄λ΄…λ‹ˆλ‹€.

 

 

4. 데이터 λ³€ν™˜ 및 μ΅œμ ν™” 식별

일반적인 데이터 뢄석 ν”„λ‘œμ νŠΈμ—μ„œλŠ” μ—¬λŸ¬ 데이터 μ†ŒμŠ€μ—μ„œ 데이터λ₯Ό μˆ˜μ§‘ν•œ λ‹€μŒ 데이터 μ„ΈνŠΈλ₯Ό λ³€ν™˜ν•˜μ—¬ ν•„μš”ν•œ 뢄석에 맞게 μ΅œμ ν™”ν•©λ‹ˆλ‹€.

 

  • 파일 ν˜•μ‹ μ΅œμ ν™”
  • 데이터 ν‘œμ€€ν™”
  • 데이터 ν’ˆμ§ˆ 확인
  • 데이터 νŒŒν‹°μ…”λ‹
  • 데이터 λΉ„μ •κ·œν™”
  • 데이터 μΉ΄νƒˆλ‘œκ·Έ
  • ν™”μ΄νŠΈλ³΄λ“œ 데이터 λ³€ν™˜

 

파일 ν˜•μ‹ μ΅œμ ν™”

일반적인 λ³€ν™˜μ€ 일반 ν…μŠ€νŠΈ νŒŒμΌμ„ Apache Parquet와 같은 μ΅œμ ν™”λœ ν˜•μ‹μœΌλ‘œ λ³€ν™˜ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.

 

● CSV, XML, JSON 및 기타 μœ ν˜•μ˜ 일반 ν…μŠ€νŠΈ 파일

μ •ν˜• 및 λ°˜μ •ν˜• 데이터λ₯Ό μ €μž₯ν•˜λŠ” 데 μ‚¬μš©

μˆ˜λ™μœΌλ‘œ 데이터λ₯Ό 탐색할 λ•Œ 유용

 

● Apache Parquet

컴퓨터 기반 뢄석에 μ‚¬μš©λ˜λŠ” 이진 기반 파일 ν˜•μ‹

 

데이터 ν‘œμ€€ν™”

νŒŒμ΄ν”„λΌμΈμ„ ꡬ좕할 λ•Œ μ—¬λŸ¬ 데이터 μ†ŒμŠ€μ—μ„œ 데이터λ₯Ό λ‘œλ“œν•˜λŠ” κ²½μš°κ°€ λ§Žμ€λ°, 각 데이터 μ†ŒμŠ€λŠ” λ™μΌν•œ ν•­λͺ©μ„ μ°Έμ‘°ν•˜κΈ° μœ„ν•œ μ„œλ‘œ λ‹€λ₯Έ λͺ…λͺ… κ·œμΉ™μ„ κ°€μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€. 뢄석을 μœ„ν•΄ 데이터λ₯Ό μ΅œμ ν™”ν•  λ•Œ μˆ˜ν–‰ν•  μž‘μ—… 쀑 ν•˜λ‚˜λŠ” μ—΄ 이름, μœ ν˜• 및 ν˜•μ‹μ„ ν‘œμ€€ν™”ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. 전사적 뢄석 ν”„λ‘œκ·Έλž¨μ„ 톡해 쑰직의 λͺ¨λ“  뢄석 ν”„λ‘œμ νŠΈμ—μ„œ ν‘œμ€€ μ •μ˜λ₯Ό λ§Œλ“€κ³  채택할 수 μžˆμŠ΅λ‹ˆλ‹€.

 

데이터 ν’ˆμ§ˆ 확인

데이터 λ³€ν™˜μ˜ 또 λ‹€λ₯Έ 츑면은 데이터 ν’ˆμ§ˆμ„ κ²€μ¦ν•˜κ³  μˆ˜μ§‘λœ 데이터가 μ˜ˆμƒ ν’ˆμ§ˆ ν‘œμ€€μ„ μΆ©μ‘±ν•˜μ§€ λͺ»ν•  경우 κ°•μ‘° ν‘œμ‹œν•˜λŠ” ν”„λ‘œμ„ΈμŠ€μΌ 수 μžˆμŠ΅λ‹ˆλ‹€.

 

데이터 νŒŒν‹°μ…”λ‹

물리적 μŠ€ν† λ¦¬μ§€ κ³„μΈ΅μ˜ 데이터λ₯Ό 쿼리에 자주 μ‚¬μš©λ˜λŠ” ν•„λ“œλ³„λ‘œ κ·Έλ£Ήν™”ν•˜μ—¬ 데이터λ₯Ό λΆ„ν• ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.

예λ₯Ό λ“€μ–΄, 데이터가 μ’…μ’… λ‚ μ§œ λ²”μœ„λ‘œ μΏΌλ¦¬λ˜λŠ” 경우 데이터λ₯Ό λ‚ μ§œ ν•„λ“œλ‘œ λΆ„ν• ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

νŠΉμ • λ‚ μ§œμ— λŒ€ν•œ λͺ¨λ“  데이터λ₯Ό μ„ νƒν•˜λŠ” 쿼리λ₯Ό μ‹€ν–‰ν•˜λ©΄ 뢄석 엔진은 ν•΄λ‹Ή λ‹¬μ˜ 데이터λ₯Ό μ €μž₯ν•˜λŠ” λ””λ ‰ν† λ¦¬μ˜ λ°μ΄ν„°λ§Œ 읽으면 λ©λ‹ˆλ‹€.

 

데이터 λΉ„μ •κ·œν™”

기쑴의 κ΄€κ³„ν˜• λ°μ΄ν„°λ² μ΄μŠ€ μ‹œμŠ€ν…œμ—μ„œλŠ” 데이터가 μ •κ·œν™”λ©λ‹ˆλ‹€. 즉, 각 ν…Œμ΄λΈ”μ—νŠΉμ • μ£Όμ œμ— λŒ€ν•œ 정보 및 κ΄€λ ¨ μ •λ³΄λŠ” λ³„λ„μ˜ ν‘œμ— ν¬ν•¨λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. κ·ΈλŸ° λ‹€μŒ μ™Έλž˜ ν‚€λ₯Ό μ‚¬μš©ν•˜μ—¬ ν…Œμ΄λΈ”μ„ μ—°κ²°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 

데이터 레이크의 경우 μ—¬λŸ¬ ν…Œμ΄λΈ”μ˜ 데이터λ₯Ό 단일 ν…Œμ΄λΈ”λ‘œ κ²°ν•©ν•˜λ©΄ 쿼리 μ„±λŠ₯이 ν–₯μƒλ˜λŠ” κ²½μš°κ°€ λ§ŽμŠ΅λ‹ˆλ‹€.데이터 λΉ„μ •κ·œν™”λŠ” 두 개 μ΄μƒμ˜ ν…Œμ΄λΈ”μ„ μ‚¬μš©ν•˜μ—¬ 두 ν…Œμ΄λΈ”μ˜ λ°μ΄ν„°λ‘œ μƒˆ ν…Œμ΄λΈ”μ„ λ§Œλ“­λ‹ˆλ‹€.

 

데이터 μΉ΄νƒˆλ‘œκ·Έ

νŒŒμ΄ν”„λΌμΈμ˜ λ³€ν™˜ μ„Ήμ…˜μ— 포함해야 ν•˜λŠ” 또 λ‹€λ₯Έ μ€‘μš”ν•œ ꡬ성 μš”μ†Œμ•„ν‚€ν…μ²˜λŠ” 데이터 μ„ΈνŠΈλ₯Ό λΆ„λ₯˜ν•˜λŠ” ν”„λ‘œμ„ΈμŠ€μž…λ‹ˆλ‹€. μ΄ ν”„λ‘œμ„ΈμŠ€ 쀑에 데이터 레이크의 λͺ¨λ“  데이터 μ„ΈνŠΈκ°€ 데이터 μΉ΄νƒˆλ‘œκ·Έμ—μ„œ 참쑰되고 μΆ”κ°€ λΉ„μ¦ˆλ‹ˆμŠ€ 메타데이터λ₯Ό μΆ”κ°€ν•  수 μžˆλŠ”μ§€ ν™•μΈν•©λ‹ˆλ‹€.

 

ν™”μ΄νŠΈλ³΄λ“œ 데이터 λ³€ν™˜

ν•„μš”ν•œ λ³€ν™˜μ˜ λͺ¨λ“  세뢀사항을 κ²°μ •ν•  ν•„μš”λŠ” μ—†μ§€λ§Œ, 개랡적인 νŒŒμ΄ν”„λΌμΈ μ„€κ³„μ˜ μ£Όμš” λ³€ν™˜μ— λ™μ˜ν•˜λŠ” 것이 μœ μš©ν•©λ‹ˆλ‹€. 

 

데이터 μ—”μ§€λ‹ˆμ–΄κ°€ ν™”μ΄νŠΈλ³΄λ“œ μ„Έμ…˜ 쀑에 μ˜ˆμƒλ˜λŠ” 데이터 λ³€ν™˜μ— λŒ€ν•΄ μˆ˜μ§‘ν•΄μ•Ό ν•˜λŠ” 일뢀 정보

  • μ°Έμ‘°ν•  수 μžˆλŠ” 기쑴의 ν‘œμ€€ν™”λœ μ—΄ 이름 μ •μ˜ 및 ν˜•μ‹ 집합이 μžˆμŠ΅λ‹ˆκΉŒ? κ·Έλ ‡μ§€ μ•Šλ‹€λ©΄ λˆ„κ°€ μ΄λŸ¬ν•œ ν‘œμ€€ μ •μ˜λ₯Ό 생성할 μ±…μž„μ΄ μžˆμŠ΅λ‹ˆκΉŒ?
  • 데이터 μ„ΈνŠΈμ— λŒ€ν•΄ μ–΄λ–€ μΆ”κ°€ λΉ„μ¦ˆλ‹ˆμŠ€ 메타데이터λ₯Ό μΊ‘μ²˜ν•΄μ•Ό ν•©λ‹ˆκΉŒ? μ˜ˆλ₯Ό λ“€μ–΄ 데이터 μ†Œμœ μž, λΉ„μš© ν• λ‹Ή νƒœκ·Έ, 데이터 민감도 등이 μžˆμŠ΅λ‹ˆλ‹€.
  • μ΅œμ ν™”λœ νŒŒμΌμ€ μ–΄λ–€ ν˜•μ‹μœΌλ‘œ μ €μž₯ν•΄μ•Ό ν•©λ‹ˆκΉŒ? Apache ParquetλŠ” 일반적인 ν˜•μ‹μ΄μ§€λ§Œ 데이터 μ†ŒλΉ„μžκ°€ μ‚¬μš©ν•˜λŠ” 도ꡬ가 Apache Parquet ν˜•μ‹μ˜ 파일과 ν•¨κ»˜ μž‘λ™ν•  수 μžˆλŠ”μ§€ 확인해야 ν•©λ‹ˆλ‹€.
  • 데이터λ₯Ό λΆ„ν• ν•΄μ•Ό ν•˜λŠ” λͺ…ν™•ν•œ ν•„λ“œκ°€ μžˆμŠ΅λ‹ˆκΉŒ?
  • 이 μ‹œμ μ—μ„œ λ‹€λ₯Έ ν•„μˆ˜ 데이터 λ³€ν™˜μ΄ λͺ…λ°±ν•©λ‹ˆκΉŒ? μ˜ˆλ₯Ό λ“€μ–΄ κ΄€κ³„ν˜• λ°μ΄ν„°λ² μ΄μŠ€μ—μ„œ 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” 경우 데이터λ₯Ό λΉ„μ •κ·œν™”ν•΄μ•Ό ν•©λ‹ˆκΉŒ?
  • νŒ€μ—λŠ” μ–΄λ–€ 데이터 λ³€ν™˜ 엔진/기술이 μžˆμŠ΅λ‹ˆκΉŒ? μ˜ˆλ₯Ό λ“€μ–΄ νŒ€μ€ PySparkλ₯Ό μ‚¬μš©ν•˜μ—¬ Spark μž‘μ—…μ„ μƒμ„±ν•œ κ²½ν—˜μ΄ μžˆμŠ΅λ‹ˆκΉŒ?

 

ν™”μ΄νŠΈλ³΄λ“œ 데이터 λ³€ν™˜

더보기

3개의 μ˜μ—­(λžœλ”© μ˜μ—­, 클린 μ˜μ—­, μ„ λ³„λœ μ˜μ—­)으둜 데이터 레이크λ₯Ό μž‘μ„±ν•©λ‹ˆλ‹€.

 

  • μ›μ‹œ νŒŒμΌμ€ λžœλ”© 쑴으둜 μˆ˜μ§‘λ˜λ©° CSV 및 XMLκ³Ό 같은 일반 ν…μŠ€νŠΈ ν˜•μ‹μž…λ‹ˆλ‹€. νŒŒμΌμ΄ μˆ˜μ§‘λ˜λ©΄ νŒŒμΌμ— λŒ€ν•œ 정보가 μΆ”κ°€ λΉ„μ¦ˆλ‹ˆμŠ€ 메타데이터(데이터 μ†Œμœ μž, 데이터 민감도 λ“±)와 ν•¨κ»˜ 데이터 μΉ΄νƒˆλ‘œκ·Έμ— μΊ‘μ²˜λ©λ‹ˆλ‹€.
  • ν˜„μž¬λ‘œμ„œλŠ” νŠΉμ • 데이터 λ³€ν™˜ 엔진을 μ‹λ³„ν•˜μ§€ λͺ»ν–ˆμ§€λ§Œ νŒ€μ΄ 이전에 PySparkλ₯Ό μ‚¬μš©ν•˜μ—¬ Spark ETL μž‘μ—…μ„ μƒμ„±ν•œ κ²½ν—˜μ΄ μžˆμŒμ„ λ‚˜νƒ€λ‚΄λŠ” λ©”λͺ¨λ₯Ό μΊ‘μ²˜ν–ˆμŠ΅λ‹ˆλ‹€. μ¦‰, AWS Glueκ°€ 데이터 λ³€ν™˜μ„ μœ„ν•œ 쒋은 μ†”λ£¨μ…˜μΌ 수 μžˆμ§€λ§Œ λ‚˜μ€‘ λ‹¨κ³„μ—μ„œ 이에 λŒ€ν•œ μΆ”κ°€ 검증을 μˆ˜ν–‰ν•  κ²ƒμž…λ‹ˆλ‹€.
  • νŒŒμ΄ν”„λΌμΈμ˜ μΌλΆ€λ‘œ λžœλ”© 쑴의 데이터에 λŒ€ν•œ 데이터 ν’ˆμ§ˆ 검사λ₯Ό μ‹€ν–‰ν•˜λŠ” ν”„λ‘œμ„ΈμŠ€κ°€ μžˆμŠ΅λ‹ˆλ‹€. ν’ˆμ§ˆ 검사λ₯Ό ν†΅κ³Όν•˜λ©΄ 데이터(κ· μΌν•œ μ—΄ 이름 및 데이터 μœ ν˜•)λ₯Ό ν‘œμ€€ν™”ν•˜κ³  νŒŒμΌμ„ Apache Parquet ν˜•μ‹μœΌλ‘œ λ³€ν™˜ν•˜μ—¬ 클린 μ˜μ—­μ— μƒˆ νŒŒμΌμ„ μž‘μ„±ν•©λ‹ˆλ‹€. λ‹€μ‹œ ν•œ 번 κ΄€λ ¨ λΉ„μ¦ˆλ‹ˆμŠ€ 메타데이터λ₯Ό ν¬ν•¨ν•˜μ—¬ μƒˆλ‘œ μž‘μ„±λœ νŒŒμΌμ„ 데이터 μΉ΄νƒˆλ‘œκ·Έμ— μΆ”κ°€ν•©λ‹ˆλ‹€.
  • νŒŒμ΄ν”„λΌμΈμ˜ λ‹€λ₯Έ 뢀뢄은 이제 νŠΉμ • μ‚¬μš© 사둀 μš”κ΅¬ 사항에 따라 데이터에 λŒ€ν•œ μΆ”κ°€ λ³€ν™˜μ„ μˆ˜ν–‰ν•©λ‹ˆλ‹€. μ˜ˆλ₯Ό λ“€μ–΄ κ΄€κ³„ν˜• λ°μ΄ν„°λ² μ΄μŠ€μ˜ 데이터 λΉ„μ •κ·œν™”λ˜κ³  μΆ”κ°€ λ°μ΄ν„°λ‘œ ν…Œμ΄λΈ”μ„ 보강할 수 μžˆμŠ΅λ‹ˆλ‹€. λ³€ν™˜λœ 데이터λ₯Ό νλ ˆμ΄νŒ…λœ μ˜μ—­μ— κΈ°λ‘ν•˜κ³  기둝된 λ‚ μ§œλ³„λ‘œ νŒŒμΌμ„ λΆ„ν• ν•©λ‹ˆλ‹€. λ‹€μ‹œ ν•œ 번 κ΄€λ ¨ λΉ„μ¦ˆλ‹ˆμŠ€ 메타데이터λ₯Ό ν¬ν•¨ν•˜μ—¬ μƒˆλ‘œ μž‘μ„±λœ νŒŒμΌμ„ 데이터 μΉ΄νƒˆλ‘œκ·Έμ— μΆ”κ°€ν•©λ‹ˆλ‹€.

 

이 μ„Έμ…˜μ˜ λͺ©ν‘œλŠ” λͺ¨λ“  기술적 μ„ΈλΆ€ 사항을 ν•΄κ²°ν•˜λŠ” 것이 μ•„λ‹ˆλΌ νŒŒμ΄ν”„λΌμΈμ— λŒ€ν•œ 높은 μˆ˜μ€€μ˜ κ°œμš”λ₯Ό λ§Œλ“œλŠ” κ²ƒμž„μ„ κΈ°μ–΅ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€. μ΅œμƒμ˜ λΆ„ν•  μ „λž΅μ„ κ²°μ •ν•˜λ €λ©΄ 데이터 μ„ΈνŠΈμ— λŒ€ν•΄ 싀행될 쿼리λ₯Ό 잘 이해해야 ν•©λ‹ˆλ‹€. 데이터 λ³€ν™˜μ„ κ²°μ •ν–ˆμœΌλ©΄ 데이터 λ§ˆνŠΈκ°€ ν•„μš”ν•œμ§€ μ—¬λΆ€λ₯Ό κ²°μ •ν•˜λŠ” ν™”μ΄νŠΈλ³΄λ“œ ν”„λ‘œμ„ΈμŠ€μ˜ λ§ˆμ§€λ§‰ λ‹¨κ³„λ‘œ μ΄λ™ν•©λ‹ˆλ‹€.

 

 

5. 데이터 λ§ˆνŠΈμ— 데이터 λ‘œλ“œ

μ‚¬μš© μ‚¬λ‘€μ—μ„œ 훨씬 더 짧은 지연 μ‹œκ°„κ³Ό 더 높은 μ„±λŠ₯의 데이터 읽기가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ˜λŠ” κ³ λ„λ‘œ κ΅¬μ‘°ν™”λœ μŠ€ν‚€λ§ˆλ₯Ό μ‚¬μš©ν•˜λŠ” 것이 μ‚¬μš© μ‚¬λ‘€μ˜ 뢄석 μš”κ΅¬μ‚¬ν•­μ„ κ°€μž₯ 잘 μΆ©μ‘±ν•  수 μžˆλŠ” κ²½μš°κ°€ μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€. 이 경우 데이터 λ ˆμ΄ν¬μ—μ„œ 데이터 마트둜 데이터λ₯Ό λ‘œλ“œν•˜λŠ” 것이 μ’‹μŠ΅λ‹ˆλ‹€.

 

뢄석 ν™˜κ²½μ—μ„œ 데이터 λ§ˆνŠΈλŠ” λŒ€λΆ€λΆ„μ˜ 경우 데이터 μ›¨μ–΄ν•˜μš°μŠ€ μ‹œμŠ€ν…œ(Amazon Redshift λ“±)μ΄μ§€λ§Œ μ‚¬μš© μ‚¬λ‘€μ˜ μš”κ΅¬μ‚¬ν•­μ— 따라 κ΄€κ³„ν˜• λ°μ΄ν„°λ² μ΄μŠ€ μ‹œμŠ€ν…œ(Amazon RDS MySQL λ“±)일 μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€. 두 경우 λͺ¨λ‘ μ‹œμŠ€ν…œμ€ 둜컬 μ €μž₯μ†Œμ™€ 둜컬 μ»΄ν“¨νŒ… μ„±λŠ₯을 κ°–μΆ”κ³  μžˆμ–΄ λŒ€κ·œλͺ¨ 데이터 μ„ΈνŠΈμ—μ„œ 쿼리해야 ν•  λ•Œ, 특히 쿼리가 μ—¬λŸ¬ ν…Œμ΄λΈ”μ—μ„œ 쑰인해야 ν•˜λŠ” κ²½μš°μ— 졜고의 μ„±λŠ₯을 μ œκ³΅ν•©λ‹ˆλ‹€.

 

ν™”μ΄νŠΈλ³΄λ“œ μ„Έμ…˜μ˜ μΌλΆ€λ‘œ 데이터 λ§ˆνŠΈκ°€ λ°μ΄ν„°μ˜ ν•˜μœ„ 집합을 λ‘œλ“œν•˜λŠ” 데 κ°€μž₯ μ ν•©ν•œμ§€ μ—¬λΆ€λ₯Ό λ…Όμ˜ν•΄μ•Ό ν•©λ‹ˆλ‹€.

 

 

6. ν™”μ΄νŠΈλ³΄λ“œ μ„Έμ…˜ 마무리

ν™”μ΄νŠΈλ³΄λ“œ μ„Έμ…˜μ„ μ™„λ£Œν•œ ν›„μ—λŠ” κ΅¬μΆ•ν•˜λ €λŠ” νŒŒμ΄ν”„λΌμΈμ˜ μ£Όμš” μ»΄ν¬λ„ŒνŠΈλ₯Ό λ‚˜νƒ€λ‚΄λŠ” κ°œμš” μ•„ν‚€ν…μ²˜κ°€ ν•„μš”ν•©λ‹ˆλ‹€.ν˜„μ‹œμ μ—μ„œλŠ”, 아직 λŒ€λ‹΅ν•˜μ§€ μ•Šμ€ λ§Žμ€ 의문점이 남아 μžˆμ–΄, μƒμ„Έν•œ 것은 λ§Žμ§€ μ•ŠμŠ΅λ‹ˆλ‹€.단, 높은 μˆ˜μ€€μ˜ μ•„ν‚€ν…μ²˜λŠ” ν”„λ‘œμ νŠΈμ— λŒ€ν•΄ μ œμ•ˆλœ κ³„νšμ— λŒ€ν•΄ μ΄ν•΄κ΄€κ³„μžλ‘œλΆ€ν„° 폭넓은 λ™μ˜λ₯Ό 얻기에 μΆ©λΆ„ν•©λ‹ˆλ‹€.λ˜ν•œ μƒμ„Έν•œ 섀계뢀터 μ‹œμž‘ν•˜μ—¬ ν•„μš”μ— 따라 후속 μ„Έμ…˜μ„ μ„€μ •ν•  수 μžˆλŠ” μΆ©λΆ„ν•œ 정보λ₯Ό μ œκ³΅ν•΄μ•Ό ν•©λ‹ˆλ‹€.

 

μ„Έμ…˜ ν›„ ν•„μš”ν•œ 정보

  • 이 ν”„λ‘œμ νŠΈμ˜ 데이터 μ†ŒλΉ„μžλ₯Ό μ •ν™•ν•˜κ²Œ νŒŒμ•…ν•œλ‹€.
  • 데이터 μ†ŒλΉ„μžμ˜ 각 범주에 λŒ€ν•΄ 데이터에 μ•‘μ„ΈμŠ€ν•˜λŠ” 데 μ‚¬μš©ν•  도ꡬ μœ ν˜•(SQL, μ‹œκ°ν™” 도ꡬ λ“±)에 λŒ€ν•œ 쒋은 아이디어
  • μ‚¬μš©λ  λ‚΄λΆ€ 및 μ™ΈλΆ€ 데이터 μ†ŒμŠ€μ— λŒ€ν•œ 이해
  • 각 데이터에 λŒ€ν•΄ μ†ŒμŠ€, 데이터 μˆ˜μ§‘ λΉˆλ„μ— λŒ€ν•œ μš”κ΅¬ 사항 이해(예: 맀일, λ§€μ‹œκ°„ λ˜λŠ” 거의 μ‹€μ‹œκ°„ 슀트리밍)
  • 각 데이터 μ†ŒμŠ€μ— λŒ€ν•΄ 데이터λ₯Ό μ†Œμœ ν•œ μ‚¬λžŒκ³Ό 데이터λ₯Ό ν¬ν•¨ν•˜λŠ” μ†ŒμŠ€ μ‹œμŠ€ν…œμ„ μ†Œμœ ν•œ μ‚¬λžŒμ˜ λͺ©λ‘
  • μ˜ˆμƒλ˜λŠ” 데이터 λ³€ν™˜μ— λŒ€ν•œ 높은 μˆ˜μ€€μ˜ 이해
  • 데이터 μ›¨μ–΄ν•˜μš°μŠ€ λ˜λŠ” 기타 데이터 λ§ˆνŠΈμ— 데이터 ν•˜μœ„ 집합을 λ‘œλ“œν•΄μ•Ό ν•˜λŠ”μ§€ 여뢀에 λŒ€ν•œ νŒŒμ•…

 

μ„Έμ…˜μ΄ λλ‚˜λ©΄ μ΅œμ’… μƒμœ„ μ•„ν‚€ν…μ²˜ λ‹€μ΄μ–΄κ·Έλž¨μ„ μž‘μ„±ν•˜κ³  νšŒμ˜μ—μ„œ 얻은 λ©”λͺ¨λ₯Ό 포함해야 ν•©λ‹ˆλ‹€. μ΄ λ©”λͺ¨λŠ” μ΄ˆμ•ˆ μ•„ν‚€ν…μ²˜λ₯Ό 기반으둜 ν”„λ‘œμ νŠΈλ₯Ό μ§„ν–‰ν•˜λŠ” 것에 λŒ€ν•œ 승인 및 λ™μ˜λ₯Ό μš”μ²­ν•˜κΈ° μœ„ν•΄ λͺ¨λ“  μ°Έκ°€μžμ—κ²Œ λ°°ν¬λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€.

높은 μˆ˜μ€€μ˜ μ ‘κ·Ό 방식에 λŒ€ν•œ ν•©μ˜μ— λ„λ‹¬ν•˜λ©΄ μΆ”κ°€ μ„ΈλΆ€ 정보λ₯Ό μΊ‘μ²˜ν•˜κ³  μš”κ΅¬ 사항을 μ™„μ „νžˆ κ²€ν† ν•˜κΈ° μœ„ν•΄ λ‹€λ₯Έ νŒ€κ³Ό μΆ”κ°€ μ„Έμ…˜μ΄ ν•„μš”ν•©λ‹ˆλ‹€.

 

높은 μˆ˜μ€€μ˜ μ•„ν‚€ν…μ²˜ ν™”μ΄νŠΈλ³΄λ“œ

이 μž₯μ—μ„œ μ‚΄νŽ΄λ³Έ μ‹œλ‚˜λ¦¬μ˜€λ₯Ό 기반으둜 ν•˜λŠ” μ΅œμ’… μƒμœ„ μˆ˜μ€€ μ•„ν‚€ν…μ²˜ λ‹€μ΄μ–΄κ·Έλž¨μ€ μœ„μ™€ κ°™μŠ΅λ‹ˆλ‹€.

 

ν† λ‘  쀑에 λ‹€μ–‘ν•œ μ•„ν‚€ν…μ²˜ ꡬ성 μš”μ†Œμ— λŒ€ν•œ κ΄€λ ¨ λ©”λͺ¨λŠ” μœ„μ™€ κ°™μŠ΅λ‹ˆλ‹€.

 

 

 

 

 

 

 

 

 


γ€ŒData Engineering with AWS」 λ„μ„œλ₯Ό λ²ˆμ—­ 및 μš”μ•½ν•˜μ—¬ μž‘μ„±ν–ˆμŠ΅λ‹ˆλ‹€

 

Data Engineering with AWS: Learn how to design and build cloud-based data transformation pipelines using AWS: 9781800560413: Com

Gareth has worked in the IT industry for over 25 years, starting in South Africa, working in the United Kingdom for a few years, and is now based in the United States. In 2017, Gareth started working at Amazon Web Services (AWS) as a Solution Architect, wo

www.amazon.com

 

λ°˜μ‘ν˜•

BELATED ARTICLES

more