λ°μ΄ν° νμ΄νλΌμΈμ μ¬λ¬ μμ€μμ λ°μ΄ν°λ₯Ό μμ§νκ³ λ°μ΄ν°λ₯Ό μ΅μ ν λ° λ³ννλ©° λ°μ΄ν° μλΉμκ° μ¬μ©ν μ μλλ‘ νλ νλ‘μΈμ€μ λλ€. λ°μ΄ν° μμ§λμ΄λ§ μν μ μ€μν κΈ°λ₯μ μ΄λ¬ν νμ΄νλΌμΈμ μ€κ³νκ±°λ μ€κ³νλ λ₯λ ₯μ λλ€.
μ΄ μ₯μμλ λ€μ μ£Όμ λ₯Ό λ€λ£Ήλλ€.
- λ°μ΄ν° νμ΄νλΌμΈ μ€κ³ μμ μ κ·Ό
- λ°μ΄ν° μλΉμ μλ³ λ° μꡬ μ¬ν μ΄ν΄
- λ°μ΄ν° μμ€ μλ³ λ° λ°μ΄ν° μμ§
- λ°μ΄ν° λ³ν λ° μ΅μ ν μλ³
- λ°μ΄ν° λ§νΈμ λ°μ΄ν° λ‘λ
- νμ΄νΈλ³΄λ μΈμ λ§λ¬΄λ¦¬
1. λ°μ΄ν° νμ΄νλΌμΈ μν€ν μ² μ κ·Ό
μλ‘μ΄ λ°μ΄ν° μμ§λμ΄λ§ νλ‘μ νΈλ₯Ό μμν λ νν λ³Ό μ μλ μ€μλ λͺ¨λ μμ μ ν λ²μ μννμ¬ λͺ¨λ μ¬μ© μ¬λ‘λ₯Ό ν¬ν¨νλ μ루μ μ λ§λλ κ²μ λλ€. λ³΄λ€ λμ μ κ·Όλ²μ ꡬ체μ μΈ μ¬μ© μ¬λ‘λ₯Ό μλ³νκ³ , κ·Έ νλμ κ²°κ³Όμ μ΄μ μ λ§μΆλ©΄μ νλ‘μ νΈλ₯Ό μμνλ κ²μ λλ€. (λ¨, μ 체μ μΈ κ·Έλ¦Όμ μΌλμ λμ΄μΌ ν©λλ€.)
ν©λ¦¬μ μΈ μκ° λ΄μ μλ£ν μ μλ λ¬μ± κ°λ₯ν κ²°κ³Όμ μ§μ€ν΄μΌ νλ λμμ, ν₯ν νλ‘μ νΈμ μ¬μ©ν μ μλ νλ μμν¬ λ΄μμ λΉλνκ³ μλμ§ νμΈν΄μΌ ν©λλ€. μ΄ λ°Έλ°μ€λ₯Ό μ¬λ°λ₯΄κ² μ‘λ κ²μ΄ μ€μν©λλ€.
μ£Όν μ€κ³ λ° νμ΄νλΌμΈ μ€κ³
μ μ§μ μ§λλ€κ³ κ°μ νλ©΄ 건μΆκ°λ 'ν΄λΌμ΄μΈνΈ μꡬ μ¬ν, 건μΆν λ μ λν μ 보, ν΄λΉ νκ²½μ κ°μ₯ μ ν©ν μ¬λ£ μ ν'κ³Ό κ°μ μμ μ μνν©λλ€. μ΄ κ³Όμ μμ 건μΆκ°λ λλ΅μ μΈ κ³νμ λνλ΄λ λ°κ·Έλ¦Όμ μμ±ν©λλ€. λμ μμ€μ κ³μ½μ΄ ν©μλλ©΄ 건μΆκ°λ 'λ°©μ λ°°μΉ, μ€μ μμ€, μ‘°λͺ , λ°°κ΄ μ κΈ°μ μμΉ'μ²λΌ λ³΄λ€ μμΈν μ 보λ₯Ό μμ§νκ³ μΈλΆ μν€ν μ² κ³νμ μμ±ν μ μμ΅λλ€.
λ°μ΄ν° νμ΄νλΌμΈμ μν μν€ν μ²λ₯Ό μμ±νλ λ°μ΄ν° μμ§λμ΄μ κ²½μ° μ μ¬ν μ κ·Ό λ°©μμ μ¬μ©ν μ μμ΅λλ€.
- νλ‘μ νΈ μ€ν°μ λ° λ°μ΄ν° μλΉμλ‘λΆν° μꡬ μ¬νμ λν μ 보λ₯Ό μμ§ (κ³ κ°μ λͺ©ν, λ°μ΄ν° μ¬μ©μ μ¬μ©ν λꡬ μ ν, νμν λ°μ΄ν° λ³ν λ±)
- μ¬μ© κ°λ₯ν λ°μ΄ν° μλ³Έμ λν μ 보λ₯Ό μμ§(μμ λ°μ΄ν°λ₯Ό μ μ₯νλ μμ€ν , λ°μ΄ν°μ νμ, μμ€ν μμ μμ λ°μ΄ν° μμ μ λ±).
- μ¬μ© κ°λ₯ν λꡬμ μ’ λ₯μ μ΄λ¬ν μ건μ κ°μ₯ μ ν©ν λꡬμ μ’ λ₯λ₯Ό κ²°μ
μ΄ μ 보λ₯Ό μμ§νλ μ μ©ν λ°©λ²μ κ΄λ ¨ μ΄ν΄κ΄κ³μμ νμ΄νΈλ³΄λ μΈμ μ μννλ κ²μ λλ€.
μ 보 μμ§ λꡬλ‘μμ νμ΄νΈλ³΄λ
κ΄λ ¨ μ΄ν΄ κ΄κ³μμ ν¨κ» νμ΄νΈλ³΄λ μΈμ μ μ€ννλ©΄ λ°μ΄ν° μμ§λμ΄κ° λ°μ΄ν° νμ΄νλΌμΈμ λν λμ μμ€μ κ³νμ κ°λ°νκ³ μμνλ λ° νμν μ 보λ₯Ό μμ§ν μ μμ΅λλ€. νμ΄νΈλ³΄λμ λͺ©μ μ νμ΄νλΌμΈμ λν μ λ°μ μΈ μ κ·Όλ²μ λν΄ μ΄ν΄κ΄κ³μμ ν©μνκ³ μΈλΆ μ€κ³μ νμν μ 보λ₯Ό μμ§νλ κ²μ λλ€.
μ΄ μ± μμλ λ°μ΄ν°λ₯Ό Amazon S3 κΈ°λ° λ°μ΄ν° λ μ΄ν¬λ‘ μμ§νλ μν€ν μ² μ κ·Ό λ°©μμ μ¬μ©ν κ²μ λλ€. λ°μ΄ν°λ μ²μμ μμ μμμΌλ‘ μμ§λ λ€μ μ¬λ¬ λꡬλ₯Ό μ¬μ©νμ¬ λ°μ΄ν°λ₯Ό λ³ν λ° μ΅μ ννμ¬ λ€μν λ°μ΄ν° λ μ΄ν¬ μμμ ν΅ν΄ λ°μ΄ν°λ₯Ό μ΄λν©λλ€. λ°μ΄ν° λ μ΄ν¬μλ λ°μ΄ν°κ° μ΄λνλ μ¬λ¬ μμμ΄ μμ΅λλ€. μμμ λΉμ¦λμ€ μꡬ μ¬νμ κΈ°λ°μΌλ‘ ν΄μΌ νλ―λ‘ λ°μ΄ν° λ μ΄ν¬μ νμν νΉμ μμ μλ μμ§λ§ νμ΄νΈλ³΄λ μΈμ μμλ 3κ°μ μμμ νμν©λλ€.
λ°μ΄ν° μλΉ μꡬ μ¬νμ λ°λΌ λ°μ΄ν°μ νμ μ§ν©μ λ€μν λ°μ΄ν° λ§νΈμ λ‘λνμ¬ λ€μν μλΉμ€λ₯Ό ν΅ν΄ λ°μ΄ν° μλΉμκ° λ°μ΄ν°λ₯Ό μ¬μ©ν μ μλλ‘ ν μ μμ΅λλ€.
μμ κ·Έλ¦Όμ μΌλ°μ μΈ λ°μ΄ν° νμ΄νλΌμΈμ κΈ°λ³Έ κ΅¬μ± μμμ λν λμ μμ€μ κ°μμ
λμ μμ€μ νμ΄νλΌμΈ μν€ν μ²λ₯Ό κ°λ°νλ μ κ·Ό λ°©μμ 보μ¬μ€λλ€.
νμ΄νλΌμΈ μ€κ³μ μ κ·Όν λ μμ
- Data Consumers - λΉμ¦λμ€ λͺ©ν, λ°μ΄ν° μλΉμ λ° μꡬ μ¬ν μ΄ν΄
- Data Access - λ°μ΄ν° μλΉμκ° λ°μ΄ν°μ μ‘μΈμ€νλ λ° μ¬μ©ν λꡬ μ ν κ²°μ
- Data Sources - μ¬μ©ν μ μλ μ μ¬μ λ°μ΄ν° μμ€ νμ
- Ingestion Tools - λ°μ΄ν° μμ§μ μ¬μ©ν λꡬ μΈνΈ μ ν κ²°μ
- Data Transformations - μμ λ°μ΄ν°λ₯Ό κ°μ Έμ λ°μ΄ν° μλΉμλ₯Ό μν΄ μ€λΉνκΈ° μν΄ νμν λ°μ΄ν° λ³ν μ΄ν΄
보μλ€μνΌ νμ΄νλΌμΈ μ€κ³ μμλ νμ μλ°©ν₯μΌλ‘ μμ ν΄μΌ ν©λλ€.
μ¦, λ°μ΄ν° μλΉμμ κ·Έ μꡬ μ¬νμμ μμνμ¬ κ±°κΈ°μλΆν° νμ΄νλΌμΈμ μ€κ³ν΄μΌ ν©λλ€.
νμ΄νΈλ³΄λ μΈμ μ§ν
μ΄κΈ° νλ‘μ νΈλ₯Ό νΉμ νλ©΄ λ°μ΄ν° μμ§λμ΄λ κ΄λ ¨ κ΄κ³μλ₯Ό λͺ¨μ μν¬μμ κ°μ΅νκ³ κ³ κΈ μ κ·Όλ°©μμ νμ΄νΈλ³΄λν ν΄μΌ ν©λλ€.λͺ¨λ μ΄ν΄κ΄κ³μκ° μ§μ λ§λμ νμ΄νΈλ³΄λλ₯Ό μ€λΉνκ³ λ°λμ μν¬μμ κ³ννλ κ²μ΄ μ΄μμ μ λλ€.
μ΄ν΄κ΄κ³μλ λ€μ μ§λ¬Έμ λ΅λ³ν μ μλ μ¬λμ ν¬ν¨
- κ²½μμ§ νμμλ λꡬμ΄λ©° νλ‘μ νΈμ λΉμ¦λμ€ κ°μΉμ λͺ©νλ 무μμ λκΉ?
- λ°μ΄ν°(λ°μ΄ν° μλΉμ)λ‘ μ§μ μμ ν μ¬λμ λꡬμ λκΉ? λ°μ΄ν° μλΉμκ° λ°μ΄ν°μ μ‘μΈμ€νκΈ° μν΄ μ΄λ€ μ νμ λꡬλ₯Ό μ¬μ©ν κ°λ₯μ±μ΄ μμ΅λκΉ?
- κ΄λ ¨ μμ λ°μ΄ν° μμ€λ 무μμ λκΉ?
- λμ μμ€μμ μμ λ°μ΄ν°λ₯Ό λ³ννκ³ μ΅μ ννλ €λ©΄ μ΄λ€ μ νμ λ³νμ΄ νμν©λκΉ?
λ°μ΄ν° μμ§λμ΄λ μ΄ μν¬μμμ κΈ°μ μ λ³΄λ§ μμ§νλ κ²μ΄ μλλΌ λΉμ¦λμ€ λͺ©νλ₯Ό μ΄ν΄ν΄μΌ ν©λλ€. νμ΄ λΉμ¦λμ€ κ°μΉλ₯Ό μ λλ‘ μ΄ν΄νλ©΄ λ°μ΄ν° μμ§λμ΄λ νμ΄νΈλ³΄λλ₯Ό μ¬μ©νμ¬ κ³ κΈ μ€κ³λ₯Ό ꡬμ±ν μ μμ΅λλ€. λΉμ¦λμ€ κ°μΉλ₯Ό μ 곡νκΈ° μν΄ μ΅μ’ μν λ°μ΄ν°κ° μ΄λ»κ² μ¬μ©λ κ²μΈμ§, κ·Έλ¦¬κ³ λ°μ΄ν° μλΉμκ° λꡬμΈμ§λ₯Ό λ°°μ°λ κ²μ ν¬ν¨νμ¬ νλ‘μ νΈμ λΉμ¦λμ€ κ°μΉμ λν μ΄ν΄μμ κ±°κΎΈλ‘ μμ ν©λλ€. μ¬κΈ°μ μ΅μ’ μνμ λ°μ΄ν°λ₯Ό μμ±νκΈ° μν΄ νμν μμ λ°μ΄ν° μμ€λ₯Ό νμ νμ¬ νμν λ³ν μ νμ λν κ°λ΅μ μΈ κ³νμ μΈμΈ μ μμ΅λλ€.
λ°μ΄ν° μλΉμκ° λꡬμΈμ§ μλ³νκ³ μꡬ μ¬νμ μ΄ν΄νλ κ²λΆν° μμνκ² μ΅λλ€.
2. λ°μ΄ν° μλΉμ μλ³ λ° μꡬ μ¬ν μ΄ν΄
νμ΄νΈλ³΄λ μν¬μμμ λ°μ΄ν° μμ§λμ΄λ νΉμ νλ‘μ νΈμ λ°μ΄ν° μλΉμκ° λꡬμΈμ§ μ΄ν΄νκΈ° μν΄ μ§λ¬Έμ ν΄μΌ ν©λλ€. κ·Έ μΌνμΌλ‘ κ° λ°μ΄ν° μλΉμκ° λ°μ΄ν°μ μ‘μΈμ€νκΈ° μν΄ μ¬μ©νλ €λ λꡬ μ νμ μ΄ν΄νλ κ²λ μ€μν©λλ€.
λ°μ΄ν° λΆμκ°, λ°μ΄ν° μ¬μ΄μΈν°μ€νΈ, λΉμ¦λμ€ μ¬μ©μμ μΈ κ°μ§ λ°μ΄ν° μλΉμ(Data Consumers)λ₯Ό νμΈνμ΅λλ€.
κ·Έλ¦¬κ³ λ€μ(Notes)μ νμΈνμ΅λλ€.
- λ°μ΄ν° λΆμκ°κ° μμ SQL 쿼리λ₯Ό μ¬μ©νμ¬ λ°μ΄ν°μ μ‘μΈμ€νκΈ°λ₯Ό μν¨
- λ°μ΄ν° κ³Όν μ¬μ΄μΈν°μ€νΈκ° μμ SQL 쿼리μ μ λ¬Έ λ¨Έμ λ¬λ λꡬλ₯Ό λͺ¨λ μ¬μ©νμ¬ λ°μ΄ν°μ μ‘μΈμ€νκΈ°λ₯Ό μν
- λΉμ¦λμ€ μ¬μ©μλ λΉμ¦λμ€ μΈν 리μ μ€(BI) λ°μ΄ν° μκ°ν λꡬλ₯Ό μ¬μ©νμ¬ λ°μ΄ν°μ μ‘μΈμ€νλ €κ³ ν©λλ€.
νλ‘μ νΈμ λ°μ΄ν° μλΉμκ° λꡬμΈμ§, λ°μ΄ν° μμ μ μ¬μ©νλ λꡬμ μ’ λ₯λ₯Ό νμ ν ν
νμ΄νΈλ³΄λμ λ€μ λ¨κ³μΈ μ¬μ© κ°λ₯ν λ°μ΄ν° μμ€μ λ°μ΄ν° μμ§ λ°©λ²μ κ²ν ν μ μμ΅λλ€.
3. λ°μ΄ν° μμ€ μλ³ λ° λ°μ΄ν° μμ§
νλ‘μ νΈμ μ 체μ μΈ λΉμ¦λμ€ λͺ©νλ₯Ό μ΄ν΄νκ³ λ°μ΄ν° μλΉμλ₯Ό μλ³νλ©΄ μ¬μ© κ°λ₯ν λ°μ΄ν° μμ€λ₯Ό νμν μ μμ΅λλ€. λλΆλΆμ λ°μ΄ν° μμ€λ μ‘°μ§ λ΄λΆμ μ‘΄μ¬νμ§λ§ μΌλΆ νλ‘μ νΈμμλ λ€λ₯Έ νμ¬ λ°μ΄ν° μμ€λ‘ μ‘°μ§ μμ λ°μ΄ν°λ₯Ό 보κ°ν΄μΌ ν μ μμ΅λλ€. λ°μ΄ν° μμ€λ₯Ό λ Όμν λ λ΄λΆ λ° μΈλΆ λ°μ΄ν° μΈνΈλ₯Ό λͺ¨λ κ³ λ €ν΄μΌ ν©λλ€. μν¬μμ μ°Έμ¬ν νμλ νλ‘μ νΈμ νμν λ°μ΄ν° μμ€λ₯Ό μ΄ν΄νλ μ¬λμ΄ ν¬ν¨λμ΄μΌ ν©λλ€.
λ°μ΄ν° μμ§λμ΄κ° λ°μ΄ν° μμ€μ λν΄ μμ§ν΄μΌ νλ μ 보
- λ°μ΄ν°κ° ν¬ν¨λ μμ€ μμ€ν μ λν μΈλΆ μ 보(λ°μ΄ν°λ² μ΄μ€μ λ°μ΄ν°, μλ²μ νμΌ, Amazon S3μ κΈ°μ‘΄ νμΌ, μ€νΈλ¦¬λ° μμ€μμ μ€λ λ°μ΄ν° λ±)
- μ΄ λ°μ΄ν°κ° λ΄λΆ λ°μ΄ν°λΌλ©΄ λΉμ¦λμ€ λ΄ μμ€ μμ€ν μ μμ μλ λꡬμ λκΉ? λ°μ΄ν°μ μμ μλ λꡬμ λκΉ?
- λ°μ΄ν°λ₯Ό μμ§ν΄μΌ νλ λΉλ(μ§μμ μΈ μ€νΈλ¦¬λ°/볡μ , λͺ μκ°λ§λ€ λ°μ΄ν° λ‘λ, ν루μ ν λ² λ°μ΄ν° λ‘λ)λ 무μμ λκΉ?
- μ νμ μΌλ‘ λ°μ΄ν° μμ§μ μ¬μ©ν μ μλ λͺ κ°μ§ μ μ¬μ μΈ λꡬμ λν΄ λ Όμν©λλ€.
- λ°μ΄ν°μ μμ/μμ§ νμ(CSV, JSON, κΈ°λ³Έ λ°μ΄ν°λ² μ΄μ€ νμ λ±)μ 무μμ λκΉ?
- λ°μ΄ν° μλ³Έμ PII λλ κ±°λ²λμ€ μ μ΄κ° μ μ©λλ λ€λ₯Έ μ νμ λ°μ΄ν°κ° ν¬ν¨λμ΄ μμ΅λκΉ? κ·Έλ λ€λ©΄ λ°μ΄ν°λ₯Ό 보νΈνκΈ° μν΄ μ΄λ€ ν΅μ κ° νμν©λκΉ?
μ°λ¦¬λ MySQL λ°μ΄ν°λ² μ΄μ€μ κ³ κ° λ°μ΄ν°, Salesforceμ μμ κΈ°ν μ 보, μ‘°μ§μ λͺ¨λ°μΌ μ ν리μΌμ΄μ μμ μ»μ κ±°μ μ€μκ° ν맀 μ§ν λ± μΈ κ°μ§ λ°μ΄ν° μμ€λ₯Ό νμΈνμ΅λλ€.
μ°λ¦¬λ λν λ€μμ νμΈνμ΅λλ€.
- κ° μμ€ μμ€ν μ μμ ν μ¬μ νκ³Ό λ°μ΄ν°λ₯Ό μμ ν μ¬μ ν
- μλλ°μ΄ν° μμ§(κ° λ°μ΄ν° μμ€λ₯Ό μμ§ν΄μΌ νλ λΉλ)
- μ μ¬μ μΈ λ°μ΄ν° μμ§μ μ¬μ©ν μ μλ μλΉμ€
μ΄ νμ΄νΈλ³΄λ μΈμ λμ μ°λ¦¬λ κ±°κΎΈλ‘ μμ νλ©΄μ λ¨Όμ λ°μ΄ν° μλΉμλ₯Ό μλ³ν λ€μ μ¬μ©ν λ°μ΄ν° μμ€λ₯Ό μλ³νμ΅λλ€. μ΄ μμ μμ νμ΄νΈλ³΄λμ λ€μ λ¨κ³λ‘ λμ΄κ° μ μμ΅λλ€. νμ΄νΈλ³΄λλ λΆμμ μν΄ λ°μ΄ν°λ₯Ό μ΅μ ννλ λ° μ¬μ©ν κ³νμΈ λ°μ΄ν° λ³νμ μΌλΆλ₯Ό μ΄ν΄λ΄ λλ€.
4. λ°μ΄ν° λ³ν λ° μ΅μ ν μλ³
μΌλ°μ μΈ λ°μ΄ν° λΆμ νλ‘μ νΈμμλ μ¬λ¬ λ°μ΄ν° μμ€μμ λ°μ΄ν°λ₯Ό μμ§ν λ€μ λ°μ΄ν° μΈνΈλ₯Ό λ³ννμ¬ νμν λΆμμ λ§κ² μ΅μ νν©λλ€.
- νμΌ νμ μ΅μ ν
- λ°μ΄ν° νμ€ν
- λ°μ΄ν° νμ§ νμΈ
- λ°μ΄ν° νν°μ λ
- λ°μ΄ν° λΉμ κ·ν
- λ°μ΄ν° μΉ΄νλ‘κ·Έ
- νμ΄νΈλ³΄λ λ°μ΄ν° λ³ν
νμΌ νμ μ΅μ ν
μΌλ°μ μΈ λ³νμ μΌλ° ν μ€νΈ νμΌμ Apache Parquetμ κ°μ μ΅μ νλ νμμΌλ‘ λ³ννλ κ²μ λλ€.
β CSV, XML, JSON λ° κΈ°ν μ νμ μΌλ° ν μ€νΈ νμΌ
μ ν λ° λ°μ ν λ°μ΄ν°λ₯Ό μ μ₯νλ λ° μ¬μ©
μλμΌλ‘ λ°μ΄ν°λ₯Ό νμν λ μ μ©
β Apache Parquet
μ»΄ν¨ν° κΈ°λ° λΆμμ μ¬μ©λλ μ΄μ§ κΈ°λ° νμΌ νμ
λ°μ΄ν° νμ€ν
νμ΄νλΌμΈμ ꡬμΆν λ μ¬λ¬ λ°μ΄ν° μμ€μμ λ°μ΄ν°λ₯Ό λ‘λνλ κ²½μ°κ° λ§μλ°, κ° λ°μ΄ν° μμ€λ λμΌν νλͺ©μ μ°Έμ‘°νκΈ° μν μλ‘ λ€λ₯Έ λͺ λͺ κ·μΉμ κ°μ§ μ μμ΅λλ€. λΆμμ μν΄ λ°μ΄ν°λ₯Ό μ΅μ νν λ μνν μμ μ€ νλλ μ΄ μ΄λ¦, μ ν λ° νμμ νμ€ννλ κ²μ λλ€. μ μ¬μ λΆμ νλ‘κ·Έλ¨μ ν΅ν΄ μ‘°μ§μ λͺ¨λ λΆμ νλ‘μ νΈμμ νμ€ μ μλ₯Ό λ§λ€κ³ μ±νν μ μμ΅λλ€.
λ°μ΄ν° νμ§ νμΈ
λ°μ΄ν° λ³νμ λ λ€λ₯Έ μΈ‘λ©΄μ λ°μ΄ν° νμ§μ κ²μ¦νκ³ μμ§λ λ°μ΄ν°κ° μμ νμ§ νμ€μ μΆ©μ‘±νμ§ λͺ»ν κ²½μ° κ°μ‘° νμνλ νλ‘μΈμ€μΌ μ μμ΅λλ€.
λ°μ΄ν° νν°μ λ
물리μ μ€ν λ¦¬μ§ κ³μΈ΅μ λ°μ΄ν°λ₯Ό 쿼리μ μμ£Ό μ¬μ©λλ νλλ³λ‘ κ·Έλ£Ήννμ¬ λ°μ΄ν°λ₯Ό λΆν νλ κ²μ λλ€.
μλ₯Ό λ€μ΄, λ°μ΄ν°κ° μ’ μ’ λ μ§ λ²μλ‘ μΏΌλ¦¬λλ κ²½μ° λ°μ΄ν°λ₯Ό λ μ§ νλλ‘ λΆν ν μ μμ΅λλ€.
νΉμ λ μ§μ λν λͺ¨λ λ°μ΄ν°λ₯Ό μ ννλ 쿼리λ₯Ό μ€ννλ©΄ λΆμ μμ§μ ν΄λΉ λ¬μ λ°μ΄ν°λ₯Ό μ μ₯νλ λλ ν 리μ λ°μ΄ν°λ§ μ½μΌλ©΄ λ©λλ€.
λ°μ΄ν° λΉμ κ·ν
κΈ°μ‘΄μ κ΄κ³ν λ°μ΄ν°λ² μ΄μ€ μμ€ν μμλ λ°μ΄ν°κ° μ κ·νλ©λλ€. μ¦, κ° ν μ΄λΈμνΉμ μ£Όμ μ λν μ 보 λ° κ΄λ ¨ μ 보λ λ³λμ νμ ν¬ν¨λμ΄ μμ΅λλ€. κ·Έλ° λ€μ μΈλ ν€λ₯Ό μ¬μ©νμ¬ ν μ΄λΈμ μ°κ²°ν μ μμ΅λλ€.
λ°μ΄ν° λ μ΄ν¬μ κ²½μ° μ¬λ¬ ν μ΄λΈμ λ°μ΄ν°λ₯Ό λ¨μΌ ν μ΄λΈλ‘ κ²°ν©νλ©΄ 쿼리 μ±λ₯μ΄ ν₯μλλ κ²½μ°κ° λ§μ΅λλ€.λ°μ΄ν° λΉμ κ·νλ λ κ° μ΄μμ ν μ΄λΈμ μ¬μ©νμ¬ λ ν μ΄λΈμ λ°μ΄ν°λ‘ μ ν μ΄λΈμ λ§λλλ€.
λ°μ΄ν° μΉ΄νλ‘κ·Έ
νμ΄νλΌμΈμ λ³ν μΉμ μ ν¬ν¨ν΄μΌ νλ λ λ€λ₯Έ μ€μν κ΅¬μ± μμμν€ν μ²λ λ°μ΄ν° μΈνΈλ₯Ό λΆλ₯νλ νλ‘μΈμ€μ λλ€. μ΄ νλ‘μΈμ€ μ€μ λ°μ΄ν° λ μ΄ν¬μ λͺ¨λ λ°μ΄ν° μΈνΈκ° λ°μ΄ν° μΉ΄νλ‘κ·Έμμ μ°Έμ‘°λκ³ μΆκ° λΉμ¦λμ€ λ©νλ°μ΄ν°λ₯Ό μΆκ°ν μ μλμ§ νμΈν©λλ€.
νμ΄νΈλ³΄λ λ°μ΄ν° λ³ν
νμν λ³νμ λͺ¨λ μΈλΆμ¬νμ κ²°μ ν νμλ μμ§λ§, κ°λ΅μ μΈ νμ΄νλΌμΈ μ€κ³μ μ£Όμ λ³νμ λμνλ κ²μ΄ μ μ©ν©λλ€.
λ°μ΄ν° μμ§λμ΄κ° νμ΄νΈλ³΄λ μΈμ μ€μ μμλλ λ°μ΄ν° λ³νμ λν΄ μμ§ν΄μΌ νλ μΌλΆ μ 보
- μ°Έμ‘°ν μ μλ κΈ°μ‘΄μ νμ€νλ μ΄ μ΄λ¦ μ μ λ° νμ μ§ν©μ΄ μμ΅λκΉ? κ·Έλ μ§ μλ€λ©΄ λκ° μ΄λ¬ν νμ€ μ μλ₯Ό μμ±ν μ± μμ΄ μμ΅λκΉ?
- λ°μ΄ν° μΈνΈμ λν΄ μ΄λ€ μΆκ° λΉμ¦λμ€ λ©νλ°μ΄ν°λ₯Ό μΊ‘μ²ν΄μΌ ν©λκΉ? μλ₯Ό λ€μ΄ λ°μ΄ν° μμ μ, λΉμ© ν λΉ νκ·Έ, λ°μ΄ν° λ―Όκ°λ λ±μ΄ μμ΅λλ€.
- μ΅μ νλ νμΌμ μ΄λ€ νμμΌλ‘ μ μ₯ν΄μΌ ν©λκΉ? Apache Parquetλ μΌλ°μ μΈ νμμ΄μ§λ§ λ°μ΄ν° μλΉμκ° μ¬μ©νλ λκ΅¬κ° Apache Parquet νμμ νμΌκ³Ό ν¨κ» μλν μ μλμ§ νμΈν΄μΌ ν©λλ€.
- λ°μ΄ν°λ₯Ό λΆν ν΄μΌ νλ λͺ νν νλκ° μμ΅λκΉ?
- μ΄ μμ μμ λ€λ₯Έ νμ λ°μ΄ν° λ³νμ΄ λͺ λ°±ν©λκΉ? μλ₯Ό λ€μ΄ κ΄κ³ν λ°μ΄ν°λ² μ΄μ€μμ λ°μ΄ν°λ₯Ό μμ§νλ κ²½μ° λ°μ΄ν°λ₯Ό λΉμ κ·νν΄μΌ ν©λκΉ?
- νμλ μ΄λ€ λ°μ΄ν° λ³ν μμ§/κΈ°μ μ΄ μμ΅λκΉ? μλ₯Ό λ€μ΄ νμ PySparkλ₯Ό μ¬μ©νμ¬ Spark μμ μ μμ±ν κ²½νμ΄ μμ΅λκΉ?
3κ°μ μμ(λλ© μμ, ν΄λ¦° μμ, μ λ³λ μμ)μΌλ‘ λ°μ΄ν° λ μ΄ν¬λ₯Ό μμ±ν©λλ€.
- μμ νμΌμ λλ© μ‘΄μΌλ‘ μμ§λλ©° CSV λ° XMLκ³Ό κ°μ μΌλ° ν μ€νΈ νμμ λλ€. νμΌμ΄ μμ§λλ©΄ νμΌμ λν μ λ³΄κ° μΆκ° λΉμ¦λμ€ λ©νλ°μ΄ν°(λ°μ΄ν° μμ μ, λ°μ΄ν° λ―Όκ°λ λ±)μ ν¨κ» λ°μ΄ν° μΉ΄νλ‘κ·Έμ μΊ‘μ²λ©λλ€.
- νμ¬λ‘μλ νΉμ λ°μ΄ν° λ³ν μμ§μ μλ³νμ§ λͺ»νμ§λ§ νμ΄ μ΄μ μ PySparkλ₯Ό μ¬μ©νμ¬ Spark ETL μμ μ μμ±ν κ²½νμ΄ μμμ λνλ΄λ λ©λͺ¨λ₯Ό μΊ‘μ²νμ΅λλ€. μ¦, AWS Glueκ° λ°μ΄ν° λ³νμ μν μ’μ μ루μ μΌ μ μμ§λ§ λμ€ λ¨κ³μμ μ΄μ λν μΆκ° κ²μ¦μ μνν κ²μ λλ€.
- νμ΄νλΌμΈμ μΌλΆλ‘ λλ© μ‘΄μ λ°μ΄ν°μ λν λ°μ΄ν° νμ§ κ²μ¬λ₯Ό μ€ννλ νλ‘μΈμ€κ° μμ΅λλ€. νμ§ κ²μ¬λ₯Ό ν΅κ³Όνλ©΄ λ°μ΄ν°(κ· μΌν μ΄ μ΄λ¦ λ° λ°μ΄ν° μ ν)λ₯Ό νμ€ννκ³ νμΌμ Apache Parquet νμμΌλ‘ λ³ννμ¬ ν΄λ¦° μμμ μ νμΌμ μμ±ν©λλ€. λ€μ ν λ² κ΄λ ¨ λΉμ¦λμ€ λ©νλ°μ΄ν°λ₯Ό ν¬ν¨νμ¬ μλ‘ μμ±λ νμΌμ λ°μ΄ν° μΉ΄νλ‘κ·Έμ μΆκ°ν©λλ€.
- νμ΄νλΌμΈμ λ€λ₯Έ λΆλΆμ μ΄μ νΉμ μ¬μ© μ¬λ‘ μꡬ μ¬νμ λ°λΌ λ°μ΄ν°μ λν μΆκ° λ³νμ μνν©λλ€. μλ₯Ό λ€μ΄ κ΄κ³ν λ°μ΄ν°λ² μ΄μ€μ λ°μ΄ν° λΉμ κ·νλκ³ μΆκ° λ°μ΄ν°λ‘ ν μ΄λΈμ 보κ°ν μ μμ΅λλ€. λ³νλ λ°μ΄ν°λ₯Ό νλ μ΄ν λ μμμ κΈ°λ‘νκ³ κΈ°λ‘λ λ μ§λ³λ‘ νμΌμ λΆν ν©λλ€. λ€μ ν λ² κ΄λ ¨ λΉμ¦λμ€ λ©νλ°μ΄ν°λ₯Ό ν¬ν¨νμ¬ μλ‘ μμ±λ νμΌμ λ°μ΄ν° μΉ΄νλ‘κ·Έμ μΆκ°ν©λλ€.
μ΄ μΈμ μ λͺ©νλ λͺ¨λ κΈ°μ μ μΈλΆ μ¬νμ ν΄κ²°νλ κ²μ΄ μλλΌ νμ΄νλΌμΈμ λν λμ μμ€μ κ°μλ₯Ό λ§λλ κ²μμ κΈ°μ΅νλ κ²μ΄ μ€μν©λλ€. μ΅μμ λΆν μ λ΅μ κ²°μ νλ €λ©΄ λ°μ΄ν° μΈνΈμ λν΄ μ€νλ 쿼리λ₯Ό μ μ΄ν΄ν΄μΌ ν©λλ€. λ°μ΄ν° λ³νμ κ²°μ νμΌλ©΄ λ°μ΄ν° λ§νΈκ° νμνμ§ μ¬λΆλ₯Ό κ²°μ νλ νμ΄νΈλ³΄λ νλ‘μΈμ€μ λ§μ§λ§ λ¨κ³λ‘ μ΄λν©λλ€.
5. λ°μ΄ν° λ§νΈμ λ°μ΄ν° λ‘λ
μ¬μ© μ¬λ‘μμ ν¨μ¬ λ 짧μ μ§μ° μκ°κ³Ό λ λμ μ±λ₯μ λ°μ΄ν° μ½κΈ°κ° νμν μ μμ΅λλ€. λλ κ³ λλ‘ κ΅¬μ‘°νλ μ€ν€λ§λ₯Ό μ¬μ©νλ κ²μ΄ μ¬μ© μ¬λ‘μ λΆμ μꡬμ¬νμ κ°μ₯ μ μΆ©μ‘±ν μ μλ κ²½μ°κ° μμ μ μμ΅λλ€. μ΄ κ²½μ° λ°μ΄ν° λ μ΄ν¬μμ λ°μ΄ν° λ§νΈλ‘ λ°μ΄ν°λ₯Ό λ‘λνλ κ²μ΄ μ’μ΅λλ€.
λΆμ νκ²½μμ λ°μ΄ν° λ§νΈλ λλΆλΆμ κ²½μ° λ°μ΄ν° μ¨μ΄νμ°μ€ μμ€ν (Amazon Redshift λ±)μ΄μ§λ§ μ¬μ© μ¬λ‘μ μꡬμ¬νμ λ°λΌ κ΄κ³ν λ°μ΄ν°λ² μ΄μ€ μμ€ν (Amazon RDS MySQL λ±)μΌ μλ μμ΅λλ€. λ κ²½μ° λͺ¨λ μμ€ν μ λ‘컬 μ μ₯μμ λ‘컬 μ»΄ν¨ν μ±λ₯μ κ°μΆκ³ μμ΄ λκ·λͺ¨ λ°μ΄ν° μΈνΈμμ 쿼리ν΄μΌ ν λ, νΉν μΏΌλ¦¬κ° μ¬λ¬ ν μ΄λΈμμ μ‘°μΈν΄μΌ νλ κ²½μ°μ μ΅κ³ μ μ±λ₯μ μ 곡ν©λλ€.
νμ΄νΈλ³΄λ μΈμ μ μΌλΆλ‘ λ°μ΄ν° λ§νΈκ° λ°μ΄ν°μ νμ μ§ν©μ λ‘λνλ λ° κ°μ₯ μ ν©νμ§ μ¬λΆλ₯Ό λ Όμν΄μΌ ν©λλ€.
6. νμ΄νΈλ³΄λ μΈμ λ§λ¬΄λ¦¬
νμ΄νΈλ³΄λ μΈμ μ μλ£ν νμλ ꡬμΆνλ €λ νμ΄νλΌμΈμ μ£Όμ μ»΄ν¬λνΈλ₯Ό λνλ΄λ κ°μ μν€ν μ²κ° νμν©λλ€.νμμ μμλ, μμ§ λλ΅νμ§ μμ λ§μ μλ¬Έμ μ΄ λ¨μ μμ΄, μμΈν κ²μ λ§μ§ μμ΅λλ€.λ¨, λμ μμ€μ μν€ν μ²λ νλ‘μ νΈμ λν΄ μ μλ κ³νμ λν΄ μ΄ν΄κ΄κ³μλ‘λΆν° νλμ λμλ₯Ό μ»κΈ°μ μΆ©λΆν©λλ€.λν μμΈν μ€κ³λΆν° μμνμ¬ νμμ λ°λΌ νμ μΈμ μ μ€μ ν μ μλ μΆ©λΆν μ 보λ₯Ό μ 곡ν΄μΌ ν©λλ€.
μΈμ ν νμν μ 보
- μ΄ νλ‘μ νΈμ λ°μ΄ν° μλΉμλ₯Ό μ ννκ² νμ νλ€.
- λ°μ΄ν° μλΉμμ κ° λ²μ£Όμ λν΄ λ°μ΄ν°μ μ‘μΈμ€νλ λ° μ¬μ©ν λꡬ μ ν(SQL, μκ°ν λꡬ λ±)μ λν μ’μ μμ΄λμ΄
- μ¬μ©λ λ΄λΆ λ° μΈλΆ λ°μ΄ν° μμ€μ λν μ΄ν΄
- κ° λ°μ΄ν°μ λν΄ μμ€, λ°μ΄ν° μμ§ λΉλμ λν μꡬ μ¬ν μ΄ν΄(μ: 맀μΌ, 맀μκ° λλ κ±°μ μ€μκ° μ€νΈλ¦¬λ°)
- κ° λ°μ΄ν° μμ€μ λν΄ λ°μ΄ν°λ₯Ό μμ ν μ¬λκ³Ό λ°μ΄ν°λ₯Ό ν¬ν¨νλ μμ€ μμ€ν μ μμ ν μ¬λμ λͺ©λ‘
- μμλλ λ°μ΄ν° λ³νμ λν λμ μμ€μ μ΄ν΄
- λ°μ΄ν° μ¨μ΄νμ°μ€ λλ κΈ°ν λ°μ΄ν° λ§νΈμ λ°μ΄ν° νμ μ§ν©μ λ‘λν΄μΌ νλμ§ μ¬λΆμ λν νμ
μΈμ μ΄ λλλ©΄ μ΅μ’ μμ μν€ν μ² λ€μ΄μ΄κ·Έλ¨μ μμ±νκ³ νμμμ μ»μ λ©λͺ¨λ₯Ό ν¬ν¨ν΄μΌ ν©λλ€. μ΄ λ©λͺ¨λ μ΄μ μν€ν μ²λ₯Ό κΈ°λ°μΌλ‘ νλ‘μ νΈλ₯Ό μ§ννλ κ²μ λν μΉμΈ λ° λμλ₯Ό μμ²νκΈ° μν΄ λͺ¨λ μ°Έκ°μμκ² λ°°ν¬λμ΄μΌ ν©λλ€.
λμ μμ€μ μ κ·Ό λ°©μμ λν ν©μμ λλ¬νλ©΄ μΆκ° μΈλΆ μ 보λ₯Ό μΊ‘μ²νκ³ μꡬ μ¬νμ μμ ν κ²ν νκΈ° μν΄ λ€λ₯Έ νκ³Ό μΆκ° μΈμ μ΄ νμν©λλ€.
μ΄ μ₯μμ μ΄ν΄λ³Έ μλ리μ€λ₯Ό κΈ°λ°μΌλ‘ νλ μ΅μ’ μμ μμ€ μν€ν μ² λ€μ΄μ΄κ·Έλ¨μ μμ κ°μ΅λλ€.
ν λ‘ μ€μ λ€μν μν€ν μ² κ΅¬μ± μμμ λν κ΄λ ¨ λ©λͺ¨λ μμ κ°μ΅λλ€.
γData Engineering with AWSγ λμλ₯Ό λ²μ λ° μμ½νμ¬ μμ±νμ΅λλ€
'Ability π± > AWS' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[AWS Data Engineering] 10μ₯. λ°μ΄ν° νμ΄νλΌμΈ μ€μΌμ€νΈλ μ΄μ (2) | 2023.03.14 |
---|---|
[AWS Data Engineering] 8μ₯. λ°μ΄ν° μλΉμ μλ³ λ° νμ±ν (0) | 2023.03.01 |