ความต่างระหว่าง Data lakes และ Data warehouses 

ความต่างระหว่าง data lakes และ data warehouses นับตั้งแต่ที่ google บัญญัติศัพท์ว่า big data ขึ้นมาเมื่อหลายปีก่อนคราวนี้ก็มีศัพท์ใหม่ๆ ขึ้นมาโดยที่ขึ้นอยู่กับว่าเราให้ความสนใจไปที่ส่วนใด เรามาดูกันเรื่องความแตกต่างของ data lakes และ data warehouses กันว่าทั้งสองอย่างนี้ช่วยให้คุณจัดการกับข้อมูลได้อย่างไร 

สำหรับผู้เริ่มต้นเรียนรู้ในสาย data โดยมีโซลูชั่นส์คือ big data ของข้อมูลลูกค้า เราสามารถโฟกัสให้แคบลงมาโดยใช้ชื่อว่า data lakes  

เรามาดูเรื่องของ Data Warehouses กันก่อน ความหมายของมันคือ การเก็บรวบรวมข้อมูลไว้ในส่วนกลาง (repositories) คอมพิวเตอร์ ซึ่งข้อมูลต้นทางจะเป็นข้อมูลแหล่งเดียวกันหรือแหล่งที่ต่างกันก็ได้ ซึ่งจะเก็บทั้งข้อมูลที่เป็นปัจจุบันและข้อมูลอดีตเพื่อสร้างเป็นรายงานให้หัวหน้าได้ดู เช่นการเปรียบเทียบประจำควอเตอร์,การเปรียบเทียบประจำปี 

จุดมุ่งหมายของ data warehouses ก็เพื่อเก็บข้อมูลจำนวนมาก ซึ่งส่วนมากแล้วจะเป็นข้อมูลที่มีโครงสร้างมีแบบแผนแบบเดียวกันโดยข้อมูลยังไม่ถูกโหลดจาก data warehouse จนกว่าจะมีการเรียกใช้   

เราจะรู้ถึง ความต่างระหว่าง data lakes และ data warehouses ได้อย่างไร ? 

Data lakes จริงๆแล้วความหมายของมันก็คือ data mart ที่เป็นซับเซตของ data warehouse ที่ผ่านกระบวนการ cleanse, package และเปลี่ยนแปลงให้เป็นโครงสร้างอย่างง่ายมาแล้ว ขณะที่ data lakes คล้ายกับส่วนของน้ำที่มีสถานะเป็นกลาง ข้อมูลจะไหลมาจาก stream (หรือระบบ source system) ผู้ใช้งานสามารถนำมันมาตรวจสอบโดยการสุ่มตัวอย่างมาจำนวนหนึ่งก็ได้  

ซึ่งบางครั้งคำนิยามของ data lakes ยังดูไม่ชัดเจนเท่าไหร่ เรามาสรุปอีกครั้งว่า  data lakes มันคือข้อมูลทั้งหมดที่ถูกโหลดมาจากต้นทางโดยที่ไม่มีการเปลี่ยนรูปของข้อมูล, data จาก data lakes นี้ต้องมีการจัดรูปแบบให้เป็นหมวดหมู่ (schema) เพื่อประโยชน์ในการวิเคราะห์ข้อมูลต่อไป ซึ่งสิ่งต่างๆกันระหว่าง data lakes และ data warehouse ที่ชัดเจนที่สุดคือ  

Data Lakes ยังคงเก็บข้อมูลทั้งหมดไว้ แต่ data warehouses เก็บเฉพาะข้อมูลที่สัมพันธ์กัน (Relational database) ช่วงที่มีการเขียนโปรแกรมใน data warehouse มันจำเป็นต้องใช้เวลาในการวิเคราะห์ข้อมูลต้นทางเพื่อให้ตรงตาม business และการจัดโปรไฟล์ของข้อมูล โครงสร้างข้อมูลที่เป็นระเบียบจะนำเข้าสู่รายงานได้ ซึ่งกระบวนการตัดสินใจต้องดูข้อมูลที่อยู่ใน data warehouses หรือบางครั้งเกิดข้อมูลที่ไม่สามารถจัดกลุ่มได้มันก็ต้องนำออกจาก data warehouses เพื่อประหยัดพื้นที่ในการจัดเก็บ   

ในทางตรงกันข้าม data lakes เก็บข้อมูลทั้งหมด ไม่ใช่เพียงข้อมูลที่เป็นปัจจุบัน แต่ว่ามันเก็บ data ทั้งที่ใช้งานได้และใช้งานไม่ได้ เพราะว่า data ที่ไม่ถูกเรียกใช้งานในวันนี้อาจมีความสำคัญในวันข้างหน้าก็ได้ ดังนั้นเราอาจกล่าวได้ว่า data lakes จะใช้พื้นที่ในการจัดเก็บข้อมูลมากกว่า data warehouses ขนาดของ data lakes จะเก็บในหลัก petabytes และใช้ในงานที่เกี่ยวกับ big data โดยเฉพาะ 

Tags

Related articles

อะไรที่ควรรู้ก่อนสอบ Claude Certified Architecture Foundations 

คุณบอม นพดล Technical Director ของเรา รวบรวม tips การเตรียมตัวสอบ Claude Certified Architect Foundations (CCA-F) มาให้แล้ว ตั้งแต่การบริหารเวลาในห้องสอบ ไปจนถึง Anthropic’s Way ที่ต้องเข้าใจให้ถูกก่อนตอบ

Read more

Cyber Defense 360°: กลยุทธ์ Cybersecurity แบบ End-to-End ในยุค AI-Driven Threat

Cyber threats ในยุค AI มีความซับซ้อนมากขึ้น ตั้งแต่ phishing, malware ไปจนถึง identity-based attacks บทความนี้อธิบายแนวคิด Cyber Defense 360° และวิธีที่องค์กรสามารถสร้างระบบ Cybersecurity แบบ End-to-End เพื่อป้องกันภัยไซเบอร์ยุคใหม่

Read more

Cybersecurity Threats in Thailand: ความเสี่ยงที่องค์กรไม่ควรมองข้าม

ภัยไซเบอร์ในประเทศไทยเพิ่มขึ้นต่อเนื่องจาก phishing, malware และการโจมตีแบบ identity-based บทความนี้วิเคราะห์แนวโน้ม Cybercrime ในไทย พร้อมอธิบายว่าทำไม Antivirus หรือ Firewall เพียงอย่างเดียวไม่เพียงพออีกต่อไป และองค์กรควรเตรียม Cyber Defense แบบ 360° อย่างไร

Read more
Contact us

Let's Talk Solutions

Don’t face obstacles alone – tell us about your needs. We’ll listen, suggest options, and together build technology to accomplish your goals.

Guaranteed Follow-Up — Within One Business Day

No chasing. No hassle. It’s easy.

Schedule a Free Consultation
General Form