14 Sep ความต่างระหว่าง Data lakes และ Data warehouses
ความต่างระหว่าง data lakes และ data warehouses นับตั้งแต่ที่ google บัญญัติศัพท์ว่า big data ขึ้นมาเมื่อหลายปีก่อนคราวนี้ก็มีศัพท์ใหม่ๆ ขึ้นมาโดยที่ขึ้นอยู่กับว่าเราให้ความสนใจไปที่ส่วนใด เรามาดูกันเรื่องความแตกต่างของ data lakes และ data warehouses กันว่าทั้งสองอย่างนี้ช่วยให้คุณจัดการกับข้อมูลได้อย่างไร
สำหรับผู้เริ่มต้นเรียนรู้ในสาย data โดยมีโซลูชั่นส์คือ big data ของข้อมูลลูกค้า เราสามารถโฟกัสให้แคบลงมาโดยใช้ชื่อว่า data lakes
เรามาดูเรื่องของ Data Warehouses กันก่อน ความหมายของมันคือ การเก็บรวบรวมข้อมูลไว้ในส่วนกลาง (repositories) คอมพิวเตอร์ ซึ่งข้อมูลต้นทางจะเป็นข้อมูลแหล่งเดียวกันหรือแหล่งที่ต่างกันก็ได้ ซึ่งจะเก็บทั้งข้อมูลที่เป็นปัจจุบันและข้อมูลอดีตเพื่อสร้างเป็นรายงานให้หัวหน้าได้ดู เช่นการเปรียบเทียบประจำควอเตอร์,การเปรียบเทียบประจำปี
จุดมุ่งหมายของ data warehouses ก็เพื่อเก็บข้อมูลจำนวนมาก ซึ่งส่วนมากแล้วจะเป็นข้อมูลที่มีโครงสร้างมีแบบแผนแบบเดียวกัน, โดยข้อมูลยังไม่ถูกโหลดจาก data warehouse จนกว่าจะมีการเรียกใช้
เราจะรู้ถึง ความต่างระหว่าง data lakes และ data warehouses ได้อย่างไร ?
Data lakes จริงๆแล้วความหมายของมันก็คือ data mart ที่เป็นซับเซตของ data warehouse ที่ผ่านกระบวนการ cleanse, package และเปลี่ยนแปลงให้เป็นโครงสร้างอย่างง่ายมาแล้ว ขณะที่ data lakes คล้ายกับส่วนของน้ำที่มีสถานะเป็นกลาง ข้อมูลจะไหลมาจาก stream (หรือระบบ source system) ผู้ใช้งานสามารถนำมันมาตรวจสอบโดยการสุ่มตัวอย่างมาจำนวนหนึ่งก็ได้
ซึ่งบางครั้งคำนิยามของ data lakes ยังดูไม่ชัดเจนเท่าไหร่ เรามาสรุปอีกครั้งว่า data lakes มันคือข้อมูลทั้งหมดที่ถูกโหลดมาจากต้นทางโดยที่ไม่มีการเปลี่ยนรูปของข้อมูล, data จาก data lakes นี้ต้องมีการจัดรูปแบบให้เป็นหมวดหมู่ (schema) เพื่อประโยชน์ในการวิเคราะห์ข้อมูลต่อไป ซึ่งสิ่งต่างๆกันระหว่าง data lakes และ data warehouse ที่ชัดเจนที่สุดคือ
Data Lakes ยังคงเก็บข้อมูลทั้งหมดไว้ แต่ data warehouses เก็บเฉพาะข้อมูลที่สัมพันธ์กัน (Relational database) ช่วงที่มีการเขียนโปรแกรมใน data warehouse มันจำเป็นต้องใช้เวลาในการวิเคราะห์ข้อมูลต้นทาง, เพื่อให้ตรงตาม business และการจัดโปรไฟล์ของข้อมูล โครงสร้างข้อมูลที่เป็นระเบียบจะนำเข้าสู่รายงานได้ ซึ่งกระบวนการตัดสินใจต้องดูข้อมูลที่อยู่ใน data warehouses หรือบางครั้งเกิดข้อมูลที่ไม่สามารถจัดกลุ่มได้มันก็ต้องนำออกจาก data warehouses เพื่อประหยัดพื้นที่ในการจัดเก็บ
ในทางตรงกันข้าม data lakes เก็บข้อมูลทั้งหมด ไม่ใช่เพียงข้อมูลที่เป็นปัจจุบัน แต่ว่ามันเก็บ data ทั้งที่ใช้งานได้และใช้งานไม่ได้ เพราะว่า data ที่ไม่ถูกเรียกใช้งานในวันนี้อาจมีความสำคัญในวันข้างหน้าก็ได้ ดังนั้นเราอาจกล่าวได้ว่า data lakes จะใช้พื้นที่ในการจัดเก็บข้อมูลมากกว่า data warehouses ขนาดของ data lakes จะเก็บในหลัก petabytes และใช้ในงานที่เกี่ยวกับ big data โดยเฉพาะ
- ยกระดับการศึกษาไปอีกขั้นด้วย Microsoft 365 Copilot - March 28, 2024
- Microsoft Copilot ผู้ช่วยคนใหม่สำหรับฝ่ายทรัพยากรบุคคล - March 26, 2024
- ประโยชน์ทางธุรกิจของ Copilot สำหรับสายงาน Marketing - March 6, 2024
- ประโยชน์หลักของ Microsoft Copilot เพื่อการใช้งานทางธุรกิจ - February 23, 2024
- 8 Questions You May Have About Microsoft Copilot - February 8, 2024
- 9 คำถามที่คนสงสัยกันมากที่สุดเกี่ยวกับ Microsoft Copilot - February 8, 2024
- SAP Business One ระบบ ERP ที่เป็นมากกว่าแค่ระบบบัญชี - December 6, 2023
- สิ่งสำคัญที่ควรรู้ก่อนตัดสินใจใช้ ERP ควรพิจารณาอย่างไร? - December 6, 2023
- การเดินทางของ Web 3.0 ในปัจจุบันเป็นอย่างไร - March 9, 2023
- Whaling phishing คืออะไร - January 27, 2023