คลังข้อมูล | Data Warehouse

นิยามของคลังข้อมูล

สำหรับคลังข้อมูลนั้น จะหมายถึงข้อมูลขนาดใหญ่ที่มีการรวบรวมจากแหล่งข้อมูลต่างๆข้อมูลที่จัดเก็บในคลังข้อมูลจะเป็นข้อมูลที่เกิดขึ้นแล้วในอดีตโดยที่มาของข้อมูลอาจจะมาจากแหล่งเดียวกันหรืออาจจะหลายแหล่งก็ได้ทั้งข้อมูลที่อาจจะเกิดขึ้นภายในองค์กรหรือภายนอกองค์กร แหล่งข้อมูลที่เป็นต้นกำเนิดของข้อมูลสำหรับคลังข้อมูลเรียกว่าเป็นข้อมูลต้นทาง (data source) ซึ่งการรวบรวมข้อมูลจากแหล่งต่างๆ นั้นก็จะมีกระบวนการที่เราเรียกว่าการเชื่อมโยงข้อมูลหรือ Data integrationและข้อมูลที่นำมาเก็บภายในคลังข้อมูลก็จะไม่มีการนำมาแก้ไขปรับปรุงอีกเพราะถือว่าข้อมูลนั้นได้จบเสร็จสิ้นไปแล้ว

สำหรับข้อมูลที่เก็บในคลังข้อมูลนั้นจะถูกนำมาใช้เพื่อการประมวลผลเป็นข้อมูลสารสนเทศในเชิงการบริหารเรียกว่าเป็น Management Information System โดยมีการนำเอาข้อมูลมาแสดง ทั้งในรูปของข้อมูลเชิงสรุป ตารางเป็นแผนภูมิ เป็นข้อมูลสารสนเทศสำหรับผู้บริหาร แเรียกว่า Executive Information System (EIS)

นอกจากนี้ความสามารถอีกอย่างหนึ่งของ Data Warehouse ก็คือการสามารถที่จะเจาะลึกลงไปดูในรายละเอียดของข้อมูลที่เราเรียกว่าการ drill-down เป็นการสรุปภาพรวมและสามารถจะอธิบายลงในรายละเอียดลงไปในแต่ละระดับชั้นการ roll-up ก็เป็นอีกเครื่องมือหนึ่งที่สำคัญการแสดงผลข้อมูลสารสนเทศนั้นจะอาศัยเครื่องมือที่เรียกว่าเครื่องมือธุรกิจอัจฉริยะหรือ Business Intelligence : BI เพื่อเป็นการแสดงผลข้อมูลสารสนเทศที่มีความยืดหยุ่น

ขั้นตอนการเชื่อมโยงข้อมูลจากแหล่งข้อมูลต่างๆ เพื่อเป็นคลังข้อมูล

DataWarehouse-1

ขั้นตอนสำคัญคือต้องมีการกำหนดแหล่งข้อมูลแหล่งข้อมูล แหล่งข้อมูลแบ่งเป็น 2 ประเภทได้แก่ แหล่งข้อมูลภายในเป็นข้อมูลที่มีการพัฒนาและก็จัดเก็บภายในองค์กรเองและแหล่งข้อมูลจากภายนอกซึ่งเป็นข้อมูลที่มาจากภายนอกองค์กร เมื่อกำหนดแหล่งข้อมูลที่จะนำมาพัฒนาคลังข้อมูลขั้นตอนที่สองคือ การศึกษารูปแบบข้อมูลในแต่ละแหล่งข้อมูล ขั้นที่สามก็คือการเชื่อมโยงข้อมูลจากแหล่งต่างๆเพื่อให้ข้อมูลอยู่ในรูปแบบที่เหมาะสมต่อการนำไปเก็บในคลังข้อมูลซึ่งขั้นตอนการเชื่อมโยงข้อมูลจะมีการแปลงข้อมูลให้มีความเหมาะสมและมีมาตรฐานตามที่ได้กำหนดเอาไว้ในคลังข้อมูล

การเตรียมความพร้อมสำหรับโครงการคลังข้อมูล

DataWarehouse-2

การพัฒนาคลังข้อมูลนั้นเป็นโครงการที่อาจจะใช้ระยะเวลายาวนานแล้วก็มีงบประมาณเข้ามาเกี่ยวข้องซึ่งอาจจะต้องมีการลงทุน โครงการการพัฒนาคลังข้อมูลเป็นโครงการที่ต้องการความร่วมมือ แล้วก็การสนับสนุนจากหลายๆฝ่ายหลายๆกลุ่มคน โดยที่ผู้ที่เกี่ยวข้องนั้นอาจจะมีอยู่หลายประการด้วยกัน โดยเฉพาะการดำเนินงานนั้นจะต้องมีส่วนที่เกี่ยวข้องกับผู้บริหารซึ่งอาจจะมีอยู่หลายระดับด้วยกันแล้วก็แบ่งออกเป็นผู้บริหารระดับชั้นต้น ระดับสูง รวมถึงเจ้าหน้าที่ผู้รับผิดชอบดูแลระบบไอทีขององค์กร เจ้าหน้าที่เทคโนโลยีสารสนเทศแล้วก็ผู้ที่มีส่วนที่เกี่ยวข้องกับระบบฐานข้อมูลในด้านต่างๆ

การพัฒนาคลังข้อมูลนั้นจำเป็นจะต้องมีการวางแผนแล้วก็การเตรียมความพร้อมซึ่งในการดำเนินงานนั้นโครงการคิดว่าทุกคนจะต้องมีส่วนร่วมแล้วก็ให้ความร่วมมือประกอบกับการมีส่วนร่วมจากผู้บริหารระดับสูงสุดในลักษณะของการสนับสนุนหรือการมีส่วนร่วมในเชิงส่วนของนโยบายในเชิงของงบประมาณ

การสกัดและแปลงข้อมูลเข้าสู่คลังข้อมูล

DataWarehouse-3

ความท้าทายของกระบวนการสกัด การแปลงข้อมูลข้อมูลที่จัดเก็บในแหล่งข้อมูลต่าง ๆในแต่ละองค์กร ล้วนแล้วมีความแตกต่างกันทั้งในรูปแบบของข้อมูลที่จัดเก็บแพลตฟอร์มสถาปัตยกรรมโครงสร้าง

และการออกแบบข้อมูลส่วนทั้งในเรื่องของรูปแบบของการนำไปใช้ข้อมูลในแต่ละองค์กรก็มีความแตกต่างกันดังนั้นการสกัดข้อมูลเป็นขั้นตอนที่ใช้เวลาในการประมวลผลมากเนื่องจากการทำงานจะต้องมีการตรวจสอบกฎและเงื่อนไขสำหรับการสกัดข้อมูลทีมพัฒนาจะต้องใช้เวลาส่วนใหญ่ในขั้นตอนของการทำการสกัดการแปลงและการโหลดข้อมูลหรือเราเรียกว่า ETL ซึ่งโดยเฉลี่ยแล้วมากกว่า 50-70% ของโครงการ

ETL คืออะไร

กระบวนการ Extract, transform and load (ETL) เป็นกระบวนการรวมข้อมูลจากหลายแหล่งไปยังพื้นที่เก็บข้อมูลส่วนกลางขนาดใหญ่ที่เรียกว่าคลังข้อมูล ETL ใช้ชุดกฎทางธุรกิจเพื่อล้างและจัดระเบียบข้อมูลดิบ และเตรียมข้อมูลดังกล่าวสำหรับการจัดเก็บ การวิเคราะห์ข้อมูล และแมชชีนเลิร์นนิง (ML) คุณสามารถระบุความต้องการธุรกิจอัจฉริยะเฉพาะผ่านการวิเคราะห์ข้อมูล (เช่น การคาดการณ์ผลลัพธ์ของการตัดสินใจทางธุรกิจ การสร้างรายงานและแดชบอร์ด การลดความไร้ประสิทธิภาพในการดำเนินงาน และอื่นๆ อีกมากมาย)

DataWarehouse-4

Visits: 20

Comments

comments

Back To Top