วันอังคารที่ 1 กุมภาพันธ์ พ.ศ. 2554

นิยามของคลังข้อมูล (Definition of a Data Warehouse)

ปัจจุบันนี้องค์ส่วนใหญ่ที่จะประสบความสำเร็จได้นั้นต้องขึ้นอยู่กับปัจจัยหลายๆอย่าง และปัจจัยที่สำคัญมากสำหรับองค์กรคือข้อมูลที่มีอยู่และใช้ประจำวัน (Operational Database) ซึ่งนับวันจะเริ่มเข้ามามีบทบาทมากขึ้นในแต่ละองค์กร ที่จะต้องมีการจัดเก็บอย่างดี ในอดีตการจัดเก็บข้อมูลเป็นเพียงการจัดเก็บบนเทปแม่เหล็ก แผ่นดิสก์ แผ่นซีดี ซึ่งมักจะเสี่ยงกับการสูญหายของข้อมูล และการค้นหาข้อมูลก็ทำได้ยากและใช้เวลานาน ยิ่งข้อมูลที่มีจำนวนมากๆ หรือมีขนาดใหญ่ ยิ่งเสี่ยงมาก อีกทั้ง การประมวลผลของข้อมูลยังช้าอีกด้วย ดังนั้น จึงมีผู้คิดค้นวิธรการจัดเก็บข้อมูลเพื่อสามารถนำมาใช้ให้เกิดประโยชน์สูงสุดนั่นก็คือ การจัดเก็บข้อมูลในระบบคลังข้อมูล หรือ Data Warehouse นั่นเอง เรามาทำความเข้าใจกับคลังข้อมูลกันก่อนว่า คลังข้อมูลนี้เป็นอย่างไร


คลังข้อมูล หมายถึง ฐานข้อมูลขนาดใหญ่ขององค์กรหรือหน่วยงานหนึ่งๆ ซึ่งเก็บรวบรวมข้อมูลจากฐานข้อมูลระบบงานประจำวัน หรือเรียกอีกอย่างว่า operational database และฐานข้อมูลอื่นภายนอกองค์กร หรือเรียกว่า external database โดยข้อมูลที่ถูกจัดเก็บในคลังข้อมูลนั้น มีวัตถุประสงค์ในการนำมาใช้งานและมีลักษณะของการจัดเก็บแตกต่างไปจากข้อมูลในฐานข้อมูลระบบงานอื่น และสามารถเก็บข้อมูลย้อนหลังได้หลายๆปี เพื่อใช้เป็นข้อมูลในการตัดสินใจหรือใช้ในการวิเคราะห์ข้อมูลที่ถูกต้องและมีประสิทธิภาพ โดยการวิเคราะห์ต้องทำได้แบบหลายมิติ (Multidimensional Analysis) โดยข้อมูลในคลังข้อมูลจะถูกนำมาใช้เพื่อสนับสนุนการตัดสินใจบริหารงานของผู้บริหาร โดยเฉพาะการเป็นข้อมูลพื้นฐานให้กับระบบงาน เพื่อการบริหารงานอื่น เช่น ระบบ DSS และระบบ CRM เป็นต้น)
วัตถุประสงค์ของการสร้างคลังข้อมูล
เป้าหมายของการสร้างคลังข้อมูล คือ การแยกกลุ่มข้อมูลสารสนเทศที่ใช้ในการวิเคราะห์ทางธุรกิจออกจากฐานข้อมูลที่ใช้งานประจำวัน (Operational Database) มาเก็บอยู่ใน Relational Database Management Systems (RDBMS) ประสิทธิภาพสูง และทำให้การเรียกใช้ข้อมูลทำได้อย่างยืดหยุ่น จากเครื่องมือที่มีอยู่บนเดสก์ทอปทั่วไป โดยลด off-loading เพิ่มกลไกช่วยการตัดสินใจ ปรับปรุงเวลาที่ตอบสนอง (response time) รวดเร็วยิ่งขึ้นอย่างมากละผู้บริหารสามารถเรียกข้อมูลรายละเอียดที่จำเป็น ที่ถูกเก็บมาก่อนหน้านี้ (historical data) มาช่วยในการตัดสินใจทางธุรกิจอย่างแม่นยำขึ้น


ประโยชน์ของคลังข้อมูล
โดยทั่วไปแล้วข้อมูล Operational Database จะเก็บข้อมูลในรูปแบบ Transaction Systems เมื่อมีความต้องการในการจะนำข้อมูลเหล่านั้นมาใช้เพื่อช่วยในการตัดสินใจก็จะประสบกับปัญหาต่างๆ เช่น การเรียกข้อมูลจากฐานข้อมูลขนาดใหญ่ส่งผลช้า ข้อมูลเก็บแบบเป็นตารางเท่านั้น และการนำเสนอเป็นรูปแบบที่ตายตัว ไม่มีการเปลี่ยนแปลงตามความต้องการของผู้ใช้ ไม่ตอบสนองความต้องการของการตัดสินใจ เพราะข้อมูลมีความสัมพันธ์แบบซับซ้อนสูง ซึ่งข้อมูลมีการรวมตัวจากตารางหลายๆตารางมารวมกัน มีข้อมูลย้อนหลังน้อย ข้อมูลถูกจัดเก็บแบบกระจายซึ่งยากต่อการเรียกใช้ และเสียเวลาในการค้นหาข้อมูล
จากอุปสรรคดังกล่าว ทำให้คลังข้อมูลถูกออกแบบให้มีการตอบสนองงานในรูปแบบการตัดสินใจ โดยแยกฐานข้อมูลออกจาก Operational Database และเก็บข้อมูลในรูปของข้อมูลที่มีการวิเคราะห์ โดยการวิเคราะห์นั้นต้องทำได้หลายมิติ ข้อมูลจะมีความถูกต้อง มีประสิทธิภาพ สำหรับการนำไปช่วยในการตัดสินใจรวดเร็วยิ่งขึ้น
การจัดทำคลังข้อมูลจะมีความสำคัญมากยิ่งขึ้นในอนาคต เพราะปัจจุบันนี้ผู้ใช้และผู้บริหารงานของหน่วยงานในองค์กรต่างๆ เริ่มมีความเข้าใจและให้ความสำคัญกับข้อมูลมากขึ้น และเริ่มตระหนักว่าหากนำข้อมูลมาวิเคราะห์ให้เข้าใจสถานภาพหรือเหตุการณ์ที่เกิดขึ้นแล้วจะทำให้หน่วยงานหรือองค์กร พัฒนาและวางแผนสำหรับงานต่อๆไปได้เป็นอย่างดี ประโยชน์ของ Data Warehouse สามารถจำแนกได้เป็นข้อๆ ดังนี้
o ทำการรวบรวมข้อมูลที่มีความซับซ้อนให้ง่ายต่อการจัดเก็บ
สามารถนำข้อมูลมาใช้ได้อย่างรวดเร็วและถูกต้อง
ช่วยเสริมสร้างความรู้ของบุคลากรในองค์กร และสนับสนุนการตัดสินใจให้เกิดประสิทธิภาพ
สร้างความได้เปรียบในการแข่งขันและปรับปรุงกระบวนการทางธุรกิจให้มีความรวดเร็วขึ้น
คุณสมบัติของคลังข้อมูล
1. Consolidated and Consistant
Consolidated หมายถึง การรวบรวมข้อมูลที่เกิดขึ้นในระดับปฏิบัติการมาไว้ที่ศูนย์กลางเดียวกัน (คลังข้อมูล)
Consistant หมายถึง ข้อมูลจากแหล่งต่างๆที่รวบรวมมาไว้ในคลังข้อมูล จะต้องมีคุณสมบัติที่เหมือนกัน รูปแบบเดียวกันและสอดคล้องกัน
2. Subject-Oriented Data หมายถึง เก็บข้อมูลในระดับปฏิบัติการเฉพาะส่วนที่นำมาใช้เชิงวิเคราะห์หรือ เชิงตัดสินใจมากกว่าการเก็บข้อมูลเพื่อตอบคำถาม
3. Historical Data หมายถึง จะเก็บย้อนหลังเป็นเวลาหลายๆปี เพื่อจะได้นำไปวิเคราะห์เปรียบเทียบหาแนวโน้มของข้อมูลเปรียบกับปีที่ผ่านมา
4. Read – Only Data หมายถึง ข้อมูลในฐานข้อมูลไม่ควรมีการแก้ไขหลังจากที่นำข้อมูลเข้าสู่ฐานข้อมูลของคลังข้อมูลแล้วไม่มีการ Insert update or delete ข้อมูลภายในคลังข้อมูลนอกจากการเพิ่มข้อมูลเข้าอย่างเดียว
คุณลักษณะเฉพาะของคลังข้อมูล
1. Subject oriented หรือการแบ่งโครงสร้างตามเนื้อหา หมายถึง คลังข้อมูลถูกออกแบบมาเพื่อมุ่งเน้นไปในแต่ละเนื้อหาที่สนใจ ไม่ได้เน้นไปที่การทำงานหรือกระบวนการแต่ละอย่างโดยเฉพาะเหมือนอย่างฐานข้อมูลปฏิบัติการในส่วนของรายละเอียดข้อมูลที่จัดเก็บในระบบทั้งสองแบบก็จะแตกต่างกันไปตามความต้องการใช้งานด้วยเช่นกัน คลังข้อมูลจะไม่จำกัดเก็บข้อมูลที่ไม่มีส่วนเกี่ยวข้องกับการประมวลผลเพื่อสนับสนุนการตัดสินใจ ในขณะที่ข้อมูลนั้นจะถูกเก็บไว้ในฐานข้อมูลปฏิบัติการหากมีส่วนที่เกี่ยวข้องกับกระบวนการทำงาน
2. Integration หรือการรวมเป็นหนึ่ง ซึ่งถือได้ว่าเป็นคุณลักษณะที่สำคัญที่สุดของคลังข้อมูล คือการรวบรวมข้อมูลจากหลายฐานข้อมูลปฏิบัติการเข้าด้วยกัน และทำให้ข้อมูลมีมาตราฐานเดียวกัน เช่นกำหนดให้มีค่าตัวแปรของข้อมูลในเนื่อหาเดียวกันให้เป็นแบบเดียวกันทั้งหมด
3. Time variancy หรือความสัมพันธ์กับเวลา หมายถึงข้อมูลในคลังข้อมูล จะต้องจัดเก็บโดยกำหนดช่วงเวลาเอาไว้ โดยจะสัมพันธ์กับการดำเนินธุรกิจของหน่วยธุรกิจนั้น เพราะในการตัดสินด้านการบริหารจำเป็นต้องมีข้อมูลเปรียบเทียบในแต่ละช่วงเวลา แต่ละจุดของข้อมูลจะเกี่ยวข้องกับจุดของเวลาและข้อมูลแต่ละจุดสามารถเปรียบเทียบกันได้ตามแกนของเวลา
4. Nonvolatile หรือความเสถียรของข้อมูล หมายถึงข้อมูลในคลังข้อมูลจะไม่เปลี่ยนแปลงบ่อย ไม่ว่าจะเป็นการเพิ่มเติมข้อมูลใหม่ หรือการปรับปรุงแก้ไขข้อมูลเดิมที่บรรจุอยู่แล้ว ผู้ใช้ทำได้เพียงการเข้าถึงข้อมูลเท่านั้น


สถาปัตยกรรมของคลังข้อมูล
1. Operational database หรือ external database layer ทำหน้าที่จัดการกับข้อมูลในระบบงานปฏิบัติการหรือแหล่งข้อมูลภายนอกองค์กร
2. Information access layer เป็นส่วนที่ผู้ใช้ปลายทางติดต่อผ่านโดยตรง ประกอบด้วยฮาร์ดแวร์และซอฟต์แวร์ ที่ใช้ในการแสดงผลเพื่อวิเคราะห์ โดยมีเครื่องมือช่วย เป็นตัวกลางที่ผู้ใช้ใช้ติดต่อกับคลังข้อมูล
3. Data access layer เป็นส่วนต่อประสานระหว่าง Information access layer กับ operational layer
4. Metadata layer เพื่อให้เข้าใจถึงข้อมูลได้ง่ายขึ้น และเป็นการเพิ่มความเร็วในการเรียกและดึงข้อมูลของคลังข้อมูล
5. Process management layer ทำหน้าที่จัดการกระบวนการทำงานทั้งหมด
6. Application messaging layer เป็นมิดเดิลแวร์ (Middleware) ทำหน้าที่ในการส่งข้อมูลภายในองค์กรผ่านทางเครือข่าย
7. Data warehouse (physical) layer เป็นแหล่งเก็บข้อมูลของทาง information data และ external data ในรูปแบบที่ง่ายแก่การเข้าถึงและยืดหยุ่นได้
8. Data staging layer เป็นกระบวนการการแก้ไข และดึงข้อมูลจาก external database


ข้อเสียของคลังข้อมูล
1. ขั้นตอนการกลั่นกรองและโหลดข้อมูลเข้าสู่คลังข้อมูลใช้เวลานาน และต้องอาศัยผู้ที่มีความชำนาญ
2. แนวโน้มความต้องการข้อมูลมีมากขึ้นเรื่อย ๆ
3. ใช้เวลานานในการพัฒนาคลังข้อมูล
4. ระบบคลังข้อมูลมีความซับซ้อนสูง


โมเดลข้อมูลของคลังข้อมูลของ Data Warehouse
โมเดลข้อมูลของคลังข้อมูลของ Data Warehouse ซึ่งเปรียบเสมือนกับรูปลูกบาศก์ที่มีมุมมองหลากหลาย แต่ละมุมมองทำให้เกิดการคิวรีข้อมูลจาก Data Warehouseได้หลากหลายแบบคิวบ์ (Cube) ประกอบด้วยองค์ประกอบที่สำคัญคือ Dimention และ Measure การผสมผสานของ Dimention ต่างๆ ของคิวบ์ (Cube) ในบทนี้ คิวบ์ (Cube) มีโครงสร้างได้ 2 แบบคือ โครงสร้างแบบ Star Schema และ โครงสร้างแบบ Snowflake Schema
Dimensional Modeling
Dimensional Modeling เป็นชื่อเรียกของเทคนิคในการทำให้ฐานข้อมูลง่ายต่อการทำความเข้าใจ โดยการมองภาพของฐานข้อมูลเป็นลูกบาศก์ที่มี 3,4,5 มิติ หรือมากกว่านั้น ทำให้สามารถจิตนาการการ หันหรือแบ่งลูกบาศก์ที่มีลักษณะเหมือนลูกเต๋านี้ได้ นั่นคือสามารถตัดข้อมูลมาวิเคราะห์ดูในช่วงใดก็ได้ และหมุนข้อมูลดูได้จากทุกๆด้านของลูกเต๋า ตัวอย่างเช่น เราขายสินค้า (product) ในหลายๆที่ (market) และในช่วงเวลาต่างๆกัน (time) เราสามารถสร้าง Dimensional Modeling ได้โดยให้ label คือ product, market และ time อยู่บนแต่ละด้านของลูกบาศก์ที่เป็น 3 มิติ แต่ละจุดภายในลูกบาศก์เกิดจากการตัดของ coordinate ซึ่งมี label อยู่ที่ขอบของลูกบาศก์ ดังนั้นจุดต่างๆภายในลูกบาศก์คือผลลัพธ์ทางด้านธุรกิจที่พิจารณาจากทั้ง 3 เรื่องคือ สินค้า, ทีขายสินค้า, เวลา พร้อมๆกัน

ไม่มีความคิดเห็น:

แสดงความคิดเห็น