เทคโนโลยีการสื่อสารและอินเทอร์เน็ต: Data Mining

Data Mining คืออะไร?

Data Mining คือ การสืบค้นความรู้ที่เป็นประโยชน์และน่าสนใจบนฐานข้อมูลขนาดใหญ่ (Knowledge Discovery from very large Databases : KDD ) เป็นเทคนิคที่ใช้จัดการกับข้อมูลขนาดใหญ่ โดยจะนำข้อมูลที่มีอยู่มาวิเคราะห์แล้วดึงความรู้ หรือสิ่งสำคัญออกมา เพื่อใช้ในการวิเคราะห์ หรือทำนายสิ่งต่าง ๆ ที่จะเกิดขึ้น ซึ่งการค้นหาความรู้ ความจริงที่แฝงอยู่ในข้อมูล ( Knowledge Discovery) เป็นกระบวนการขุดค้นสิ่งที่น่าสนใจในกองข้อมูลที่เรามีอยู่
Data Mining มีความหมายแตกต่างกันใน 2 แง่มุม คือ ในมุมมองทางวิชาการและในมุมมองเชิงธุรกิจ ในมุมมองเชิงวิชาการนั้น นักวิจัยจะอ้างถึงกระบวนการทั้งหมดในการทำ Data Mining ว่า “Knowledge discovery in database (KDD)” และใช้คำว่า “Data Mining” แทนขั้นตอนขั้นหนึ่งของกระบวนการ ที่เกี่ยวข้องกับการค้นหารูปแบบ ความสัมพันธ์ของข้อมูลเท่านั้น ในแง่มุมเชิงธุรกิจแล้ว จะใช้คำว่า “Data Mining” แทนความหมายของ ขั้นตอนทั้งหมด

วิวัฒนาการของ Data Mining

ปี 1960 Data Collection คือ การนำข้อมูลมาจัดเก็บอย่างเหมาะสมในอุปกรณ์ที่น่าเชื่อถือ และป้องกันการสูญหายได้เป็นอย่างดี
ปี 1980 Data Access คือ การนำข้อมูลที่จัดเก็บมาสร้างความสัมพันธ์ต่อกันในข้อมูลเพื่อประโยชน์ในการนำไปวิเคราะห์และการตัดสินใจอย่างมีคุณภาพ
ปี 1990 Data Warehouse & Decision Support คือ การรวบรวมข้อมูลมาจัดเก็บลงไปในฐานข้อมูลขนาดใหญ่โดยครอบคลุมทุกแง่ทุกมุมขององค์กร เพื่อช่วยสนับสนุนการตัดสินใจ
ปี 2000 Data Mining คือ การนำข้อมูลจากฐานข้อมูลมาวิเคราะห์และประมวลผล โดยการสร้างแบบจำลอง และความสัมพันธ์ ทางสถิติ

ข้อแตกต่างระหว่างระบบฐานข้อมูล กับ Data Mining

ระบบ Data Mining เราไม่ต้องเป็นคนกำหนดคำสั่ง (เช่น SQL) เพื่อค้นหาข้อมูลที่ต้องการ แต่ระบบ Data Mining จะมีขบวนการ/วิธีการ (ซึ่งปกติจะเป็น machine learning tools) เพื่อทำหน้าที่นี้ นั่นคือเราแค่บอกว่าเราต้องการอะไร (what to be mined) แต่ไม่จำเป็นต้อง ระบุว่า ทำอย่างไร (How to mine)
ระบบฐานข้อมูลทั่วไป จะบังคับให้เราต้องทำทั้งสองหน้าที่นี้ คือคิดก่อนว่าจะ ค้นหาอะไรแล้วก็ไปประดิษฐ์คำสั่ง SQL เพื่อค้นหาข้อมูลนั้น ดังนั้นถ้าเราคิดไม่รอบคอบ หรือคิดดีแล้วแต่แปลเป็นคำสั่งผิด ก็จะได้ข้อมูลผิดๆ หรือไม่ตรงกับความต้องการ

หลักการของ Knowledge Discovery from very large Databases (KDD) และ Data Mining จากที่ Data Mining เป็นขั้นตอนหนึ่งที่สำคัญในกระบวนการค้นหาลักษณะแฝงของข้อมูล ที่มีประโยชน์ในฐานข้อมูล (Knowledge Discovery in Database : KDD) กระบวนการของ KDD นั้นประกอบด้วยขั้นตอนต่างๆ ดังนี้

การคัดเลือกข้อมูล (Data Selection) ที่จะนำมาใช้ในการทำ mining รวมถึง การนำข้อมูลที่ต้องการออกมาจากฐานข้อมูลเพื่อทำการพิจารณาในเบื้องต้นว่าควรจะเลือกข้อมูลใดมาใช้งาน
การกรองข้อมูล (Data Cleaning) เป็นการกรั่นกรองข้อมูลที่ไม่ถูกต้องออกไปจากกลุ่มข้อมูลที่เลือกใช้ ทำให้มั่นใจในคุณภาพของข้อมูลว่าถูกต้องและตรงตามความต้องการ
การแปลงรูปแบบข้อมูล (Data Transformation) เป็นการแปลงข้อมูลที่เลือกมาให้อยู่ในรูปแบบที่เหมาะสมสำหรับการนำไปใช้วิเคราะห์ตามอัลกอริทึม (Algorithm) และแบบจำลองที่เลือกใช้ในการทำ data mining
การทำ Mining ข้อมูล (Data Mining) การใช้เทคนิคภายใน Data Mining เพื่อทำการ Mine ข้อมูล โดยทั่วไป ประเภทของงานตามลักษณะของแบบจำลองที่ใช้ในการทำ Data Mining นั้นสามารถแบ่งกลุ่มได้เป็น 2 ประเภทใหญ่ๆ คือ

Predictive Data Mining คือ เป็นการคาดคะเนลักษณะหรือประมาณค่าที่ชัดเจนของข้อมูลที่จะเกิดขึ้น โดยใช้พื้นฐานจากข้อมูลที่ผ่านมาในอดีต
Descriptive Data Mining คือ เป็นการหาแบบจำลองเพื่ออธิบายลักษณะบางอย่างของข้อมูลที่มีอยู่ ซึ่งส่วนใหญ่จะเป็นลักษณะการแบ่งกลุ่มให้กับข้อมูล

การวิเคราะห์และประเมินผลลัพธ์ที่ได้ (Result Analysis and Evaluation) เป็นขั้นตอนการแปลความหมาย และการประเมินผลลัพธ์ที่ได้ว่ามีความเหมาะสมหรือตรงกับวัตถุประสงค์ที่ต้องการหรือไม่

ส่วนประกอบของ Data Mining สถาปัตยกรรมของระบบการทำ Data Mining ประกอบด้วยส่วนประกอบหลักดังภาพที่ 1

Database, Data Warehouse, World Wide Web และ Other Info Repositories เป็นแหล่งข้อมูลสำหรับการทำ Data Mining
Database หรือ Data Warehouse Server ทำหน้าที่นำเข้าข้อมูลตามคำขอของผู้ใช้ Knowledge Base ได้แก่ ความรู้เฉพาะด้านในงานที่ทำจะเป็นประโยชน์ต่อการสืบค้น หรือประเมิน
Data Mining Engine เป็นส่วนประกอบหลักของการทำ Data Mining ประกอบด้วยโมดูลที่รับผิดชอบงาน Data Mining ประเภทต่างๆ ได้แก่ การหากฎความสัมพันธ์ เงื่อนไข การจำแนกประเภท การจัดกลุ่ม
Pattern Evaluation Module ทำงานร่วมกับ Data Mining Engine โดยใช้มาตรวัดความน่าสนใจในการกลั่นกรองรูปแบบผลลัทธ์ที่ได้ เพื่อให้การค้นหามุ่งเน้นเฉพาะรูปแบบที่น่าสนใจ
Graphic User Interface ส่วนติดต่อประสานระหว่างผู้ใช้กับระบบ Data Mining ช่วยให้ผู้ใช้สามารถระบุงาน Data Mining ที่ต้องการทำ ดูข้อมูลหรือโครงสร้างการจัดเก็บข้อมูล ประเมินผลลัพธ์ที่ได้

ประเภทข้อมูลที่ใช้ทำ Data Mining

Relational Database เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยในแต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย Entity Relationship Model
Data Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้ในที่ๆ เดียวกัน
Transactional Database ประกอบด้วยข้อมูลที่แต่ละทรานเเซกชันแทนด้วยเหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูปชื่อลูกค้าและรายการสินค้าที่ลูกค้ารายซื้อ
Advanced Database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่นๆ เช่น ข้อมูลแบบ Object-Oriented ข้อมูลที่เป็น Text File ข้อมูลมัลติมีเดีย ข้อมูลในรูปของ Web

Data Mining Tools and Technologies

Neural Network
เป็นการเลียนแบบการทำงานของระบบประสาทในสมองของมนุษย์ (ระบบประสาทเทียม) การทำงานของ neural networks คือ เมื่อมี input เข้ามายัง network ก็เอา input มาคูณกับ weight ของแต่ละขา ผลที่ได้จาก input ทุกๆ ขาของ neuron จะเอามารวมกันแล้วก็เอามาเทียบกับ threshold ที่กำหนดไว้ ถ้าผลรวมมีค่ามากกว่า threshold neuron ก็จะส่ง output ออกไป output นี้ก็จะถูกส่งไปยัง input ของ neuron อื่นๆ ที่เชื่อมกันใน network ถ้าค่าน้อยกว่า threshold ก็จะไม่เกิด output

ตัวอย่างคำสั่ง if (sum(input * weight) > threshold) then output

ค่า weight และ threshold เป็นสิ่งสำคัญสำหรับวิธีการนี้ ซึ่งเราไม่รู้ว่ามันมีค่าเท่าไหร่แน่ แต่เราสามารถกำหนดค่า output ที่ถูกต้องให้กับ Pattern ของสิ่งที่เราต้องการให้มันรู้จำหลาย ๆ แบบ จากนั้นคำนวณหา Error ของ output ที่ได้จากการคำนวณด้วยค่า weight และ threshold เริ่มต้น เทียบกับค่า Output ที่ถูกต้อง แล้วนำค่า Error ที่ได้ไปปรับค่า weight/threshold จนกระทั่งได้ Output ที่ต้องการ เรียกว่า "back propagation" ซึ่งเป็นกระบวนการย้อนกลับของการรู้จำ ยิ่งเราสอนให้คอมพิวเตอร์รู้จัก pattern หลาย ๆ แบบของสิ่ง ๆ เดียวก็จะยิ่งทำให้ค่า weight และ threshold ถูกต้องมากยิ่งขึ้น

ตัวอย่าง :

การทำเหมืองข้อมูล (Data Mining) ของธนาคารแห่งอเมริกา (Data Mining at Bank of America) ธนาคารแห่งอเมริกา (Bank of America : BofA) ได้มีการใช้เทคโนโลยีเครือข่ายเส้นประสาทในซอฟต์แวร์เหมืองข้อมูล (Data Mining Software) ที่พัฒนาให้มีความมั่นคงในตลาดและการตั้งราคาสินค้าทางการเงิน เช่น การกู้เงินเพื่อที่อยู่อาศัย จากแหล่งเก็บข้อมูลขนาดใหญ่ที่สามารถเสนอชุดสินค้า (Product Packages) ได้มากมาย โดยการปรับค่าธรรมเนียม อัตราดอกเบี้ย และลักษณะการทำงาน ผลที่ได้คือจำนวนที่ทำให้เกิดกลยุทธ์ที่สำคัญสำหรับการเข้าถึงผลประโยชน์ของลูกค้า

Decision Tree

เป็นการนำข้อมูลมาสร้างแบบจำลองเพื่อการตัดสินใจแบบ Tree ซึ่งการที่จะตัดสินใจทำอะไรอย่างใดอย่างหนึ่งขึ้นอยู่กับเงื่อนไขที่มี โดยเงื่อนไขก็จะประกอบไปด้วยตัวแปรต่าง ๆ ที่เป็นปัจจัยในการตัดสินใจ

Decision Tree จะประกอบด้วย ราก (Root) เป็นจุดเริ่มต้นของลำดับการตัดสินใจ ถัดมาจะเป็น Node ซึ่งเป็นกิ่งก้านสาขาของต้นไม้ คือเงื่อนไขของระบบ สุดท้ายจะเป็น Leaf ซึ่งจะหมายถึงการกระทำหรือการปฏิบัติตามเงื่อนไข

จากตัวอย่างโครงสร้าง Decision Tree ในข้างต้นจะเห็นว่าการเลือกใช้เทคนิค Decision Tree เงื่อนไข ต้องมีมากกว่า 1 เงื่อนไข และการกระทำที่ถูกเลือกจะขึ้นอยู่กับเงื่อนไขที่ผ่านมาด้วย

ข้อจำกัดของ Decision Tree- การแบ่งกลุ่มแบบ Decision Tree กรณีเป็นข้อมูลที่มีค่าต่อเนื่อง เช่น ข้อมูลรายได้ ข้อมูลราคา ต้องทำการแปลงให้อยู่ในช่วงหรือตัดเป็นกลุ่มก่อน

- เมื่อ Algorithm เลือกว่าจะใช้ค่าไหนเป็นตัวแบ่งกลุ่มแล้วก็จะไม่สนใจค่าอื่นที่อาจมีความสำคัญเช่นเดียวกัน

- การจัดการกับข้อมูลที่ไม่ทราบค่า อาจมีผลกระทบกับผลลัพธ์ของ Decision Tree

- Tree ที่มีระดับชั้นมากเกินไป จะทำให้ข้อมูลที่ผ่าน Node แตกออกเป็นชิ้นเล็กชิ้นน้อย ซึ่งข้อมูลเหล่านั้น จะไม่มีประโยชน์ในการนำมาใช้ทำการวิเคราะห์

- ปัญหาเรื่อง Over fitting / Overtraining เกิดจากการที่แบบจำลองได้เรียนรู้เข้าไปถึงรายละเอียดของข้อมูล มากเกินไปจะทำให้เกิด Node ที่เป็นส่วนเฉพาะเจาะจงกับกลุ่มข้อมูลที่ใช้ในการเรียนรู้ ซึ่งจะต้องหาวิธี การในการตัดกิ่งนี้ออกไป

ภาพที่ 4 แสดงตัวอย่างการวิเคราะห์อาการของนิ่วในถุงน้ำดีโดยใช้ Decision Tree

Memory Based Reasoning ( MBR )
เป็นเทคนิคที่อาศัยประสบการณ์หรือเหตุการณ์ที่เคยเกิดขึ้นมาแล้ว มาทำการวิเคราะห์ข้อมูลในฐานข้อมูลที่มีอยู่ ยกตัวอย่างเช่น บริษัทประกันภัยต้องการทราบว่าทำไมลูกค้าบางส่วนถึงซื้อประกันของบริษัทอย่างต่อเนื่อง แต่ลูกค้าบางส่วนกลับหนีไปซื้อประกันภัยเจ้าอื่น และต้องการทำนายว่าลูกค้าคนไหนจะหนีไปซื้อประกันภัยกับคู่แข่งอีกบ้าง

ตัวแปรที่ MBR กำหนดไว้ 2 ตัวแปรคือ

1) ระยะเวลาที่ลูกค้าถือกรมธรรม์ และ

2) จำนวนบริการของบริษัทที่ลูกค้าใช้บริการ

จากเหตุการณ์ที่เคยเกิดขึ้นมาแล้ว พบว่าลูกค้าที่ถือกรรมธรรม์น้อยกว่า 2 ปีครึ่งและใช้บริการน้อยกว่า 3 บริการจะหนีไปซื้อประกันภัยเจ้าอื่น

ผลจากการวิเคราะห์ดังกล่าวข้างต้นจะทำให้บริษัทประกันทราบล่วงหน้าว่าจะมีลูกค้ารายใดไม่ต่อกรมธรรม์ในปีถัดไปบ้าง ซึ่งจะสามารถติดต่อกับลูกค้ารายนั้น ๆ เพื่อเสนอโปรโมชั่นจูงใจให้ลูกค้าต่อกรมธรรม์ของบริษัทต่อไป

Cluster Detection
จะแบ่งฐานข้อมูลออกเป็นส่วน ๆ เรียกว่า Segment (กลุ่ม Record ที่มีลักษณะคล้ายกัน) ส่วน Record ที่ต่างกันก็จะอยู่นอก Segment, Cluster Detection ถูกใช้เพื่อค้นหากลุ่มย่อย (Sub Group) ที่เหมือน ๆ กันในฐานข้อมูล เพื่อที่จะเพิ่มความถูกต้องในการวิเคราะห์ และสามารถมุ่งไปยังกลุ่มเป้าหมายได้ถูกต้อง
Link Analysis

เน้นทำงานบน Record ที่มีความสัมพันธ์กัน หรือเรียกว่า Association เทคนิคนี้จะมุ่งไปที่รูปแบบการซื้อหรือเหตุการณ์ที่เกิดขึ้นเป็นลำดับ มีอยู่ 3 เทคนิค คือ

5.1 Association Discovery ใช้วิเคราะห์การซื้อขายสินค้าในรายการเดียวกัน ศึกษาความสัมพันธ์อย่างใกล้ชิดที่ถูกปิดซ่อนอยู่ของสินค้า ซึ่งสินค้าเหล่านั้นอาจมีแนวโน้มที่จะถูกซื้อควบคู่กันไป การวิเคราะห์แบบนี้เรียกว่า Market Basket Analysis คือ รายการทั้งหมดที่ลูกค้าซื้อต่อครั้งที่ Super market การวิเคราะห์นี้สามารถนำมาใช้ประโยชน์ในการตัดสินใจ เช่น การเตรียมสินค้าคงเหลือ การวางแผนจัดชั้นวางสินค้า การทำ Mailing list สำหรับ Direct Mail การวางแผนเพื่อจัด Promotion สนับสนุนการขาย ตัวอย่างของ Association เช่น 75% ของผู้ซื้อน้ำอัดลมจะซื้อข้าวโพดคั่วด้วย

5.2 Sequential Pattern Discovery ถูกใช้ระบุความเกี่ยวเนื่องกันของการซื้อสินค้าของลูกค้า มีจุดหมายที่จะเข้าใจพฤติกรรมการซื้อสินค้าของลูกค้าในลักษณะ logn term เช่น ผู้ขายอาจพบว่าลูกค้าที่ซื้อ TV มีแนวโน้มที่จะซื้อ VDO ในเวลาต่อมา

5.3 Similar Time Sequence Discovery ค้นหาความเกี่ยวเนื่องกันระหว่างข้อมูล 2 กลุ่ม ซึ่งขึ้นต่อกันทางด้านเวลา โดยมีรูปแบบการเคลื่อนที่เหมือนกัน ผู้ขายสินค้ามักใช้เพื่อดูแนวโน้มเพื่อเตรียม Stock เช่น เมื่อไรก็ตามที่ยอดขายสินค้าน้ำอัดลมสูงขึ้น ยอดขายมันฝรั่งจะสูงขึ้นตาม
Genetic Algorithm (GA)
แนวคิดหลักคือ เมื่อเวลาผ่านไป วิวัฒนาการของเซลล์ชีวิตจะเลือกสายพันธุ์ที่ดีที่สุด “Fittest Species” GA มีความสามารถในการทำงานแบบรวมกลุ่มเข้าด้วยกัน เช่น มีการแบ่งกลุ่มและจัดรวมกลุ่มข้อมูลเป็น 3 ชุด ขั้นตอนการทำงานของ GA เริ่มจาก

- จับกลุ่มข้อมูลเป็นกลุ่ม ๆ ด้วยการสุ่มเดา เปรียบเหมือนกลุ่ม 3 กลุ่มนี้เป็นเซลล์ของสิ่งมีชีวิต GA จะมี Fittest Function ที่จะบอกว่ากลุ่มข้อมูลใดเหมาะกับกลุ่ม ๆ ใด โดย Fittest Function จะเป็นตัวบ่งชี้ว่าข้อมูลเหมาะกับกลุ่มมากกว่าข้อมูลอื่น ๆ

- GA จะมี Operator ซึ่งยอมให้มีการเลียนแบบและแก้ไขลักษณะของกลุ่มข้อมูล Operator จะจำลองหน้าที่ของชีวิตที่ถูกพบในธรรมชาติ คือ มีการแพร่พันธุ์ จับคู่ผสมพันธ์ และเปลี่ยนรูปร่างตามต้นแบบของพันธุกรรม เปรียบกับข้อมูลถ้ามีข้อมูลใดในกลุ่มถูกพบว่าตรงกับคุณสมบัติของ Fittest function แล้ว มันจะคงอยู่และถูกถ่ายเข้าไปในกลุ่มนั้น แต่ถ้าไม่ตรงกับคุณสมบัติ ก็ยังมีโอกาสที่จะถ่ายข้ามไปยังกลุ่มอื่นได้
Rule Induction
ดึงเอาชุดกฎเกณฑ์ต่าง ๆ มาสร้างเป็นเงื่อนไขหรือกรณี วิธีการของ Rule Induction จะสร้างชุดของกฎที่เป็นอิสระ ซึ่งไม่จำเป็นต้องอยู่ในรูปแบบของโครงสร้างต้นไม้
K-nearest neighbor (K-NN)
ใช้วิธีในการจัดแบ่งคลาส โดยจะตัดสินใจว่าคลาสไหนที่จะแทนเงื่อนไขหรือกรณีใหม่ ๆ ได้บ้าง โดยการตรวจสอบจำนวนบางจำนวนของกรณีหรือเงื่อนไขที่เหมือนกันหรือใกล้เคียงกันมากที่สุด โดยจะหาผลรวม (Count Up) ของจำนวนเงื่อนไข หรือกรณีต่าง ๆ สำหรับแต่ละคลาส และกำหนดเงื่อนไขใหม่ ๆ ให้คลาสที่เหมือนกันกับคลาสที่ใกล้เคียงกับมันมากที่สุด

K-NN ค่อนข้างใช้ปริมาณงานในการคำนวณสูงมากบนคอมพิวเตอร์ เพราะเวลาสำหรับการคำนวณจะเพิ่มขึ้นแบบแฟคทอเรียล ตามจำนวนจุดทั้งหมด เทคนิคของ K-NN จะมีการคำนวณเกิดขึ้นทุกครั้งที่มีกรณีใหม่ ๆ เกิดขึ้น ดังนั้นถ้าจะให้เทคนิคแบบ K-NN ทำงานได้เร็ว ข้อมูลที่ใช้บ่อยควรเก็บอยู่ใน MBR (Memory-Based Reasoning)
Association and Sequence Detection
- Association ใช้หากฎความสัมพันธ์ที่เกิดขึ้นระหว่างกลุ่มของข้อมูล (Item) ต่าง ๆ ใช้ใน Market-basket analysis อาจใช้เพื่อวิเคราะห์การสั่งซื้อสินค้า

- Sequence Detection เหมือนกับ Association แต่จะนำเหตุการณ์ที่เกิดขึ้น และเพิ่มตัวแปรด้านเวลาเข้ามาเกี่ยวข้องด้วย เพื่อใช้วิเคราะห์พฤติกรรมของข้อมูล

การเขียนความสัมพันธ์ (Association) เช่น AàB หมายถึง

A เป็นเหตุการณ์ที่เกิดขึ้นก่อน (Antecedent) หรือ LHS (Left-Hand Side)
B เป็นผลของเหตุการณ์ (Consequent) หรือ RHS (Right- Hand Side) เช่น ในกฎของความสัมพันธ์ “ถ้าซื้อค้อน แล้วจะซื้อตะปู “เหตุการณ์ที่เกิดขึ้นก่อนคือ ค้อน เกิดหลังคือ ตะปู
Logic Regression

เป็นการวิเคราะห์ความถดถอยแบบเส้นตรงทั่วๆ ไป ใช้ในการพยากรณ์ผลลัพธ์ของ 2 ตัวแปร เช่น Yes/No, 0/1 แต่เนื่องจากตัวแปรตาม (Dependent Variable) มีค่าเพียง 2 อย่างเท่านั้น จึงไม่สามารถสร้างแบบจำลอง (Model) ได้สำหรับการวิเคราะห์แบบ Logic Regression

ดังนั้นแทนที่จะทำการพยากรณ์โดยอาศัยเพียงค่าของตัวแปรตามที่ได้ เราจะสร้าง Model โดยอาศัย Algorithm ของความน่าจะเป็นของการเกิดเหตุการณ์ เราเรียก Algorithm นี้ว่า Log Odds หรือ Logic Transtromation

อัตราส่วนความน่าจะเป็น : ความน่าจะเป็นที่จะเกิดเหตุการณ์
ความน่าจะเป็นที่จะไม่เกิดเหตุการณ์
Discriminant Analysis
เป็นวิธีการทางคณิตศาสตร์ซึ่งใช้ในการจำแนก และวิเคราะห์ ผลลัพธ์ที่ได้จากแบบจำลองชนิดนี้ง่ายต่อการทำความเข้าใจ เพราะผู้ใช้งานทั่ว ๆ ไปก็สามารถพิจาณาได้ว่าผลลัพธ์จะอยู่ทางด้านใดของเส้นทางในแบบจำลอง การเรียนรู้สามารถทำได้ง่าย วิธีการที่ใช้มีความไวต่อรูปแบบของข้อมูล วิธีนี้ถูกนำมาใช้มาในทางการแพทย์ สังคมวิทยา และชีววิทยา แต่ไม่เป็นที่นิยมในการทำ Data Mining
Generalized Additive Models (GAM)
พัฒนามาจาก Linear Regression และ Logistic Regression มีการตั้งสมมติฐานว่า Model สามารถเขียนออกมาได้ในรูปของผลรวมของ Possibly Non-Linear Function GAM สามารถใช้ได้กับปัญหาแบบ Regression และ Classification GAM จะใช้ความสามารถของคอมพิวเตอร์ในการค้นหารูปแบบอง Function ที่ให้ Curve ที่เหมาะสม ทำการรวมค่าความสัมพันธ์ต่าง ๆ เข้าด้วยกัน แทนที่จะใช้ Parameter จำนวนมาก เหมือนที่ Neural Network ใช้ แต่ GAM จะประเมินค่าของ Output ในแต่ละ Input เช่นเดียวกับ Neural Network GAM จะสร้างเส้นโค้งขึ้นมาอย่างอัตโนมัติ โดยอาศัยข้อมูลที่มีอยู่

Multivariate Adaptive Regression Splits (MARS)

ถูกคิดค้นเมื่อกลางทศวรรษที่ 80 โดย Jerome H. Friedman หนึ่งในผู้คิดค้น CART MARS สามารถที่จะค้นหาและแสดงรายการตัวแปรอิสระที่มีความสำคัญสูงสุดเช่นเดียวกับปฏิสัมพันธ์ระหว่างตัวแปรอิสระ และ MARS สามารถ Plot จุดแสดงความเป็นอิสระของแต่ละตัวแปรอิสระ ออกมาได้ ผลลัพธ์ที่ได้ก็คือ Non-Linear Step-wise regression tools

การนำ Data Mining ไปประยุกต์ใช้ในธุรกิจด้านต่าง ๆ

การประยุกต์ใช้ Data Mining สามารถจัดกลุ่มใหญ่ ๆ ได้เป็นสองกลุ่ม คือกลุ่มที่ใช้เพื่อการทำนายและกลุ่มที่ใช้เพื่อการอธิบาย

การทำ Data Mining เพื่อการทำนาย เป็นการนำความรู้ที่เรียนรู้มาจากข้อมูลที่มีอยู่เพื่อประโยชน์ในการทำนายข้อมูลใหม่ที่จะเกิดขึ้นในอนาคต
การทำ Data Mining เพื่อการอธิบาย เป็นการค้นหารูปแบบที่น่าสนใจจากกลุ่มข้อมูล รูปแบบนี้มักจะเป็นความสัมพันธ์หรือลักษณะที่เชื่อมโยงกันของข้อมูล การทำแบบนี้ต่างจากแบบแรกตรงที่ผู้ใช้ไม่ได้กำหนดล่วงหน้าว่าจะให้โปรแกรม Data Mining ค้นหารูปแบบหรือโมเดลของอะไร แต่ให้ค้นหาทุกรูปแบบที่น่าสนใจจากข้อมูล

การใช้งาน Data Mining ด้านต่าง ๆ

ด้านการแพทย์ : นำ Data Mining มาช่วยวิเคราะห์อาการของคนไข้, วิเคราะห์การจ่ายยา , พยากรณ์แนวโน้มการเกิดโรคระบาด
ด้านธุรกิจ : นำมาวิเคราะห์พฤติกรรมของลูกค้า, ทำนายพฤติกรรมของลูกค้าล่วงหน้า และวิเคราะห์แนวโน้มการซื้อสินค้าของลูกค้า, การพยากรณ์ยอดขายสินค้าจากการขายสินค้าที่ผ่านมา
ด้านการเงินการธนาคาร : นำมาช่วยในการตัดสินใจการอนุมัติวงเงินกู้, การหาลูกค้าชั้นดี , การทำงานวงเงินกู้ เป็นต้น
ด้านเกษตรกรรม : นำมาวิเคราะห์และพยากรณ์ราคาสินค้า, ทำนายมูลค่าการส่งออกสินค้า ฯลฯ

Software สำหรับ Data Mining

ปัจจัยหลายประการที่ทำให้ Data Mining เป็นที่นิยมมากขึ้นเรื่อย ๆ เช่น ปริมาณข้อมูลที่แต่ละองค์กรต้องเกี่ยวข้องมีเพิ่มขึ้น (เป็น Gigabyte หรืออาจเป็น Terabyte) และนับวันจะเพิ่มขึ้นเรื่อย ๆ การทำการวิเคราะห์ข้อมูลขนาดใหญ่เหล่านี้เพื่อสร้างคุณค่าให้กับข้อมูลเป็นเรื่องยากแต่ก็จำเป็น ซึ่ง Data Mining เป็นเครื่องมือตัวหนึ่งที่เข้ามาช่วยในเรื่องนี้ ความสามารถของ CPU ที่เพิ่มขึ้นในขณะที่ราคาลดลง การพัฒนาผลิตภัณฑ์ที่เกี่ยวกับ Data Mining ที่ทำงานบน PC ( Personal Computer ) เหล่านี้ล้วนเป็นปัจจัยที่ทำให้องค์กรต่าง ๆ เริ่มหันมามอง Data Mining Tools มากขึ้น ตัวอย่างบริษัทที่ทำการพัฒนาผลิตภัณฑ์ที่เกี่ยวกับ Data Mining ที่มีชื่อเสียงได้แก่

Kate ของบริษัท Acknosoft ใช้เทคนิค Decision trees และ Case-based reasoning ใช้กับWindows NT และ UNIX คู่กับฐานข้อมูล ( บน NT ) คือ Microsoft Access
Knowledge Seeker ของบริษัท Angoss ใช้เทคนิค Decision trees และ Statistics ใช้กับ Windows NT ติดต่อฐานข้อมูลผ่านทาง ODBC
Business Miner ของบริษัท Business Objects ใช้เทคนิค Neural Networks และ Machine Learning ใช้กับ Windows NT ติดต่อฐานข้อมูลผ่าน ODBC
Intelligent Miner เป็นผลิตภัณฑ์ของ IBM Corporation ใช้เทคนิค Classification , Association Rules และ Predictive Modes ใช้กับ UNIX (AIX) บน DB2 เป็นชุดของโปรแกรม ซึ่งประกอบด้วย Explorer , Diamond , และ Quest
Explorer เป็นเครื่องมือที่ใช้เทคนิคแบบ neural networks สำหรับแก้ปัญหาประเภท clustering
Diamond เป็นผลิตภัณฑ์ที่ช่วยในด้านการแสดงผล ( visualization )
Quest เป็นเครื่องมือที่ใช้เพื่อทำสิ่งที่ IBM เรียกว่า “Link analysis”
Enterprise Miner ของบริษัท SAS ใช้เทคนิค Decision trees , Association Rules , Neural network , Regression และ Clustering ใช้กับระบบ UNIX ( Solaris ) , Windows NT และ แมคอินทอช ติดต่อกับฐานข้อมูลผ่าน ODBC และสนับสนุน Oracle
Mineset ของบริษัท Silicon Graphics ใช้เทคนิค Decision trees และ Association Rules ใช้กับระบบ UNIX ( Irix ) บนฐานข้อมูล Oracle , Sybase และ Informix
DataMind Professional Edition , DataMind DataCrucher เป็นผลิตภัณฑ์ของ DataMind Corporation DataMind ใช้เทคโนโลยีที่เรียกว่า “Agent Network Technology” ซึ่งมีพื้นฐานมาจากงานวิจัยของ Dr. Khai Minh Pham ที่ University of Paris การแสดงผลของ DataMind แสดงผลผ่าน Microsoft’s Excel
Drawin เป็นผลิตภัณฑ์ของ Thinking Machines Corporation Darwin เป็นชุดของผลิตภัณฑ์ Data Mining ประกอบด้วย
- StarTree ใช้เทคนิคแบบ Decision tree , Classification and Regression Tree ( CART ) ในการทำ Data Mining

- StarNet ใช้เทคนิคแบบ Neural network หรือ Artificial neural networks ( ANNs ) ในการทำ Data Mining

- StarMatch ใช้เทคนิคแบบ k-Nearest Neighbor ( KNN ) และ Memory-based Reasoning ( MBR )

- StarGene ใช้เทคนิคแบบ Genetic algorithm และ optimization

- StarView เป็นเครื่องมือที่ช่วยในการแสดงผลข้อมูล ( data visualization )

คุณสมบัติหลัก ๆ 5 ประการในการเลือกซื้อซอฟท์แวร์

พิจารณาถึงเทคนิคการวิเคราะห์ข้อมูลของ Software แต่ละตัวว่าตรงตามที่ต้องการหรือไม่ (ต้องกำหนดเทคนิคการวิเคราะห์ข้อมูลที่เหมาะสมกับงานและผลลัพท์ที่ต้องการก่อน)
พิจารณาเรื่องเครื่องมือช่วยในการเตรียมข้อมูล ( Data preparation facilities ) ซึ่งหมายรวมถึงการแปลงข้อมูลจากหลาย ๆ แหล่ง หลายรูปแบบ ให้สามารถนำมาใช้กับ Data Mining ร่วมกันได้ถูกต้อง
พิจารณาว่า Software ดังกล่าวเปิดโอกาสให้เลือกใช้เทคนิคการวิเคราะห์ต่าง ๆ ของ Data Mining ได้หรือไม่ ( Selection of D.M. operations & algorithms ) โดยส่วนใหญ่แต่ละค่ายจะมี 2-3 แบบให้เลือก
พิจารณาว่า Software ดังกล่าวสามารถให้ผู้ใช้เลือกซื้อซอฟต์แวร์ได้ตามขนาดข้อมูลและประสิทธิภาพตามต้องการ ( Product scalability and performance ) ได้หรือไม่
มีการแสดงผลที่ชัดเจนและน่าสนใจ ( Facilities for visualization of results )

ขอขอบคุณข้อมูลจาก

เทคโนโลยีการสื่อสารและอินเทอร์เน็ต

วันเสาร์ที่ 21 สิงหาคม พ.ศ. 2553

Data Mining

ไม่มีความคิดเห็น:

แสดงความคิดเห็น