Thứ Năm, 13 tháng 2, 2014

Khai phá dữ liệu và khám phá tri thức

Khai phá dữ liệu và kho dữ liệu

Kho dữ liệu (data warehouse) là tập hợp những dữ liệu đã
được làm sạch, hướng chủ đề để hổ trợ khả năng ra quyết
định

Kho dữ liệu được kết hợp với khai phá dữ liệu (data mining)
để đưa ra một quyết định cụ thể nào đó.

Kho dữ liệu quyết định tính hiệu quả của khai phá dữ liệu
Khai phá dữ liệu và khám phá tri thức

Khai phá dữ liệu chỉ là một công đoạn trong một quá trình lớn
hơn là Khám phá tri thức (Knowledge discovery).
Mục tiêu của khai phá dữ liệu

Dự đoán: ví dụ dự đoán những mặt hàng mà một khách hàng có
thể sẽ quan tâm dựa trên những thứ mà người ấy đã cho vào
giỏ hàng.

Nhận diện: ví dụ nhận diện cấu trúc gene

Phân lớp: dựa vào thông tin sử dụng tài khoảng tín dụng, phân
lớp họ

Tối ưu: tối ưu lợi nhuận từ một tập giới hạn tài nguyên như thời
gian, không gian, nhân lực,…
Các kiểu tri thức

Không có cấu trúc:

Dạng các luật hoặc logic mệnh đề

Ví dụ từ một dữ liệu của một ngân hàng, sau quá trình khai phá ta
có kết quả: những tài khoản chưa kết hôn và nhỏ hơn 20 tuổi có
mức nguy cơ cao.

Có cấu trúc:

Dạng cây ra quyết định, mạng ngữ nghĩa, mạng neuron,…
Các luật kết hợp
(Association rules)
Bài toán giỏ thị trường
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Association Rule – các khái niệm

Item (phần tử)?

Itemset (tập phần tử, gọi tắt là tập)?

K-Itemset

Transaction (giao dịch)?

Một luật kết hợp (association rule) có dạng X => Y, nếu X = {x1,
x2, , xn}, và Y = {y1, y2, , ym} là những tập phần tử, với mọi xi, yj
là những phần tử khác nhau

LHS (left-hand side), RHS (right-hand side)

LHS RHS∪ = itemset
Association Rule - Các khái niệm
Support (độ hỗ trợ)

Độ đo đo tần số xuất hiện của các phần tử/tập phần tử.

Minimum support threshold (ngưỡng hỗ trợ tối thiểu)
Confidence (độ tin cậy)

Độ đo đo tần số xuất hiện của một tập phần tử trong điều kiện xuất
hiện của một tập phần tử khác

Confidence = support(LHS RHS)/support(LHS)∪

Minimum confidence threshold (ngưỡng tin cậy tối thiểu).

Giá trị support , confidence nhỏ nhất được chỉ định bởi người dùng.
Association Rule - Các khái niệm
milk =>juice
support = 50%, confidence = 66.7%
bread => juice
support = 25%, confidence = 50%
Khai phá luật kết hợp
Yêu cầu: Luật X=>Y phải thỏa mãn
Support >= Minimum support threshold
Confidence >= Minimum confidence threshold
large (or frequent) itemset:
tập có giá trị support >= Minimum support threshold
Khai phá luật từ tập thường xuyên (frequent itemset):
Ứng với mỗi tập thường xuyên X, Y X, lấy Z = X – Y; ⊂
Khi đó nếu support(X)/support(Z) > minimum confidence.
Luật Z => Y (tức là, X – Y=> Y) là một luật hợp lệ

Không có nhận xét nào:

Đăng nhận xét