Download ĐỒNG BỘ HÓA DỮ LiỆU

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
LUẬN VĂN TỐT NGHIỆP
ĐỀ TÀI
NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG RA QUYẾT ĐỊNH
Chuyên ngành: Công nghệ phần mềm
Khóa: 2008 - 2012
Họ và tên sinh viên: Nguyễn Huy Mạnh
Giảng viên hướng dẫn: TS. Trương Ngọc Châu
Chương 1) Lý thuyết khai phá dữ liệu
1) Khái niệm
Định nghĩa khai phá dữ liệu : khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng
để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ
liệu khổng lồ và phức tạp.
Quá trình phát hiện tri thức thường tuân theo các bước sau :
B1: Hình thành và định nghĩa bài toán
B2: Thu thập và tiền xử lý dữ liệu
B3: Khai phá dữ liệu và rút ra các tri thức
B4: Sử dụng các tri thức phát hiện được
2) Tiền xử lý dữ liệu
Làm sạch
Tích hợp
8;67;100;57
;348;…
Biến đổi
Rút gọn
0.08;0.67;1.00;0.5
7;3.48;…
Chương 2) Khai phá dữ liệu bằng cây quyết định
Cây quyết định
Cây quyết định là một phương pháp rất mạnh và phổ biến cho cả hai
nhiệm vụ của khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quyết
định còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức
là các luật nếu - thì (If-Then).
Cây quyết định là cấu trúc biễu diễn dưới dạng cây.
•
Mỗi nút trong biễu diễn một thuộc tính,
•
nhánh biễu diễn giá trị có thể có của thuộc tính,
•
Mỗi lá biểu diễn các lớp quyết định
•
Gốc là đỉnh trên cùng của cây
Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ
gốc của cây và di chuyển theo các nhánh cho đến khi gặp nút lá. Trên cơ sở
phân lớp này chúng ta có thể chuyển đổi về các luật quyết định.
Bài toán: quyết định có đợi 1 bàn ở quán ăn không,
dựa trên các thông tin sau:
1. Lựa chọn khác: có quán ăn nào khác gần đó không?
2. Quán rượu: có khu vực phục vụ đồ uống gần đó không?
3. Fri/Sat: hôm nay là thứ sáu hay thứ bảy?
4. Đói: chúng ta đã đói chưa?
5. Khách hàng: số khách trong quán (không có, vài người,
đầy)
6. Giá cả: khoảng giá ($, $$, $$$)
7. Mưa: ngoài trời có mưa không?
8. Đặt chỗ: chúng ta đã đặt trước chưa?
9. Loại: loại quán ăn (Pháp, Ý, Thái, quán ăn nhanh)
10. Thời gian đợi: 0-10, 10-30, 30-60, >60
Các mẫu được miêu tả dưới dạng các giá trị thuộc tính (logic, rời rạc,
liên tục)
3 ) Tài liệu tham khảo
1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005
2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining,
IOIT, 2001.
3. Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan
Kaufmann Publishers, 2002
5. Jiawei Han and Micheline Kamber, Data Mining Concepts and
Techniques, University of Illinois, Morgan Kaufmann Publishers, 2002