Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
LUẬN VĂN TỐT NGHIỆP ĐỀ TÀI NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG RA QUYẾT ĐỊNH Chuyên ngành: Công nghệ phần mềm Khóa: 2008 - 2012 Họ và tên sinh viên: Nguyễn Huy Mạnh Giảng viên hướng dẫn: TS. Trương Ngọc Châu Chương 1) Lý thuyết khai phá dữ liệu 1) Khái niệm Định nghĩa khai phá dữ liệu : khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp. Quá trình phát hiện tri thức thường tuân theo các bước sau : B1: Hình thành và định nghĩa bài toán B2: Thu thập và tiền xử lý dữ liệu B3: Khai phá dữ liệu và rút ra các tri thức B4: Sử dụng các tri thức phát hiện được 2) Tiền xử lý dữ liệu Làm sạch Tích hợp 8;67;100;57 ;348;… Biến đổi Rút gọn 0.08;0.67;1.00;0.5 7;3.48;… Chương 2) Khai phá dữ liệu bằng cây quyết định Cây quyết định Cây quyết định là một phương pháp rất mạnh và phổ biến cho cả hai nhiệm vụ của khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quyết định còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật nếu - thì (If-Then). Cây quyết định là cấu trúc biễu diễn dưới dạng cây. • Mỗi nút trong biễu diễn một thuộc tính, • nhánh biễu diễn giá trị có thể có của thuộc tính, • Mỗi lá biểu diễn các lớp quyết định • Gốc là đỉnh trên cùng của cây Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc của cây và di chuyển theo các nhánh cho đến khi gặp nút lá. Trên cơ sở phân lớp này chúng ta có thể chuyển đổi về các luật quyết định. Bài toán: quyết định có đợi 1 bàn ở quán ăn không, dựa trên các thông tin sau: 1. Lựa chọn khác: có quán ăn nào khác gần đó không? 2. Quán rượu: có khu vực phục vụ đồ uống gần đó không? 3. Fri/Sat: hôm nay là thứ sáu hay thứ bảy? 4. Đói: chúng ta đã đói chưa? 5. Khách hàng: số khách trong quán (không có, vài người, đầy) 6. Giá cả: khoảng giá ($, $$, $$$) 7. Mưa: ngoài trời có mưa không? 8. Đặt chỗ: chúng ta đã đặt trước chưa? 9. Loại: loại quán ăn (Pháp, Ý, Thái, quán ăn nhanh) 10. Thời gian đợi: 0-10, 10-30, 30-60, >60 Các mẫu được miêu tả dưới dạng các giá trị thuộc tính (logic, rời rạc, liên tục) 3 ) Tài liệu tham khảo 1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005 2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001. 3. Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2002 5. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2002