Download 06_part1_learning

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Learning
Dr.Yodthong Rodkaew
IQ test
IQ test
IQ test
http://farm2.static.flickr.com/1399/1394691913_1aecd327db_o.jpg
Learning in AI
9954
7799
9954
7799
? ?
?
learning with training data
1144
Learning in AI
9954
9954
Mr.AI
7799
7799
7799
Estimation+Classification
? ?
?
?
Unknown
Learning in AI
• Supervised Learning
• Unsupervised Learning
Supervised Learning
• Supervised Learning – การเรียนรู ้แบบมีผู ้สอน
– learning a function from training data. The training data
consist of pairs of input objects (typically vectors), and
desired outputs
ั่ จากข ้อมูลสอน ข ้อมูลสอนประกอบด ้วยกลุม
– เรียนรู ้ฟั งก์ชน
่ ข ้อมูล
(สว่ นใหญ่ในรูปแบบ เวกเตอร์) และผลทีต
่ ้องการ
• The output of the function - ผลทีไ่ ด ้จาก
ั่
ฟั งก์ชน
– continuous value (called regression), ค่าต่อเนือ
่ ง (การ
ประมาณค่าแบบย ้อนกลับ)
– predict a class label of the input object (called
classification). ทานายประเภทของข ้อมูล (เรียก การจาแนก)
Supervised Learning
• The task of the supervised learner
– to predict the value of the function for any valid input object after
having seen a number of training examples (i.e. pairs of input
and target output).
• Classification ex.
7799
7799
7799
Tranining data
Classification
Supervised Learning
• Regression ex.
=a^2+e*log2(t)/10+7…
+sin(x) cos(y) exp (n) ..
Training data
Next day?
Regression
Supervised Learning
Tools:
• Analytical learning
• Artificial neural network
• Backpropagation
• Boosting
• Bayesian statistics
• Case-based reasoning
• Decision tree learning
• Inductive logic programming
• Gaussian process regression
• Learning Automata
• Minimum message length
(decision trees, decision
graphs, etc.)
•Naive bayes classifier
•Nearest Neighbor Algorithm
•Probably approximately correct learning
(PAC) learning
•Ripple down rules, a knowledge
acquisition methodology
•Symbolic machine learning algorithms
•Subsymbolic machine learning
algorithms
•Support vector machines
•Random Forests
•Ensembles of Classifiers
•Ordinal Classification
•Data Pre-processing
•Handling imbalanced datasets
Supervised Learning
Applications:
• Bioinformatics
• Cheminformatics
• Quantitative structure-activity relationship
• Handwriting recognition
• Information retrieval
• Object recognition in computer vision
• Optical character recognition
• Spam detection
• Pattern recognition
• Speech recognition
• Forecasting Fraudulent Financial Statements
Training
????
10-20%
Training
10-20%
????
Too Much Training  Overfitting
Training data
Test data
Training
Correct
99%
Unsupervised Learning
• Unsupervised Learning – การเรียนรู้ แบบไม่ มผี ้ สู อน
• The learner is given only unlabeled examples.
• One form of unsupervised learning is clustering
– การแบ่ งกลุ่ม
• ไม่มีการระบุผลที่ตอ้ งการหรื อประเภทไว้ก่อน การเรี ยนรู ้แบบนี้จะพิจารณาวัตถุ
เป็ นเซตของตัวแปรสุ่ ม แล้วจึงสร้างโมเดลความหนาแน่นร่ วมของชุดข้อมูล
• Tools: NeuronNetwork, k-means clustering,
hierarchical clustering, self-organizing map
(som)
• Applications: การบีบอัดข้อมูล
Clustering
• การแบ่งกลุม
่ ข้อมูล (data clustering) เป็ นวิธก
ี ารวิเคราะห์
้
ข ้อมูล ซงึ่ ใชในการเรี
ยนรู ้ของเครือ
่ ง การทาเหมืองข ้อมูล โดยจะ
แบ่งชุดข ้อมูล (มักจะเป็ นเวกเตอร์) ออกเป็ นกลุม
่ (cluster)
โดยนาข ้อมูลทีม
่ ค
ี ณ
ุ ลักษณะเหมือนกัน หรือคล ้ายกันจัดไว ้ใน
กลุม
่ เดียวกัน
http://th.wikipedia.org/wiki/การแบ่งกลุม
่ ข ้อมูล
Clustering
้
ั ความเหมือน
• ขัน
้ ตอนวิธท
ี ใี่ ชในการแบ่
งกลุม
่ จะอาศย
ิ (proximity) โดยคานวณจาก
(similarity) หรือ ความใกล ้ชด
้
การวัดระยะระหว่างเวกเตอร์ของข ้อมูลเข ้า โดยใชการวั
ดระยะ
่
แบบต่าง ๆ เชน
– การวัดระยะแบบยูคลิด (Euclidean distance)
ั ตัน (Manhattan distance)
– การวัดระยะแบบแมนฮต
– การวัดระยะแบบเชบิเชฟ (Chebychev distance)
• การแบ่งกลุม
่ ข้อมูล (clustering) จะแตกต่างจาก การ
จาแนกประเภทข้อมูล (classification) โดยจะแบ่งกลุม
่
ข ้อมูลจากความคล ้าย โดยไม่มก
ี ารกาหนดประเภทของข ้อมูลไว ้
ก่อน
http://th.wikipedia.org/wiki/การแบ่งกลุม
่ ข ้อมูล
Distance
– การวัดระยะแบบยูคลิด (Euclidean distance)
ั ตัน (Manhattan distance)
– การวัดระยะแบบแมนฮต
– การวัดระยะแบบเชบิเชฟ (Chebychev distance)
http://th.wikipedia.org/wiki/การแบ่งกลุม
่ ข ้อมูล
(Euclidean distance)
Sqr( (x1-x2)^2 +(y1-y2)^2)
Sqr( (x1-x2)^2 + (y1-y2)^2 + (z1-z2)^2)
http://en.wikipedia.org/wiki/Euclidean_distance
Taxicab Geometry (Manhattan distance)
(Euclidean distance)
http://en.wikipedia.org/wiki/Manhattan_distance
Taxicab geometry, considered by Hermann
Minkowski in the 19th century, is a form of
geometry in which the usual metric of
Euclidean geometry is replaced by a new
metric in which the distance between two
points is the sum of the (absolute) differences
of their coordinates. The taxicab metric is also
known as rectilinear distance, L1 distance or
L1 norm (see Lp space), city block distance,
Manhattan distance, or Manhattan length,
with corresponding variations in the name of
the geometry.[1] The last name alludes to the
grid layout of most streets on the island of
Manhattan, which causes the shortest path a
car could take between two points in the city to
have length equal to the points' distance in
taxicab geometry.
(Chebyshev distance)
In mathematics, Chebyshev distance (or
Tchebychev distance), or L∞ metric[1] is a
metric defined on a vector space where the
distance between two vectors is the greatest of
their differences along any coordinate
dimension.[2] It is named after Pafnuty
Chebyshev. It is also known as chessboard
distance, since in the game of chess the
minimum number of moves needed by a king
to go from one square on a chessboard to
another equals the Chebyshev distance
between the centers of the squares, if the
squares have side length one, as represented
in 2-D spatial coordinates with axes aligned to
the edges of the board
http://en.wikipedia.org/wiki/Chebyshev_distance
Taxicab Geometry in Game
• OGRE battle / FF Tactics
Clustering
Clustering
Related documents