Download Document

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
蛋白質功能預測開發環境
971506 謝長鴻
971502 卓彥甫
971534 黃希鈞
指導教授:歐昱言
專題目的
開發一個程式環境幫助生物學
家可以利用簡單的序列資料得
到此蛋白質的基本功能標註
專題架構
資料取得
1. AAC(Amino Acid Composition)
序列剖析
屬性選取
各個分類器結果分析
2. DPC(Dipepdite Composition)
3. PSSM(Position Specific Scoring
Matrix)
Query (Transport):
existence:"evidence at protein level"
AND annotation:(type:location
membrane confidence:experimental)
AND reviewed:yes AND
(keyword:transport or go:transport)
機器學習簡介
類別 1:香蕉
類別 2:蘋果
類別 3:西瓜
屬性 1:顏色
屬性 2:重量
屬性 3:形狀
香蕉
顏色:黃色
重量:300克
形狀:長條狀
蘋果
顏色:紅色
重量:150克
形狀:圓形
西瓜
顏色:綠色
重量:900克
形狀:圓形
機器學習簡介
?
顏色:?
重量:?
形狀:長條
?
顏色:紅色
重量:?
形狀:圓形
?
顏色:?
重量:840克
形狀:圓形
一.資料取得
Query:
existence:"evidence at protein level" AND
annotation:(type:location membrane
confidence:experimental) AND
reviewed:yes AND
(keyword:transport or go:transport)
<尋找Transport的Qiery>
二.序列剖析
 1. AAC: 計算20種胺基酸在每條protein上各自出現的
比例當成屬性
 2. DPC: 計算20種胺基酸兩兩配對在protein上各自出
現的比例當成屬性
 3. PSSM: 統計20種胺基酸能被其他胺基酸所取代的可
能性做為一種屬性
三.屬性選取
 加入AAIndex內的屬性,利用Fscore公式算出來值較
高的屬性增加到AAC、DPC或PSSM
EX:
屬性
AAIndex1
AAIndex2
AAIndex3
AAIndex4
Fscore值
0.52
0.01
0.45
0.03
四.各分類器分析
序列分析AAC與DPC
利用產生出來的屬性AAC與DPC來跑weka
執行後所產生的檔案
原有檔案
產生每條Protein的sequence
file
四.各分類器分析
以下結果由其他組利用我們所開發得工具做成果
報告結束 謝謝大家
Related documents