現在位置首頁 > 博碩士論文 > 詳目
論文中文名稱:新的相似樣型分群法及其在產業的應用 [以論文名稱查詢館藏系統]
論文英文名稱:A novel approach for pattern-similarity clustering and its application in industry [以論文名稱查詢館藏系統]
院校名稱:臺北科技大學
學院名稱:管理學院
系所名稱:工業工程與管理研究所
畢業學年度:97
出版年度:98
中文姓名:黃効晟
英文姓名:Xiauo-chen Huang
研究生學號:96378034
學位類別:碩士
語文別:中文
口試日期:2009-06-29
論文頁數:47
指導教授中文名:吳建文
口試委員中文名:黃祥熙;邱垂昱
中文關鍵詞:子空間分群樣型相似性
英文關鍵詞:subspace clusteringpattern similarity
論文中文摘要:以樣型為基礎的分群方法(pattern-based clustering)在近幾年來都已廣泛地被研究,主要是針對樣型間的相似性來作為分群標準。其對於一些應用領域是相當重要的。例如:DNA微陣列(DNA microarray)、電子商務(E-commerce)的應用…等等。
其中一種pattern-based clustering模型稱為pCluster,而本篇論文將提出一個新的pCluster求解演算法,是利用資料探勘(Data Mining)領域中尋找高頻項目集(frequent itemset)的概念來融入此演算法中,使我們能順利找出pCluster。
論文英文摘要:Pattern-based clustering has been studied intensively in recent years. This kind of clustering model focuses on the similarity between patterns. Such clusters are important for some applications, e.g. DNA microarray and E-commerce.
An example of pattern-based clustering models is called pCluster. In this study we propose a new approach to find the pCluster. Our approach utilizes the Apriori algorithm, which is a well known algorithm in the data mining field. We can find every pCluster by using our approach.
論文目次:中文摘要 i
英文摘要 ii
誌謝 iii
目錄 iv
表目錄 vi
圖目錄 vii
第一章 緒論 1
1.1 研究背景 1
1.2 研究目的及重要性說明 2
1.3 pCluster的應用 5
1.3.1 DNA microarray分析 5
1.3.2 電子商務 5
第二章 文獻探討 7
2.1 Bicluster 7
2.2 pCluster 2002 7
2.2.1 pattern-based clustering的介紹 7
2.2.2 成對分群 9
2.2.3 刪除多餘的資訊 11
2.2.4 找出maximal pCluster 12
2.3 Maple演算法 13
2.3.1 Maple法產生MDS列表與刪除步驟 13
2.3.2 Maple法產生最後maximal pCluster答案 14
2.4 Maple+ 演算法 15
2.4.1 將刪除步驟改進成以區塊為基礎的刪除法則 15
2.4.2 只需要產生attribute-pair MDSs列表 16
2.5 pCluster 2008 16
2.5.1 成對分群 16
2.5.2 刪除不會有結果的成對分群 17
2.5.3 建構maximal pCluster 17
第三章 問題描述與研究方法 19
3.1 問題描述 19
3.1.1 參數nr與nc的意義 19
3.2 研究方法 20
3.2.1 我們提出的演算法 20
3.2.2 Apriori演算法 21
3.2.2.1關聯法則 22
3.2.2.2高頻項目集 22
3.2.2.3 Apriori演算法詳細說明 23
3.2.3 如何利用Apriori演算法來找出pCluster候選者 24
3.2.3.1 如何從候選者中找出maximal pCluster 26
3.2.3.2 避免找出重複的pCluster候選者 27
3.2.3.3 過濾為其他pCluster之子集合的答案 28
第四章 實驗方法與結果 30
4.1 Yeast micro data set 30
4.1.1 p-clustering II演算法的實驗結果 30
4.1.2 我們提出之演算法的實驗結果 31
4.1.3 演算法執行時間與效率探討 35
4.2 Breast-cancer-Wisconsin data set 37
4.3 電子商務方面的範例 41
第五章 結論與未來研究方向 44
5.1 結論 44
5.2 未來方向 45
參考文獻 46
論文參考文獻:[1] 曾憲雄,蔡秀滿,蘇東興,曾秋蓉,王慶堯:資料探勘 旗標出版社
[2] C. C. Aggarwal, C. Procopiuc, J. Wolf, P. S. Yu, and J. S. Park. “Fast algorithms for projected clustering.“ In SIGMOD, 1999.
[3] C. C. Aggarwal and P. S. Yu. “Finding generalized projected clusters in high dimensional spaces.” In SIGMOD, pages 70–81, 2000.
[4] Daxin Jiang, JianPei, Aidong Zhang .”A General Approach to Mining Quality Pattern-Based Clusters from Microarray Data.” Lecture notes in computer science ISSN 0302-9743
[5] Definition of Euclidean distance 2009 [http://en.wikipedia.org/wiki/Euclidean_distance]
[6] Definition of Manhattan distance 2009 [http://en.wikipedia.org/wiki/Manhattan_distance]
[7] Definition of Recommendation system [http://en.wikipedia.org/wiki/Recommendation_system]
[8] Definition of Recommendation system [http://en.wikipedia.org/wiki/Target_marketing]
[9] J.Han and M.Kamber, “Data Mining: Concept and Techniques”, In Morgan Kaufmann,2000.
[10] Jian Pei, Xiaoling Zhang, Moonjung Cho, Haixun Wang, and Philip S.Yu . ”On Mining Maximal Pattern-Based Clusters.” Data Mining and Knowledge Discovery, Springer
[11] Liu, J.,Wang, W. “OP-Cluster: Clustering by Tendency in High Dimensional Space.” In ICDM’03.
[12]O. L. Mangasarian and W. H. Wolberg: ”Cancer diagnosis via linear programming.” SIAM News, Volume 23, Number 5, September 1990, pp 1 & 18.
[13]Pei, J., Zhang, X., Cho, M., et al. ”MaPle: A Fast Algorithm for Maximal Patternbased Clustering.” ICDM’03.
[14]R. Agrawal, J. Gehrke, D. Gunopulos, and P. Raghavan. ”Automatic subspace clustering of high dimensional data for data mining applications.” In Proceedings of the 1998 ACM SIGMOD international conference on Management of data, pages 94-105. ACM Press, 1998.
[15]Tavazoie S, Hughes J, Campbell M, Cho R, Church G. ”Yeast micro data set”. [http://arep.med.harvard.edu/biclustering/yeast.matrix]
[16]Wang H, Pei J. ”Clustering by pattern similarity. ” JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 23(4): 481-496 July 2008.
[17]Wang, H., Wang, W., Yang, J. et al. ”Clustering by Pattern Similarity in Large Data Sets.” In SIGMOD’02.
[18]William H. Wolberg and O.L. Mangasarian: ”Multisurface method of pattern separation for medical diagnosis applied to breast cytology”, Proceedings of the National Academy of Sciences, U.S.A., Volume 87, December 1990, pp 9193-9196.
[19]Yang, J., Wang, W., Wang, H. et al. ”δ-cluster: Capturing Subspace Correlation in
a Large Data Set. ” In ICDE’02.
[20]Y.Cheng and G.Church. “Biclustering of expression data.” In Proc. Of 8th International Conference on Intelligent System for Molecular Biology, La Jolla / San Diego , CA ,2000.
論文全文使用權限:不同意授權