現在位置首頁 > 博碩士論文 > 詳目
  • 同意授權
論文中文名稱:應用混合切割進行分散式資料庫配置 [以論文名稱查詢館藏系統]
論文英文名稱:Application Of Mixed Partitioning On Distributed Database Allocation [以論文名稱查詢館藏系統]
院校名稱:臺北科技大學
學院名稱:管理學院
系所名稱:資訊管理研究所
畢業學年度:102
出版年度:103
中文姓名:許聿慎
英文姓名:Yu-Shen Shiu
研究生學號:101938011
學位類別:碩士
語文別:中文
口試日期:2014-06-19
論文頁數:77
指導教授中文名:王貞淑
口試委員中文名:蕭文龍;洪英訓
中文關鍵詞:分散式資料庫巨量資料混合切割資料配置
英文關鍵詞:Distributed DatabaseBig DataMixed PartitioningData Allocation
論文中文摘要:資料量快速成長使得企業面臨巨大的挑戰,分散式資料庫對於儲存日益增加的資料量是個有效的解決方案。而隨著巨量資料時代的來臨,資料表的欄位與記錄也越來越龐大,為了縮短查詢與分析巨量資料所需的時間,資料庫中的資料欄位與記錄都必須能夠快速擷取,也因此恰當的資料庫設計與配置愈顯重要。資料庫領域許多研究經常出現「資料切割」、「資料配置」等關鍵詞,也反映學術界目前正積極發展以資料切割為導向的資料庫設計方案。
在實務上,資料最佳配置問題(Data Allocation Problem,DAP)是要將相關的資料放在同一個資料庫上,例如:一些經常存取的屬性、經常使用的查詢條件,以縮短因為查詢或資料修改時所需花費的資料表合併操作與回應時間。目前的研究著重在將資料進行垂直與水平切割,將其配置在企業的大型分散式資料庫中。在分散式資料庫的設計中,不管採取的是那一種分割的方式,最主要的設計考慮因素還是需依企業的需求而定。本研究旨在對於資料表欄位與記錄都能進行有效的分區以達到降低分析查詢的回應時間,因此結合了垂直分區與水平分區這種混合分區的方式提出一個以資料混合切割為基礎的兩步驟資料切割模式—(Vertical Horizontal Partitioning)VHP方法。於分散式新增實驗結果得知透過分散式新增的方法有效縮短了31%的時間,而在分散式查詢實驗中,由於透過混合切割無法完全將每筆查詢查詢交易中的記錄配置在同一張資料表中,但還是有超過半數的查詢查詢交易記錄能達到完美配置,其平均查詢時間降低了12.1%。
論文英文摘要:In recent years, enterprises are facing a great challenge because of the data amount within the enterprise’s database is growing dramatically, the distributed database is an effective solution for storing increasing amounts of data. However, the data columns and records in the table are growing accordingly to shorten the time for particular columns and records to accelerate analyze is an important issue. Data allocation and data partitioning as the important keywords of the database domain. That reflected academic community is now actively developing data partitioning-oriented database design.
In practice, Data Allocation Problem(DAP) is to arrange relevant information on the same database for shorten the response time of table merge operations that data query or modify, for illustration particular query pattern frequently used. The current study focuse on the data vertical and horizontal partitioning, In the design of distributed databases, whether it is the way to take a partitioning, the main design considerations is required in accordance with the needs of enterprises. This study aimed to decrease the query response time analysis effectively of the table columns and records partitioning, for this reason, we propose the two-step data partitioning mode -- VHP methods based on mixed data partitioning that Combination of vertical partitioning and horizontal partitioning. Through experiments to test its feasibility. Distributed insert methods reduce 31% of the time effectively. In the distributed query experiments, more than half of the query transactions to achieve the perfect configuration records, the average query time reduced by 12.1%.
論文目次:目錄
中文摘要 I
英文摘要 III
目錄 V
表目錄 VII
圖目錄 VIII
第一章 緒論 1
1.1 研究背景與動機 1
1.2研究目的 7
1.3研究步驟與方法 9
1.4研究限制 11
1.5論文架構 12
第二章 文獻探討 13
2.1分散式資料庫系統架構 (Distributed Database System Architecture) 13
2.2資料切割 (Data Partitioning) ….15
2.2.1垂直切割 (Vertical Partitioning, VP) 15
2.2.2水平切割 (Horizontal Partitioning, HP) 16
2.2.3混合切割 (Mixed Partitioning, MP) 17
2.2.4資料切割與配置(DAP)相關研究 19
2.3叢聚 (Cluster) 22
2.3.1兩步驟叢聚法 (Two-stage clustering approach) 23
2.4屬性親和力 (Attribute Affinity,AA) 26
2.5謂語親和力 (Predicate Affinity,PA) 27
第三章 研究方法 28
3.1 DAP問題定義 28
3.2三階段VHP資料切割模式 30
3.2.1第一階段-資料轉換 32
3.2.2 第二階段-兩步驟資料切割 32
3.2.3 第三階段-分散式查詢 33
3.3模式建立-說明範例 34
3.3.1第一階段-資料轉換 36
3.3.2 第二階段-兩步驟資料切割 38
3.3.3 第三階段-分散式查詢 40
第四章 系統驗證與實驗設計 43
4.1驗證兩步驟叢聚法 43
4.1.1華德法 43
4.1.2 K-means法 44
4.1.3 結論 45
第五章 實驗驗證與結果分析 46
5.1階段(一)實驗:資料轉換 51
5.2階段(二)實驗:兩步驟資料切割—垂直切割 53
5.2.1華德法 53
5.2.2 K-means分群法 55
5.3階段(二)實驗:兩步驟資料切割—水平切割 57
5.4階段(三)子實驗一:分散式新增 61
5.4.1階段(三)子實驗二:分散式查詢…………………………………….64
第六章 結論 67
参考文獻 69
附錄
A:三十筆查詢交易記錄………………………………………………………………………………72
論文參考文獻:[1] Leavitt, N., “Sorage Challenge: Where will all that big data go?” Computer, Vol. 46, No.9, 2013,pp. 22-25.
[2] D. Talia, "Clouds for Scalable Big Data Analytics," Computer, vol. 46, 2013,pp. 98-101.
[3] Z. Du, "Inconsistencies in big data," in Cognitive Informatics & Cognitive Computing (ICCI*CC), 2013 12th IEEE International Conference on, 2013, pp. 61-67.
[4] W. Xindong, Z. Xingquan, W. Gong-Qing, and D. Wei, "Data mining with big data," Knowledge and Data Engineering, IEEE Transactions on, vol. 26, 2014, pp. 97-107.
[5] T. Wei, M. B. Blake, I. Saleh, and S. Dustdar, "Social-Network-Sourced Big Data Analytics," Internet Computing, IEEE, vol. 17, 2013, pp. 62-69.
[6] 陸嘉恒,挑戰大數據:用NoSQL搞定每年100億顆硬碟資料,嘉魁資訊,2013。
[7] T. C. Havens, J. C. Bezdek, and M. Palaniswami, "Scalable Single Linkage Hierarchical Clustering For Big Data." IEEE Eighth International Conference on Intelligent Sensors, Sensor Networks and Information Processing, 2013, pp.396-401
[8] IDC,http://www.idc.com.tw/, 2012.,,2013年11月
[9] IGITIMES,http://www.digitimes.com.tw/tw/bizinfo/, 2012,2013年11月
[10] Y. Xiulan, C. Ying, R. Fanyan, and L. Dong, "Filtering location stream in moving object database," in Database and Expert Systems Applications, 2004. Proceedings. 15th International Workshop on, 2004, pp. 645-649.
[11] Gartner,http://www.gartner.com/newsroom/id/2603623,2014年3月
[12] A. Lakshman, and P. Malik, "Cassandra: a decentralized structured storage system," ACM SIGOPS Operating Systems Review, vol. 44, 2010,pp. 35-40.
[13] A. R. Chaturvedi, A. K. Choubey, and R. Jinsheng, "Scheduling the allocation of data fragments in a distributed database environment: a machine learning approach," Engineering Management, IEEE Transactions on, vol. 41, 1994,pp. 194-207.
[14] D. W. Cornell and P. S. Yu, "An effective approach to vertical partitioning for physical design of relational databases," Software Engineering, IEEE Transactions on, vol. 16, 1990,pp. 248-258.
[15] S. Guinepain, and L. Gruenwald, "Automatic database clustering using data mining," in Database and Expert Systems Applications, 2006. DEXA'06. 17th International Workshop on, 2006, pp. 124-128.
[16] L. Rodriguez, and X. Li, "A dynamic vertical partitioning approach for distributed database system," in Systems, Man, and Cybernetics (SMC), 2011 IEEE International Conference on, 2011, pp. 1853-1858.
[17] Stonebraker, M., “Big data is buzzword du jour,” Communications of the ACM,Vol. 56, No. 9, 2013,pp.10-11.
[18] S. Navathe, S. Ceri, G. Wiederhold, and J. Dou, "Vertical partitioning algorithms for database design," ACM Transactions on Database Systems (TODS), vol. 9, 1984,pp. 680-710.
[19] Y. Zhang, and M. E. Orlowska, "On fragmentation approaches for distributed database design," Information Sciences-Applications, vol. 1, 1994,pp. 117-132.
[20] C.H. Cheng, W.-K. Lee, and K.-F. Wong, "A genetic algorithm-based clustering approach for database partitioning," Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, vol. 32, 2002,pp. 215-230.
[21] A. A. Amer and H. I. Abdalla, "An integrated design scheme for performance optimization in distributed environments," in Education and e-Learning Innovations (ICEELI), 2012 International Conference on, 2012, pp. 1-8.
[22] W. W. Chu and I. T. Ieong, "A transaction-based approach to vertical partitioning for relational database systems," Software Engineering, IEEE Transactions on, vol. 19, 1993,pp. 804-812.
[23] 蘇威霖,類神經網路應用於多資料庫資料表與欄位對應之研究,碩士論文,資訊管理系碩士班,朝陽科技大學,台中市,2002。
[24] 曾守正,周韻寰,資料庫系統之理論與實務,華泰文化,2007,第15章,第二版。
[25] 黃吉民,關聯式資料庫資料移植至雲端資料庫之探討,碩士論文,資訊管理學研究所(含碩專班),世新大學,台北市,2014。
[26] 楊濬仲,導入關聯式資料庫系統應用於HBase,碩士論文,資訊科學與工程研究所,交通大學,新竹市,2011。
[27] 周豪卿,移植關聯式資料庫到Hbase之個案研究,碩士論文,通訊工程研究所,中正大學,嘉義縣,2011。
[28] 陳韡,從格網到雲端運算的資料轉移,,碩士論文,資訊工程所,逢甲大學,台中市,2012。
[29] 黃健瑋,以混合SQL與NoSQL為策略提昇關聯式資料庫在雲端架構下的效能,碩士論文,資訊工程研究所,中正大學,嘉義縣,2012。
[30] 陳義雄,基於Cassandra資料庫之雲端資料建模:從SQL到NoSQL,碩士論文,電機工程學研究所,臺灣大學,台北市,2012。
[31] 范有寧,適用於巨量資料分析的約略集合規則歸納法,碩士論文,資訊管理學研究所,臺灣大學,台北市,2012。
[32] 牛仁正,在Hadoop平台下使用資料分群方法分析台灣農作物之價量資訊,碩士論文,工業管理系,國立臺灣科技大學,台北市,2012。
[33] 丁一賢,陳牧言,資料探勘; 滄海書局,2006。
[34] 曾憲雄,蔡秀滿,蘇東興,曾秋蓉,王慶堯,資料探勘,旗標出版股份有限公司,2006。
[35] 陳順宇,多變量分析,華泰書局,第四版,2005。
[36] 林雨蓉,,CAN SLIM 選股指標在台灣股巿適用性之實證研究,碩士論文,金融研究所,國立政治大學,台北市,2005。
[37] 陳同孝,陳雨霖,劉明山,許文綬,林志強,邱永興,「結合K-means及階層式分群法之二階段分群演算法」,電腦學刊,第十七卷,2006,第65-75頁。
[38] P. Doshi and V. Raisinghani, "Review of dynamic query optimization strategies in distributed database," in Electronics Computer Technology (ICECT), 2011 3rd International Conference on, 2011, pp. 145-149.
[39] Zhang Zhenyou ; Collage of Inf. Eng., Hebei United Univ., TangShan, China ; Luo Bin ; Cao Zhi, “The research on the query optimization on the
distributed heterogeneous database based on the response time,”Computer Science and Network Technology (ICCSNT), 2011 International Conference on, Volume:3, 2011, pp.1541-1544.
論文全文使用權限:同意授權於2014-08-04起公開