資料介紹
并行矩陣乘法是線性代數(shù)中最重要的基本運(yùn)算之一,同時(shí)也是許多科學(xué)應(yīng)用的基石。隨著高性能計(jì)算(HPC)向E級(jí)計(jì)算發(fā)展,并行矩陣乘法的通信開(kāi)銷所占比重越來(lái)越大。如何降低并行矩陣乘法的通信開(kāi)銷,提高并行矩陣乘的可擴(kuò)展性是當(dāng)前研究的熱點(diǎn)之一。本文提出一種新型的分布式并行稠密矩陣乘算法,即2.5D版本的PUMMA( Parallel Universal matrix Multiplication Algorithm)算法,該算法是通過(guò)將初始的進(jìn)程分成c組,利用計(jì)算節(jié)點(diǎn)的額外內(nèi)存,在每個(gè)進(jìn)程組上同時(shí)存儲(chǔ)矩陣A、B和執(zhí)行1/c的 PUMMA算法,最后通過(guò)規(guī)約操作來(lái)得到矩陣乘的最終結(jié)果。本文基于 BLACS( Basic Linear Algebra Communication Subprograms)通信庫(kù)實(shí)現(xiàn)了一種從2D到2.5D的新型數(shù)據(jù)重分配算法,與 PUMMA算法相結(jié)合,最終得到2.5 D PUMMA算法,可直接替換 PDGEM( Parallel double- precision General Matrix-matrix Multiplication),具有良好的可移植性。與國(guó)際標(biāo)準(zhǔn)算法庫(kù) ScalaPACK( Scalable Linear algebra Package)中的 PDGEMM等經(jīng)典D算法相比,本文算法縮減了通信次數(shù),提高了數(shù)據(jù)局部性,具有更好的可擴(kuò)展性。在進(jìn)程數(shù)較多時(shí),例如4096進(jìn)程時(shí),系統(tǒng)測(cè)試表明相對(duì) PDGEMM的加速比可達(dá)到2.20~2.93.進(jìn)一步地,本文將2.5 D PUMMA算法應(yīng)用于加速計(jì)算對(duì)稱三對(duì)角矩陣的特征值分解,其加速比可達(dá)到1.2以上本文通過(guò)大量數(shù)值算例分析了2.5DMMA算法的性能,并給出了實(shí)用性建議和總結(jié)了未來(lái)的工作。
- MapReduce框架下分布式編碼計(jì)算容錯(cuò)算法 2次下載
- 深層轉(zhuǎn)導(dǎo)式非負(fù)矩陣分解并行算法 16次下載
- 輕量級(jí)分布式機(jī)器學(xué)習(xí)系統(tǒng)及算法 16次下載
- 基于分布式編碼的同步隨機(jī)梯度下降算法 2次下載
- 基于分布式數(shù)據(jù)Cache的實(shí)時(shí)動(dòng)態(tài)遷移機(jī)制 20次下載
- 結(jié)合網(wǎng)絡(luò)推演和失效檢測(cè)算法的航電分布式顯控 13次下載
- 增量式約簡(jiǎn)最小二乘孿生攴持向量回歸機(jī)算法 15次下載
- 一種分布式網(wǎng)絡(luò)掃描架構(gòu)和任務(wù)調(diào)度算法 19次下載
- 快速在線分布式對(duì)偶平均優(yōu)化算法 5次下載
- 基于并行遺傳算法的VOD系統(tǒng)負(fù)載均衡研究 0次下載
- FIR數(shù)字濾波器分布式算法的原理及FPGA實(shí)現(xiàn)
- 分布式并行BOD系統(tǒng)資源管理算法研究
- 基于DSP的分布式并行遺傳算法
- 基于ProActive的分布式并行Web Spider設(shè)計(jì)
- 分布式數(shù)據(jù)挖掘計(jì)算過(guò)程-DDCP算法研究
- 【節(jié)能學(xué)院】Acrel-1000DP分布式光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW 分布式光伏中應(yīng)用 3.4k次閱讀
- 一種完全分布式的點(diǎn)線協(xié)同視覺(jué)慣性導(dǎo)航系統(tǒng) 1.5k次閱讀
- Java手寫分布式鎖的實(shí)現(xiàn) 1.3k次閱讀
- tldb提供分布式鎖使用方法 1.7k次閱讀
- 基于PyTorch的模型并行分布式訓(xùn)練Megatron解析 5.5k次閱讀
- 深入理解redis分布式鎖 1.7k次閱讀
- 如何對(duì)spmv算法進(jìn)行優(yōu)化 2.1k次閱讀
- 鴻蒙分布式相機(jī)“踩坑”分享 3.1k次閱讀
- 一文讀懂經(jīng)典雙目稠密匹配算法SGM 2.4k次閱讀
- 利用NI VeriStand 2010實(shí)現(xiàn)分布式同步系統(tǒng)的設(shè)計(jì) 4.1k次閱讀
- 分布式光纖傳感器原理_分布式光纖傳感器的應(yīng)用 9.8k次閱讀
- 淺談分布式塊存儲(chǔ)的元數(shù)據(jù)服務(wù)設(shè)計(jì) 5.4k次閱讀
- 并行計(jì)算和分布式計(jì)算的區(qū)別和聯(lián)系 3.8w次閱讀
- 一種基于分布式算法的低通FIR濾波器 3.6k次閱讀
- 深度解讀分布式存儲(chǔ)技術(shù)之分布式剪枝系統(tǒng) 2.2k次閱讀
下載排行
本周
- 1新一代網(wǎng)絡(luò)可視化(NPB 2.0)
- 3.40 MB | 1次下載 | 免費(fèi)
- 2冷柜-電氣控制系統(tǒng)講解
- 13.68 MB | 1次下載 | 10 積分
- 3MDD品牌三極管MMBT3906數(shù)據(jù)手冊(cè)
- 2.33 MB | 次下載 | 免費(fèi)
- 4MDD品牌三極管S9012數(shù)據(jù)手冊(cè)
- 2.62 MB | 次下載 | 免費(fèi)
- 5LAT1218 如何選擇和設(shè)置外部晶體適配 BlueNRG-X
- 0.60 MB | 次下載 | 3 積分
- 6LAT1216 Blue NRG-1/2 系列芯片 Flash 操作與 BLE 事件的互斥處理
- 0.89 MB | 次下載 | 3 積分
- 7收音環(huán)繞擴(kuò)音機(jī) AVR-1507手冊(cè)
- 2.50 MB | 次下載 | 免費(fèi)
- 8MS1000TA 超聲波測(cè)量模擬前端芯片技術(shù)手冊(cè)
- 0.60 MB | 次下載 | 免費(fèi)
本月
- 1愛(ài)華AIWA HS-J202維修手冊(cè)
- 3.34 MB | 37次下載 | 免費(fèi)
- 2PC5502負(fù)載均流控制電路數(shù)據(jù)手冊(cè)
- 1.63 MB | 23次下載 | 免費(fèi)
- 3NB-IoT芯片廠商的資料說(shuō)明
- 0.31 MB | 22次下載 | 1 積分
- 4UWB653Pro USB口測(cè)距通信定位模塊規(guī)格書(shū)
- 838.47 KB | 5次下載 | 免費(fèi)
- 5蘇泊爾DCL6907(即CHK-S007)單芯片電磁爐原理圖資料
- 0.04 MB | 4次下載 | 1 積分
- 6蘇泊爾DCL6909(即CHK-S009)單芯片電磁爐原理圖資料
- 0.08 MB | 2次下載 | 1 積分
- 7100W準(zhǔn)諧振反激式恒流電源電路圖資料
- 0.09 MB | 2次下載 | 1 積分
- 8FS8025B USB的PD和OC快充協(xié)議電壓誘騙控制器IC技術(shù)手冊(cè)
- 1.81 MB | 1次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935137次下載 | 10 積分
- 2開(kāi)源硬件-PMP21529.1-4 開(kāi)關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420064次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233089次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191439次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183353次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81602次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73822次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65991次下載 | 10 積分
電子發(fā)燒友App





創(chuàng)作
發(fā)文章
發(fā)帖
提問(wèn)
發(fā)資料
發(fā)視頻
上傳資料賺積分
評(píng)論