超級(jí)pos機(jī)平臺(tái)

 新聞資訊2  |   2023-08-04 14:14  |  投稿人:pos機(jī)之家

網(wǎng)上有很多關(guān)于超級(jí)pos機(jī)平臺(tái),超級(jí)計(jì)算機(jī)計(jì)算資源調(diào)度優(yōu)化關(guān)鍵技術(shù)研究的知識(shí),也有很多人為大家解答關(guān)于超級(jí)pos機(jī)平臺(tái)的問題,今天pos機(jī)之家(www.shineka.com)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來看下吧!

本文目錄一覽:

1、超級(jí)pos機(jī)平臺(tái)

超級(jí)pos機(jī)平臺(tái)

文|九鵬舉

編輯|九鵬舉

當(dāng)前世界各國均把超級(jí)計(jì)算機(jī)視為國家科技創(chuàng)新發(fā)展的重大驅(qū)動(dòng)平臺(tái),紛紛制定計(jì)劃研制各自的超級(jí)計(jì)算機(jī)系統(tǒng),將超級(jí)計(jì)算機(jī)的計(jì)算性能不斷推向新高。

2010年11月,我國研發(fā)的“天河一號(hào)”超級(jí)計(jì)算機(jī)首次奪得世界超級(jí)計(jì)算TOP500排名的桂冠,標(biāo)志著世界超級(jí)計(jì)算機(jī)從Tflops時(shí)代進(jìn)入Pflops時(shí)代。

2013年6月,同樣來自中國的“天河二號(hào)”超級(jí)計(jì)算機(jī),以54.9Pflops的性能再次奪得世界第一。

2016年6月,“太湖之光”研制成功,接棒“天河二號(hào)”成為新的世界第一,峰值性能達(dá)到了125Pflops,標(biāo)志著全球超級(jí)計(jì)算機(jī)的性能進(jìn)入百Pflops時(shí)代。

雖然2018年6月,美國能源部下屬的橡樹嶺國家實(shí)驗(yàn)室(OakRidgeNationalLaboratory)發(fā)布了新一代超級(jí)計(jì)算機(jī)“頂點(diǎn)”(Summit)。

其浮點(diǎn)運(yùn)算速度峰值達(dá)到了每秒20億億次(200PFlops),幫助美國問鼎闊別近5年之久的全球超級(jí)計(jì)算機(jī)500強(qiáng)榜單,但性能還處在百Pflpops規(guī)模。

而E級(jí)(百億億次)超級(jí)計(jì)算是當(dāng)前世界超級(jí)計(jì)算機(jī)領(lǐng)域公認(rèn)的“下一頂皇冠”,將有望在解決全球環(huán)境污染、能源危機(jī)以及氣候變化等重大難題上發(fā)揮巨大作用。

隨著美國、中國、歐盟、日本相繼發(fā)布E級(jí)超級(jí)計(jì)算機(jī)的研制計(jì)劃,超級(jí)計(jì)算機(jī)將從Pflops時(shí)代逐漸邁進(jìn)Eflpos時(shí)代。

超級(jí)計(jì)算機(jī)用戶行為和負(fù)載特征分析

當(dāng)前影響力最大的超級(jí)計(jì)算機(jī)開放日志集為希伯來大學(xué)的實(shí)驗(yàn)系統(tǒng)實(shí)驗(yàn)室開放的并行任務(wù)負(fù)載資料庫PWA,目前包含了來自全球39臺(tái)超級(jí)計(jì)算機(jī)的相關(guān)日志,已經(jīng)支持?jǐn)?shù)百篇相關(guān)研究工作。

學(xué)者Feitelson等人詳細(xì)介紹了該資料庫中十幾臺(tái)超級(jí)計(jì)算機(jī)作業(yè)的相關(guān)特征,并針對(duì)如何利用該日志集開展研究工作給出了一系列實(shí)用的研究建議,供其他研究人員參考。

PWA定義了作業(yè)負(fù)載記錄的標(biāo)準(zhǔn)格式SWF,包括作業(yè)的提交時(shí)間、開始時(shí)間、運(yùn)行時(shí)間、作業(yè)占用的核數(shù),用戶信息以及其他相關(guān)因素。

網(wǎng)格環(huán)境的公開日志集為GWA,主要包括一些網(wǎng)格環(huán)境下超級(jí)計(jì)算機(jī)的相關(guān)運(yùn)行日志。

GWA提供了基于SWF的擴(kuò)展作業(yè)格式GWF,該格式大部分字段和SWF格式相同,只是補(bǔ)充了部分網(wǎng)格環(huán)境下適用的字段。

這兩種超級(jí)計(jì)算機(jī)的數(shù)據(jù)集暫時(shí)還未包含目前10Plops以上的超級(jí)計(jì)算機(jī),其中規(guī)模較大的超級(jí)計(jì)算機(jī)為來自法國的居里(Curie)超級(jí)計(jì)算機(jī),峰值計(jì)算能力2PFlops。

更大規(guī)模的超級(jí)計(jì)算機(jī)的用戶行為和負(fù)載特征等情況需要從其他相關(guān)研究中獲得。

國內(nèi)的研究人員在PWA的基礎(chǔ)上,針對(duì)國內(nèi)高性能計(jì)算機(jī)的特點(diǎn),梳理了上海超算中心、國家超級(jí)計(jì)算無錫中心、上海交通大學(xué)、中國科技大學(xué)等單位的超級(jí)計(jì)算機(jī)的歷史作業(yè)數(shù)據(jù),放入了中國超算任務(wù)負(fù)載資料庫,公開開放給相關(guān)研究人員使用。

目前該資料庫中,包括了上海超算中心的曙光5000A近3年的日志,國家超級(jí)計(jì)算無錫中心的一臺(tái)超級(jí)計(jì)算機(jī)4個(gè)月的日志(具體名稱未知),和來自上海交通大學(xué)和中國科技大學(xué)兩所高校的兩臺(tái)超級(jí)計(jì)算機(jī)各自2年的相關(guān)日志。

但從數(shù)據(jù)質(zhì)量上看,可能還需要進(jìn)一步整理,比如國家超級(jí)計(jì)算無錫中心的超級(jí)計(jì)算機(jī)日志中無效的數(shù)值(-1)較多,對(duì)分析效果影響較大。

超級(jí)計(jì)算機(jī)的資源調(diào)度和分配由資源管理系統(tǒng)負(fù)責(zé),目前應(yīng)用比較廣泛的資源管理系統(tǒng)包括Slurm,Torque,PBSpro,LSF等。

其中Slurm是一種在超級(jí)計(jì)算機(jī)上廣泛應(yīng)用的開源資源管理系統(tǒng),包括“天河一號(hào)”,“天河二號(hào)”等超級(jí)計(jì)算機(jī)均采用了Slurm資源管理系統(tǒng)。

Slurm資源管理系統(tǒng)主要由控制進(jìn)程、結(jié)點(diǎn)監(jiān)控進(jìn)程、作業(yè)管理進(jìn)程、記賬存儲(chǔ)進(jìn)程、命令工具等多個(gè)組成。

其中控制進(jìn)程slurmctld,負(fù)責(zé)資源分配、作業(yè)調(diào)度、作業(yè)管理控制等核心任務(wù)。

結(jié)點(diǎn)監(jiān)控進(jìn)程slurmd運(yùn)行在每個(gè)計(jì)算結(jié)點(diǎn)上,負(fù)責(zé)收集結(jié)點(diǎn)的資源狀態(tài)并向控制進(jìn)程報(bào)告。

同時(shí)slurmd接收來自控制進(jìn)程與用戶命令的請(qǐng)求,加載任務(wù)步或取消作業(yè)等。

作業(yè)管理進(jìn)程slurmstepd由slurmd在加載作業(yè)步任務(wù)或批處理作業(yè)時(shí)派生,該進(jìn)程管理結(jié)點(diǎn)上一個(gè)作業(yè)步的所有任務(wù),負(fù)責(zé)進(jìn)行任務(wù)的啟動(dòng)、I/O轉(zhuǎn)發(fā)、信號(hào)傳遞、記賬信息收集等功能。

Slurm的sacct命令可以查看系統(tǒng)記賬日志或記賬數(shù)據(jù)庫中的作業(yè)與作業(yè)步的記賬數(shù)據(jù),以進(jìn)行分析。

超級(jí)計(jì)算機(jī)資源調(diào)度和優(yōu)化技術(shù)

通常資源管理系統(tǒng)負(fù)責(zé)超級(jí)計(jì)算機(jī)資源的調(diào)度和分配工作,資源管理系統(tǒng)基于選定的調(diào)度策略來調(diào)度和分配資源,典型調(diào)度策略包括FCFS,F(xiàn)irstFit,Backfilling等。

其中FCFS調(diào)度策略選擇作業(yè)隊(duì)列中的第一個(gè)作業(yè)進(jìn)行調(diào)度,從作業(yè)提交的順序角度來看,該方法比較公平,但是這樣的調(diào)度通常會(huì)表現(xiàn)出較低的資源利用率。

為了解決這個(gè)問題,學(xué)者們提出了多種基于回填機(jī)制的調(diào)度方法,包括保守的回填策略(ConservativeBackfilling)和簡單回填策略(EASYBackfilling)。

保守回填策略,通常選擇作業(yè)隊(duì)列中不會(huì)延遲它前面所有作業(yè)執(zhí)行的作業(yè)進(jìn)行資源分配,而簡單回填策略,則選擇作業(yè)隊(duì)列中不會(huì)延遲第一個(gè)作業(yè)執(zhí)行的作業(yè)進(jìn)行資源分配。

還有其他研究尋找更多的回填策略來優(yōu)化調(diào)度,包括松弛回填(SlackBackfilling)算法,該算法給每個(gè)作業(yè)設(shè)置一個(gè)允許延遲的閾值,針對(duì)緊急、重要的任務(wù)設(shè)置較短的閾值,在調(diào)度中只要作業(yè)被延遲調(diào)度的時(shí)間不超過該閾值即可。

選擇性回填算法(SelectiveBackfilling)是針對(duì)等待時(shí)間足夠長的作業(yè)設(shè)定一個(gè)資源預(yù)約來提升調(diào)度效率。

為了能夠進(jìn)行回填調(diào)度,用戶需要提前給出作業(yè)運(yùn)行時(shí)間的評(píng)估值,該值在資源調(diào)度中和實(shí)際作業(yè)運(yùn)行時(shí)間的準(zhǔn)確性非常關(guān)鍵。

如果低于作業(yè)的運(yùn)行時(shí)間,系統(tǒng)會(huì)將該作業(yè)在正常結(jié)束前提前中斷,因此用戶習(xí)慣于給出較高的作業(yè)運(yùn)行評(píng)估時(shí)間,而這又反過來影響了系統(tǒng)的實(shí)際的調(diào)度策略。

公平性也是在高性能計(jì)算和網(wǎng)格環(huán)境中的研究熱點(diǎn),但公平性的概念可以從不同的角度來理解。

當(dāng)前關(guān)于公平性的研究主要分為兩個(gè)維度:公平性調(diào)度(Fair-shedule)和公平性分配(Fair-share)。

公平性調(diào)度主要關(guān)注作業(yè)調(diào)度順序的公平性,晚提交的作業(yè)不能比早提交的作業(yè)先開始運(yùn)行。

一個(gè)作業(yè)j的公平開始時(shí)間,通過去除作業(yè)j后面的所有作業(yè),也就是把作業(yè)j作為隊(duì)列中的最后一個(gè)作業(yè)來進(jìn)行模擬調(diào)度,此時(shí)作業(yè)j的開始時(shí)間就是它的公平開始時(shí)間。

Ngubiri等人對(duì)比了不同的公平性度量,包括分布,開始時(shí)間,排隊(duì)時(shí)間等,考慮了多個(gè)工作流的共性調(diào)度,給出了工作流的減速比的定義,表示一個(gè)工作流在與其他工作流一起調(diào)度時(shí)從提交到完成所需的時(shí)間。

與僅有它一個(gè)工作流從提交到完成所需的時(shí)間的比值,通過該值來評(píng)估調(diào)度策略的公平性。

還有一些其他研究關(guān)注資源分配排隊(duì)的公平性,重點(diǎn)考慮作業(yè)的運(yùn)行、排隊(duì)等整體服務(wù)時(shí)間。

減速比排隊(duì)公平性基于用戶作業(yè)的等待時(shí)間要和它的服務(wù)時(shí)間成一定比例的要求,如果比例過高說明該作業(yè)的調(diào)度不夠公平。

實(shí)際上,在配額約束超級(jí)計(jì)算機(jī)上,由于用戶能夠清晰的知道他們的資源配額,并且知道他們超過配額的作業(yè)需要等待。

因此他們并不十分關(guān)心單個(gè)作業(yè)的等待時(shí)間,而是關(guān)心自己作業(yè)的等待時(shí)間和其他用戶作業(yè)的等待時(shí)間的不同,關(guān)注自己的作業(yè)是否被區(qū)別對(duì)待。

通過不同用戶的平均作業(yè)等待時(shí)間的均方差來表征這個(gè)方面的公平性,這里提出了基于保守回填方法的擴(kuò)展版本,來提升性能和公平性。

公平性分配主要關(guān)注資源分配的公平性,用戶需要公平的共享系統(tǒng)資源。

最基本的公平性為,在一個(gè)有N個(gè)用戶的系統(tǒng)中,每個(gè)用戶占用1/N的資源。

如果用戶的權(quán)重不同,資源會(huì)按照權(quán)重進(jìn)行分配,每個(gè)用戶獲得對(duì)應(yīng)權(quán)重比例的資源,最大最小值公平,是一個(gè)在系統(tǒng)中廣泛應(yīng)用的分配策略。

該方法的主要思想為,將資源按照每個(gè)用戶想要的可以滿足的最小需求進(jìn)行公平分配,然后將剩余的空閑資源均勻的分配給需要大資源的用戶。

它按照資源需求遞增的順序進(jìn)行分配,所有用戶得到的資源均不超過自己的需求,同時(shí)未得到滿足的用戶等價(jià)的分享資源。

例如在一個(gè)有4個(gè)用戶的集群中,每個(gè)用戶的資源需求(按照從大到小排列)分別為2,2.5,4,5,而系統(tǒng)的總資源為10。

則最大最小值公平分配的第一輪將資源分成4個(gè)2.5的份數(shù),因?yàn)?.5大于2,則第一個(gè)用戶分配得2,剩下的8個(gè)資源分成三等份2.66。

由于2.66大于2.5,則第二個(gè)用戶分配得2.5,剩下的5.5分成2份2.75,均小于用戶3和4的需求,則用戶3和4分別獲得2.75的資源。

當(dāng)用戶具有不同的權(quán)重比值的時(shí)候,資源分配按照權(quán)重的比例進(jìn)行。

由于最大最小值公平分配策略只能分配一種資源,而在系統(tǒng)中通常包含多種資源需求,比如CPU、內(nèi)存、I/O帶寬等。

然后通過將任務(wù)的多種資源需求中主要需求為分配關(guān)鍵點(diǎn),擴(kuò)展了最大最小值公平策略,并成為了眾多研究的熱點(diǎn)。

之后,有大量的研究基于DRF開展,衍生出了多種DRF的擴(kuò)展或普適化版本。

學(xué)者Wang等人]提出了一種任務(wù)共享公平策略來解決任務(wù)有特定分配要求的情況下的資源分配問題。

比如某些任務(wù)只能分配給大內(nèi)存的結(jié)點(diǎn),就可以增加了一個(gè)調(diào)節(jié)參數(shù)(knob),允許用戶通過它調(diào)節(jié)來尋求公平性和性能的平衡,同時(shí)提出了彈性多資源公平性分配方法來權(quán)衡CPU-GPU融合的架構(gòu)中的公平性和效率。

但這些研究都把資源看作和時(shí)間無關(guān)的參數(shù),實(shí)際上這在超級(jí)計(jì)算機(jī)上的資源調(diào)度中是不切實(shí)際的。

兩個(gè)用戶同樣占用100個(gè)計(jì)算結(jié)點(diǎn),一個(gè)用戶的作業(yè)運(yùn)行時(shí)間1小時(shí),另外一個(gè)10小時(shí),二者的資源消耗明顯不同,在按需付費(fèi)的超級(jí)計(jì)算機(jī)上,更是如此。

用戶根據(jù)資源消耗來付費(fèi),資源消耗指的是作業(yè)運(yùn)行時(shí)間和占用的結(jié)點(diǎn)數(shù)的乘積,這是和時(shí)間緊密相關(guān)的。

以上就是關(guān)于超級(jí)pos機(jī)平臺(tái),超級(jí)計(jì)算機(jī)計(jì)算資源調(diào)度優(yōu)化關(guān)鍵技術(shù)研究的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于超級(jí)pos機(jī)平臺(tái)的知識(shí),希望能夠幫助到大家!

轉(zhuǎn)發(fā)請(qǐng)帶上網(wǎng)址:http://www.shineka.com/newsone/93889.html

你可能會(huì)喜歡:

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 babsan@163.com 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。