RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

案例驗(yàn)證:分析NCCL-Tests運(yùn)行日志優(yōu)化Scale-Out網(wǎng)絡(luò)拓?fù)?/h1>

背景:All-reduce 和 Ring 算法

GPU[并行計(jì)算]中需要大規(guī)模地在計(jì)算節(jié)點(diǎn)之間同步參數(shù)梯度,產(chǎn)生了大量的集合通信流量。為了優(yōu)化集合通信性能,業(yè)界開發(fā)了不同的集合通信庫(xCCL),其核心都是實(shí)現(xiàn) All-Reduce,這也是分布式訓(xùn)練最主要的通信方式。

LLM訓(xùn)練中的 All Reduce 操作一般分為三個(gè)步驟:

  • 把每個(gè)節(jié)點(diǎn)的數(shù)據(jù)切分成N份;
  • 通過reduce-scatter,讓每個(gè)節(jié)點(diǎn)都得到1/N的完整數(shù)據(jù)塊;
  • 通過all-gather,讓所有節(jié)點(diǎn)的每個(gè)1/N數(shù)據(jù)塊都變得完整

基于這種流量模式,Ring算法是目前實(shí)現(xiàn)該操作最常見的基礎(chǔ)算法之一。

顧名思義,Ring算法構(gòu)建了一個(gè)環(huán)形網(wǎng)絡(luò)——每個(gè)節(jié)點(diǎn)的數(shù)據(jù)會(huì)被切分成N份數(shù)據(jù)在所有GPU之間移動(dòng),且每個(gè)GPU只和相鄰的GPU通信。這種流水線模式能充分利用所有節(jié)點(diǎn)的發(fā)送和接收帶寬,減少 GPU 等待數(shù)據(jù)的空閑時(shí)間,同時(shí)也改善了傳輸[大數(shù)據(jù)]塊時(shí)的性能和時(shí)延抖動(dòng)問題。(但對于小規(guī)模數(shù)據(jù)傳輸,Ring算法可能會(huì)表現(xiàn)出較高的延遲和低效。)

工具說明:NCCL-Tests

NVIDIA提供的NCCL是當(dāng)前面向AI的集合通信事實(shí)標(biāo)準(zhǔn),NCCL-Test 是 NVIDIA 開源的工具,我們可以在官方Github下載來進(jìn)行不同算法的 性能測試 (例如:ring,trees…)。本次測試使用All reduce的ring算法來進(jìn)行性能評估。

**代碼語言:**javascript

復(fù)制

root@bm-2204kzq:~# /usr/local/openmpi/bin/mpirun  #多機(jī)集群測試需要使用MPI方式執(zhí)行
    --allow-run-as-root 
    -bind-to none  #不將進(jìn)程綁定到特定的CPU核心
    -H 172.17.0.215:8,172.17.0.81:8 # host列表,:后指定每臺(tái)機(jī)器要用的GPU數(shù)量
    -np 16 #指定要運(yùn)行的進(jìn)程數(shù),等于總GPU數(shù)量
    -x NCCL_SOCKET_NTHREADS=16 
    -mca btl_tcp_if_include bond0 
    -mca pml ^ucx -mca btl ^openib #指定BTL的value為'^openib'
    -x NCCL_DEBUG=INFO #NCCL的調(diào)試級別為info
    -x NCCL_IB_GID_INDEX=3  
    -x NCCL_IB_HCA=mlx5_0:1,mlx5_2:1,mlx5_3:1,mlx5_4:1 
    -x NCCL_SOCKET_IFNAME=bond0  #指定了 NCCL 使用的網(wǎng)絡(luò)接口
    -x UCX_TLS=sm,ud  #調(diào)整MPI使用的傳輸模式
    -x LD_LIBRARY_PATH -x PATH 
    -x NCCL_IBEXT_DISABLE=1 #如使用RoCE網(wǎng)絡(luò),此處應(yīng)禁用
    -x NCCL_ALGO=ring  
/root/nccl-tests/build/all_reduce_perf -b 512 -e 18G -f 2 -g 1 #執(zhí)行all reduce操作

NCCL-Tests常用參數(shù)及解釋

  • GPU 數(shù)量
    • -t,--nthreads 每個(gè)進(jìn)程的線程數(shù)量配置, 默認(rèn) 1;
    • -g,--ngpus 每個(gè)線程的 GPU 數(shù)量,默認(rèn) 1;
  • 數(shù)據(jù)大小配置
    • -b,--minbytes 開始的最小數(shù)據(jù)量,默認(rèn) 32M;
    • -e,--maxbytes 結(jié)束的最大數(shù)據(jù)量,默認(rèn) 32M;
  • 數(shù)據(jù)步長設(shè)置
    • -i,--stepbytes 每次增加的數(shù)據(jù)量,默認(rèn): 1M;
    • -f,--stepfactor 每次增加的倍數(shù),默認(rèn)禁用;
  • NCCL 操作相關(guān)配置
    • -o,--op 指定哪種操作為reduce,僅適用于Allreduce、Reduce或ReduceScatter等操作。默認(rèn)值為:求和(Sum);
    • -d,--datatype 指定使用哪種數(shù)據(jù)類型,默認(rèn) : Float;
  • 性能相關(guān)配置
    • -n,--iters 每次操作(一次發(fā)送)循環(huán)多少次,默認(rèn) : 20;
    • -w,--warmup_iters 預(yù)熱迭代次數(shù)(不計(jì)時(shí)),默認(rèn):5;
    • -m,--agg_iters 每次迭代中要聚合在一起的操作數(shù),默認(rèn):1;
    • -a,--average <0/1/2/3> 在所有 ranks 計(jì)算均值作為最終結(jié)果 (MPI=1 only). <0=Rank0,1=Avg,2=Min,3=Max>,默認(rèn):1;
  • 測試相關(guān)配置
    • -p,--parallel_init <0/1> 使用線程并行初始化 NCCL,默認(rèn): 0;
    • -c,--check <0/1> 檢查結(jié)果的正確性。在大量GPU上可能會(huì)非常慢,默認(rèn):1;
    • -z,--blocking <0/1> 使NCCL集合阻塞,即在每個(gè)集合之后讓CPU等待和同步,默認(rèn):0;
    • -G,--cudagraph 將迭代作為CUDA圖形捕獲,然后重復(fù)指定的次數(shù),默認(rèn):0;

案例驗(yàn)證:優(yōu)化GPU互連拓?fù)?/h2>

下圖是一個(gè)未優(yōu)化的雙機(jī)8卡(H20)組網(wǎng)測試拓?fù)洌?/p>

按照一般CPU云數(shù)據(jù)中心的連接方式,將同服務(wù)器的網(wǎng)卡連接到一臺(tái)交換機(jī)上,兩臺(tái)交換機(jī)之間有4條400G鏈路相連。參與測試的為星融元(Asterfusion)交換機(jī)(CX732Q-N,32 x 400GE QSFP-DD, 2 x 10GE SFP+)。

NCCL-Test 性能測試結(jié)果

**代碼語言:**javascript

復(fù)制

#                                                              out-of-place                       in-place          
#       size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong
#        (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)       
         512           128     float     sum      -1    56.12    0.01    0.02      0    54.54    0.01    0.02      0
        1024           256     float     sum      -1    55.09    0.02    0.03      0    53.85    0.02    0.04      0
        2048           512     float     sum      -1    55.67    0.04    0.07      0    54.84    0.04    0.07      0
        4096          1024     float     sum      -1    55.70    0.07    0.14      0    55.05    0.07    0.14      0
        8192          2048     float     sum      -1    56.36    0.15    0.27      0    56.53    0.14    0.27      0
       16384          4096     float     sum      -1    57.21    0.29    0.54      0    57.02    0.29    0.54      0
       32768          8192     float     sum      -1    60.74    0.54    1.01      0    59.87    0.55    1.03      0
       65536         16384     float     sum      -1    67.42    0.97    1.82      0    68.41    0.96    1.80      0
      131072         32768     float     sum      -1    109.6    1.20    2.24      0    108.8    1.20    2.26      0
      262144         65536     float     sum      -1    108.3    2.42    4.54      0    108.3    2.42    4.54      0
      524288        131072     float     sum      -1    115.0    4.56    8.55      0    112.8    4.65    8.72      0
     1048576        262144     float     sum      -1    135.0    7.77   14.57      0    129.4    8.10   15.19      0
     2097152        524288     float     sum      -1    144.6   14.51   27.20      0    142.9   14.67   27.51      0
     4194304       1048576     float     sum      -1    222.0   18.89   35.43      0    220.0   19.07   35.75      0
     8388608       2097152     float     sum      -1    396.5   21.15   39.66      0    392.1   21.40   40.12      0
    16777216       4194304     float     sum      -1    736.3   22.78   42.72      0    904.7   18.55   34.77      0
    33554432       8388608     float     sum      -1   1405.5   23.87   44.76      0   1542.0   21.76   40.80      0
    67108864      16777216     float     sum      -1   2679.0   25.05   46.97      0   2721.0   24.66   46.24      0
   134217728      33554432     float     sum      -1   5490.1   24.45   45.84      0   5291.6   25.36   47.56      0
   268435456      67108864     float     sum      -1    10436   25.72   48.23      0    11788   22.77   42.70      0
   536870912     134217728     float     sum      -1    25853   20.77   38.94      0    23436   22.91   42.95      0
  1073741824     268435456     float     sum      -1    47974   22.38   41.97      0    54979   19.53   36.62      0
  2147483648     536870912     float     sum      -1   117645   18.25   34.23      0   117423   18.29   34.29      0
  4294967296    1073741824     float     sum      -1   248208   17.30   32.44      0   229171   18.74   35.14      0
  8589934592    2147483648     float     sum      -1   474132   18.12   33.97      0   476988   18.01   33.77      0
 17179869184    4294967296     float     sum      -1   949191   18.10   33.94      0   965703   17.79   33.36      0
# Out of bounds values : 0 OK
  • size (B):操作處理的數(shù)據(jù)的大小,以字節(jié)為單位;
  • count (elements):操作處理的元素的數(shù)量;
  • type:元素的數(shù)據(jù)類型;
  • redo p:使用的歸約操作;
  • root:-1 表示這個(gè)操作沒有根節(jié)點(diǎn)(all-reduce 操作涉及到所有的節(jié)點(diǎn));
  • time (us):操作的執(zhí)行時(shí)間,以微秒為單位;
  • algbw (GB/s):算法帶寬,以 GB/s 為單位;
  • busbw (GB/s):總線帶寬,以 GB/s 為單位;
  • wrong:錯(cuò)誤的數(shù)量,如果這個(gè)值不是 0,那可能表示有一些錯(cuò)誤發(fā)生。

查看結(jié)果時(shí)需要關(guān)注如下幾點(diǎn):

  • 數(shù)據(jù)量增加時(shí),帶寬是否會(huì)下降(下降明顯不符合預(yù)期);
  • 帶寬的峰值,每次算到的帶寬峰值,可以只關(guān)注 in 或者 out;
  • 平均值,在數(shù)據(jù)量遞增的情況下,可能無法體現(xiàn)最終的結(jié)果;
  • 請確保數(shù)據(jù)量足夠大,可以壓到帶寬上限(通過調(diào)整 b、e 或者 n 選項(xiàng))。

分析以上信息可以發(fā)現(xiàn):平均總線帶寬僅22GB/s,在達(dá)到47GB/s左右的峰值流量后,隨著數(shù)據(jù)量越大帶寬性能卻在下降,與正常值相差甚遠(yuǎn)。

機(jī)內(nèi)拓?fù)浞治?/h2>

通過 nvidia-smi topo -m 可以得知機(jī)內(nèi)設(shè)備拓?fù)?/p>

將上表轉(zhuǎn)化為如下示意圖:

NCCL通信路徑分析

NCCL中用Channel的概念表示一個(gè)通信路徑,在初始化的過程會(huì)自動(dòng)感知拓?fù)洳⒂?jì)算最佳的通信路徑。為了更好的利用帶寬和網(wǎng)卡實(shí)現(xiàn)并發(fā)通信,NCCL會(huì)使用多channel。NCCL-test運(yùn)行日志里列出了16組channel如下:

**代碼語言:**javascript

復(fù)制

### ChannelNum:16
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 00/16 :    0   7   5   6   4   3   1   2   8  15  13  14  12  11   9  10
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 01/16 :    0   7   5   6   4   3   1  10   8  15  13  14  12  11   9   2
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 02/16 :    0   7   5   6  12  11   9  10   8  15  13  14   4   3   1   2
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 03/16 :    0   7   5  14  12  11   9  10   8  15  13   6   4   3   1   2
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 04/16 :    0   7   5   6   4   3   1   2   8  15  13  14  12  11   9  10
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 05/16 :    0   7   5   6   4   3   1  10   8  15  13  14  12  11   9   2
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 06/16 :    0   7   5   6  12  11   9  10   8  15  13  14   4   3   1   2
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 07/16 :    0   7   5  14  12  11   9  10   8  15  13   6   4   3   1   2
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 08/16 :    0   7   5   6   4   3   1   2   8  15  13  14  12  11   9  10
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 09/16 :    0   7   5   6   4   3   1  10   8  15  13  14  12  11   9   2
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 10/16 :    0   7   5   6  12  11   9  10   8  15  13  14   4   3   1   2
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 11/16 :    0   7   5  14  12  11   9  10   8  15  13   6   4   3   1   2
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 12/16 :    0   7   5   6   4   3   1   2   8  15  13  14  12  11   9  10
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 13/16 :    0   7   5   6   4   3   1  10   8  15  13  14  12  11   9   2
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 14/16 :    0   7   5   6  12  11   9  10   8  15  13  14   4   3   1   2
    bm-2204kzq:252978:253054 [0] NCCL INFO Channel 15/16 :    0   7   5  14  12  11   9  10   8  15  13   6   4   3   1   2

Device map 顯示 Rank #0-7、#8-15在同一服務(wù)器

**代碼語言:**javascript

復(fù)制

### Device maps
    ## GPU map
        #  Rank  0 Group  0 Pid 252978 on bm-2204kzq device  0 [0x0f] NVIDIA H20
        #  Rank  1 Group  0 Pid 252979 on bm-2204kzq device  1 [0x34] NVIDIA H20
        #  Rank  2 Group  0 Pid 252980 on bm-2204kzq device  2 [0x48] NVIDIA H20
        #  Rank  3 Group  0 Pid 252981 on bm-2204kzq device  3 [0x5a] NVIDIA H20
        #  Rank  4 Group  0 Pid 252982 on bm-2204kzq device  4 [0x87] NVIDIA H20
        #  Rank  5 Group  0 Pid 252983 on bm-2204kzq device  5 [0xae] NVIDIA H20
        #  Rank  6 Group  0 Pid 252984 on bm-2204kzq device  6 [0xc2] NVIDIA H20
        #  Rank  7 Group  0 Pid 252985 on bm-2204kzq device  7 [0xd7] NVIDIA H20
        #  Rank  8 Group  0 Pid 253834 on bm-2204qhn device  0 [0x0f] NVIDIA H20 
        #  Rank  9 Group  0 Pid 253835 on bm-2204qhn device  1 [0x34] NVIDIA H20 
        #  Rank 10 Group  0 Pid 253836 on bm-2204qhn device  2 [0x48] NVIDIA H20 
        #  Rank 11 Group  0 Pid 253837 on bm-2204qhn device  3 [0x5a] NVIDIA H20 
        #  Rank 12 Group  0 Pid 253838 on bm-2204qhn device  4 [0x87] NVIDIA H20 
        #  Rank 13 Group  0 Pid 253839 on bm-2204qhn device  5 [0xae] NVIDIA H20
        #  Rank 14 Group  0 Pid 253840 on bm-2204qhn device  6 [0xc2] NVIDIA H20
        #  Rank 15 Group  0 Pid 253841 on bm-2204qhn device  7 [0xd7] NVIDIA H20

結(jié)合每個(gè)channel的具體路徑信息(詳見文末),在所有16條channel下的機(jī)間流量僅有以下8種固定的rank組合:10-0、2-8、1-10、9-2、6-12、14-4、5-14、13-6,對應(yīng)的,產(chǎn)生通信的網(wǎng)卡有且僅有:

**代碼語言:**javascript

復(fù)制


優(yōu)化前性能不佳的原因是: 所有跨節(jié)點(diǎn)的并行流量都需跨交換機(jī)在四條互聯(lián)鏈路上[負(fù)載均衡],而現(xiàn)有的ECMP負(fù)載均衡對大流不夠友好,形成了性能瓶頸。

所以在設(shè)計(jì)Scale-out網(wǎng)絡(luò)拓?fù)涞臅r(shí)候,我們應(yīng)讓集群內(nèi)所有同軌道的網(wǎng)卡連接在一臺(tái)交換機(jī)上,使集群性能達(dá)到最優(yōu)。

按此方式調(diào)整后,測得單機(jī)四卡模式跨RoCE交換機(jī)(CX732Q-N)的總線帶寬與網(wǎng)卡直連數(shù)值相近,約195GB/s。


更多內(nèi)容請參考:

https://asterfusion.com/

https://mp.weixin.qq.com/s/HHCxpaidUfAZwH6G6PwmKg

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7553

    瀏覽量

    88727
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30728

    瀏覽量

    268880
  • SCALE
    +關(guān)注

    關(guān)注

    3

    文章

    14

    瀏覽量

    14059
收藏 人收藏

    評論

    相關(guān)推薦

    請問,多個(gè)while循環(huán)該怎么做運(yùn)行日志呢?

    1個(gè)while循環(huán)里面的事件好像可以用移位寄存器做個(gè)運(yùn)行日志可是多個(gè)while循環(huán)應(yīng)該怎么把里面的發(fā)生的事件穿插到整個(gè)程序的運(yùn)行日志中呢?
    發(fā)表于 09-18 09:18

    如何去實(shí)現(xiàn)嵌入式linux設(shè)備中應(yīng)用運(yùn)行日志

    嵌入式linux設(shè)備中應(yīng)用運(yùn)行日志的實(shí)現(xiàn)最近在做一個(gè)項(xiàng)目時(shí),需要記錄設(shè)備運(yùn)行中情況,以方便對故障進(jìn)行跟蹤定位,完善.所以決定采用記錄程序運(yùn)行日志,經(jīng)過在網(wǎng)上搜索,采用Log4cplus+BOA方案
    發(fā)表于 11-04 08:24

    車載網(wǎng)絡(luò)FlexRay拓?fù)?/b>結(jié)構(gòu)的優(yōu)化

    車載網(wǎng)絡(luò)FlexRay 拓?fù)?/b>結(jié)構(gòu)的優(yōu)化 網(wǎng)絡(luò)拓?fù)?/b>結(jié)構(gòu)對于汽車安全系統(tǒng)有著重要的影響。該文從新型FlexRay 線控剎車
    發(fā)表于 10-24 14:57 ?36次下載

    芯片驗(yàn)證分析及測試流程優(yōu)化技術(shù)

    以失效分析的數(shù)據(jù)作為基本數(shù)據(jù)結(jié)構(gòu),提出了測試項(xiàng)目有效性和測試項(xiàng)目耗費(fèi)時(shí)間的折中作為啟發(fā)信息的優(yōu)化算法,提出了 芯片驗(yàn)證 分析及測試流程優(yōu)化
    發(fā)表于 06-29 17:58 ?97次下載
    芯片<b class='flag-5'>驗(yàn)證</b><b class='flag-5'>分析</b>及測試流程<b class='flag-5'>優(yōu)化</b>技術(shù)

    對于大規(guī)模系統(tǒng)日志日志模式提煉算法的優(yōu)化

    LARGE框架是部署在中國科學(xué)院超級計(jì)算環(huán)境中的日志分析系統(tǒng),通過日志收集、集中分析、結(jié)果反饋等步驟對環(huán)境中的各種日志文件進(jìn)行監(jiān)控和
    發(fā)表于 11-21 14:54 ?7次下載
    對于大規(guī)模系統(tǒng)<b class='flag-5'>日志</b>的<b class='flag-5'>日志</b>模式提煉算法的<b class='flag-5'>優(yōu)化</b>

    基于互惠能力的對等網(wǎng)絡(luò)拓?fù)?/b>優(yōu)化算法

    。它從節(jié)點(diǎn)自身能力和外部環(huán)境因素兩個(gè)方面來計(jì)算節(jié)點(diǎn)的互惠能力,在此基礎(chǔ)上對非結(jié)構(gòu)化對等網(wǎng)絡(luò)拓?fù)?/b>結(jié)構(gòu)進(jìn)行優(yōu)化。分析與實(shí)驗(yàn)結(jié)果表明,該拓?fù)?/b>
    發(fā)表于 11-29 17:27 ?0次下載

    基于Hadoop與聚類分析網(wǎng)絡(luò)日志分析模型

    針對海量web日志數(shù)據(jù)在存儲(chǔ)和計(jì)算方面存在的問題,結(jié)合當(dāng)前的大數(shù)據(jù)技術(shù),提出一種基于Hadoop與聚類分析網(wǎng)絡(luò)日志分析模型。利用Hadoop中的MapReduce編程模型對海量Web
    發(fā)表于 12-07 15:40 ?0次下載
    基于Hadoop與聚類<b class='flag-5'>分析</b>的<b class='flag-5'>網(wǎng)絡(luò)日志</b><b class='flag-5'>分析</b>模型

    人類互作網(wǎng)絡(luò)拓?fù)?/b>模塊分析

    鑒于網(wǎng)絡(luò)醫(yī)學(xué)中尚未有對疾病分類與功能蛋白模塊功能同質(zhì)性分析之間關(guān)系的研究,展開以下研究工作:首先,利用Mesh、String9等數(shù)據(jù)庫中的數(shù)據(jù)構(gòu)建了基因關(guān)系網(wǎng)絡(luò);其次,采用基于優(yōu)化模塊
    發(fā)表于 12-13 16:11 ?11次下載
    人類互作<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>拓?fù)?/b>模塊<b class='flag-5'>分析</b>

    局部拓?fù)?/b>控制的網(wǎng)絡(luò)路由方法

    代價(jià)最小的局部認(rèn)知拓?fù)?/b>控制路由(LCTCR)算法,優(yōu)化網(wǎng)絡(luò)拓?fù)?/b>,并在優(yōu)化后的拓?fù)?/b>上進(jìn)行
    發(fā)表于 02-11 10:17 ?0次下載

    無線傳感器網(wǎng)絡(luò)簇級拓?fù)?/b>模型的演化分析研究資料

    網(wǎng)絡(luò)簇級拓?fù)?/b>演化模型;拓?fù)?/b>動(dòng)態(tài)分析表明,該模型能夠很好地體現(xiàn)無線傳感器簇間的拓?fù)?/b>生長過程,由該模型演化成的無線
    發(fā)表于 11-29 14:29 ?9次下載
    無線傳感器<b class='flag-5'>網(wǎng)絡(luò)</b>簇級<b class='flag-5'>拓?fù)?/b>模型的演化<b class='flag-5'>分析</b>研究資料

    嵌入式linux設(shè)備中應(yīng)用運(yùn)行日志的實(shí)現(xiàn)

    嵌入式linux設(shè)備中應(yīng)用運(yùn)行日志的實(shí)現(xiàn)? ? ? 最近在做一個(gè)項(xiàng)目時(shí),需要記錄設(shè)備運(yùn)行中情況,以方便對故障進(jìn)行跟蹤定位,完善.所以決定采用記錄程序運(yùn)行日志,經(jīng)過在網(wǎng)上搜索,采用
    發(fā)表于 11-01 17:22 ?8次下載
    嵌入式linux設(shè)備中應(yīng)用<b class='flag-5'>運(yùn)行日志</b>的實(shí)現(xiàn)

    使用NCCL 2.12將所有all2all性能翻倍

    NCCL 2.12 版本顯著提高了所有 2 所有通信集體性能。 Download 最新的 NCCL 版本,并親身體驗(yàn)改進(jìn)后的性能。
    的頭像 發(fā)表于 04-02 14:12 ?6154次閱讀
    使用<b class='flag-5'>NCCL</b> 2.12將所有all2all性能翻倍

    針對大量log日志快速定位錯(cuò)誤地方

    查看服務(wù)器、應(yīng)用運(yùn)行日志,這是每個(gè)程序員必備的工作技能,因?yàn)椋?b class='flag-5'>日志是最好的查找出錯(cuò)問題在哪的途徑。如果當(dāng)服務(wù)器爆了,你卻連如何定位錯(cuò)誤都不知道?
    的頭像 發(fā)表于 03-20 09:22 ?861次閱讀

    ZnGeP2的本征缺陷計(jì)算之PREPARE模塊運(yùn)行流程

    新建目錄ZnGeP2,在./ZnGeP2/目錄內(nèi)同時(shí)準(zhǔn)備好以上的POSCAR文件與 dasp.in 文件,執(zhí)行 dasp 1 ,即可啟動(dòng)PREPARE模塊,此后無需額外操作。DASP會(huì)輸出 1prepare.out 文件記錄程序的運(yùn)行日志。
    的頭像 發(fā)表于 05-19 10:29 ?537次閱讀
    ZnGeP2的本征缺陷計(jì)算之PREPARE模塊<b class='flag-5'>運(yùn)行</b>流程

    ZnGeP2的本征缺陷計(jì)算之DEC模塊運(yùn)行流程

    確認(rèn)TSC模塊完成后,回到ZnGeP2目錄,使用命令 dasp 3 執(zhí)行DEC模塊。DEC模塊會(huì)在第一步已經(jīng)生成的dec目錄中繼續(xù)輸出相關(guān)文件,包括缺陷結(jié)構(gòu),缺陷計(jì)算目錄,以及運(yùn)行日志文件 3dec.out 。等待程序完成期間無需額外操作。
    的頭像 發(fā)表于 05-19 10:32 ?629次閱讀
    ZnGeP2的本征缺陷計(jì)算之DEC模塊<b class='flag-5'>運(yùn)行</b>流程

    RM新时代网站-首页