新时代手机平台官网,RM新时代正规平台入口

Rust以其獨特的安全性、速度和并發(fā)性組合而迅速流行。但是與其它任何語言一樣，要充分利用Rust需要的不僅僅是理解它的語法和習慣用法——還需要深入了解如何有效地利用和優(yōu)化它的編譯器。

為了說明這一點，我們設計了一個實際用例——一個Ac tix Web應用程序中的矩陣乘法任務。這種cpu密集型操作為分析各種編譯器優(yōu)化提供了一個完美的場景。

隨著實驗的深入，我們將調整Cargo.toml文件的設置。利用特定的構建標志，甚至交換內存分配器。通過測量每次更改對性能的影響，我們將對Rust的編譯器優(yōu)化有一個全面的了解。

實際用例

我們使用Actix Web開發(fā)了一個緊湊的應用程序，具有唯一的路由/matrix-multiplication。這個接口接收一個JSON數(shù)據(jù)，帶有一個屬性：n。

在接收到請求后，應用程序立即開始行動，動態(tài)地生成兩個大小為n x n的矩陣，在矩陣中隨機填充一些數(shù)據(jù)。然后將這些矩陣相乘在一起，將計算的結果返回給用戶。

新建一個Rust項目：

cargonewcompiler-optimizations

然后在Cargo.toml文件中寫入如下內容：

[dependencies]
anyhow="1.0.71"
actix-web="4.3.1"
dotenv="0.15.0"
serde={version="1.0",features=["derive"]}
serde_json="1.0.96"
log="0.4.17"
env_logger="0.10.0"
serde_derive="1.0.163"
rand="0.8.5"
mimalloc={version="0.1.37",default-features=false}

[profile.release]
lto=true
codegen-units=1
panic="abort"
strip=true

在src/main.rs中寫入如下代碼：

usestd::env;
userand::Rng;

useactix_web::{App,get,post,HttpResponse,HttpServer,middleware,web};
useanyhow::Result;
useserde::{Deserialize,Serialize};

#[global_allocator]
staticGLOBAL:mimalloc::MiMalloc=mimalloc::MiMalloc;

#[derive(Debug,Clone,Serialize,Deserialize)]
structMessage{
pubmessage:String,
}

#[derive(Debug,Clone,Serialize,Deserialize)]
structMatrixSize{
pubn:usize,
}

#[derive(Debug,Clone,Serialize,Deserialize)]
structMatrixResult{
pubmatrix:Vec>,
}

#[get("/healthz")]
asyncfnhealth()->HttpResponse{
HttpResponse::Ok().json(Message{
message:"healthy".to_string(),
})
}

asyncfnnot_found()->HttpResponse{
HttpResponse::NotFound().json(Message{
message:"notfound".to_string(),
})
}

#[post("/matrix-multiplication")]
asyncfnmatrix_multiplication(size:web::Json)->HttpResponse{
letn=size.n;
letmatrix_a=generate_random_matrix(n);
letmatrix_b=generate_random_matrix(n);
letresult=multiply_matrices(&matrix_a,&matrix_b);

HttpResponse::Ok().json(MatrixResult{matrix:result})
}

fngenerate_random_matrix(n:usize)->Vec>{
letmutrng=rand::thread_rng();
(0..n).map(|_|(0..n).map(|_|rng.gen_range(0..nasi32)).collect()).collect()
}

fnmultiply_matrices(matrix_a:&Vec>,matrix_b:&Vec>)->Vec>{
leta_rows=matrix_a.len();
leta_cols=matrix_a[0].len();
letb_cols=matrix_b[0].len();

letmutresult=vec![vec![0;b_cols];a_rows];

foriin0..a_rows{
forjin0..b_cols{
forkin0..a_cols{
result[i][j]+=matrix_a[i][k]*matrix_b[k][j];
}
}
}

result
}

#[actix_web::main]
asyncfnmain()->Result<()>{
env_logger::new().default_filter_or("info"));
letport=env::var("PORT").unwrap_or_else(|_|"8080".to_string());

HttpServer::new(move||{
App::new()
.wrap(middleware::default())
.service(health)
.service(matrix_multiplication)
.default_service(web::route().to(not_found))
})
.bind(format!("0.0.0.0:{}",port))?
.run()
.await.expect("failedtorunserver");

Ok(())
}

優(yōu)化設置

1，Cargo.toml配置文件配置了-[profile.release]部分，用于調整優(yōu)化性能。我們使用了以下優(yōu)化設置：

lto = true：用于啟用鏈路時間優(yōu)化;

codegen-units = 1：即在整個crate中使用最高級別優(yōu)化;

panic = "abort"：發(fā)生panic時調用abort而不是unwind；

strip = true：通過移除debug符號來減小二進制大小。

2，構建標識——通過設置RUSTFLAGS= " -c target-cpu=native "，我們可以確保編譯器根據(jù)機器的特定架構來優(yōu)化構建。

3，備用內存分配器——我們還嘗試了mimalloc內存分配器，對于某些工作負載，它可以提供比默認分配器更好的性能特征。

測試

為了對Actix Web API進行負載測試，我們將使用一個功能強大但輕量級的工具——Drill。

為了模擬高負載，我們的測試參數(shù)將包括兩個場景中的500個并發(fā)請求——一個有10,000次迭代，另一個有20,000次迭代。這實際上分別達到了50,000和100,000個請求。

測試將在各種配置下進行，以獲得全面的性能視圖，如下所列：

1，cargo run ：構建一個沒有任何優(yōu)化的開發(fā)版本(標記為“D”)。

2，cargo run --release：構建一個沒有任何優(yōu)化的發(fā)布版本(標記為“R”)。

3，RUSTFLAGS="-C target-cpu=native" cargo run --release：根據(jù)機器的特定架構來優(yōu)化構建一個發(fā)布版本，(標記為“ROpt”)。

4，與上一個命令一樣，但是在代碼中采用了MimAlloc的內存分配器(表示為'ROptMimAlloc')。

結果

|BuildType|TotalTime(s)|Requestspersecond|
|---|---|---|
|DevBuildUnoptimized50k|71.3|701.45|
|ReleaseBuildUnoptimized50k|27.0|1849.95|
|ReleaseBuildOptimized(flags)50k|25.8|1937.80|
|ReleaseBuildOptimized(flags+mimalloc)50k|26.7|1873.65|
|ReleaseBuildUnoptimized100k|52.1|1918.27|
|ReleaseBuildOptimized(flags)100k|51.7|1934.59|
|ReleaseBuildOptimized(flags+mimalloc)100k|51.1|1955.07|

從50k請求測試開始，未優(yōu)化的開發(fā)構建每秒能夠處理大約701.45個請求，但是當代碼在發(fā)布模式下編譯時，每秒的請求飆升到1849.95個。這展示了Rust編譯器在從開發(fā)模式切換到發(fā)布模式時所產生的顯著差異。

使用針對本機CPU架構的構建標志添加優(yōu)化，進一步提高了性能，達到每秒1937.80個請求。

當我們加入mimalloc(備用內存分配器)時，每秒請求數(shù)略微下降到1873.65。這表明，雖然mimalloc可以提高內存使用效率，但它不一定能在每個場景中都能提高請求處理速度。

轉到100k個請求測試，有趣的是，未優(yōu)化版本和優(yōu)化版本之間的性能差異不那么明顯。未優(yōu)化的版本實現(xiàn)了每秒1918.27個請求，而優(yōu)化的版本(帶和不帶mimalloc)分別達到了每秒1934.59和1955.07個請求。

這表明，當處理大量請求時，我們優(yōu)化的影響變得不那么明顯。盡管如此，即使在更重的負載下，構建優(yōu)化仍然能提供最佳性能。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

接口

接口

+關注

關注
33

文章
8575

瀏覽量
151014
應用程序

應用程序

+關注

關注
37

文章
3265

瀏覽量
57677
編譯器

編譯器

+關注

關注
1

文章
1623

瀏覽量
49107
Rust

Rust

+關注

關注
1

文章
228

瀏覽量
6599

原文標題：最大化Rust性能：編譯器優(yōu)化的比較分析

文章出處：【微信號：Rust語言中文社區(qū)，微信公眾號：Rust語言中文社區(qū)】歡迎添加關注！文章轉載請注明出處。

使用Rust優(yōu)化Python性能

在數(shù)據(jù)分析領域Python無疑是最流行的編程語言，但是Python有一個硬傷就是作為一個編譯語言在性能上有些微的欠缺。而同樣最流行的語言Rust則在

發(fā)表于 11-01 15:59 ?897次閱讀

性能最大化Δ-Σ 轉換器

時鐘和PGA 的調整，相同數(shù)據(jù)速率在性能方面會有所不同。在優(yōu)化數(shù)據(jù)轉換結果時，對于這些方方面面做到完全了解并非易事。另外一些問題還包括輸入阻抗、濾波器響應、抗混疊，以及長期漂移。性能

發(fā)表于 10-21 11:24

[轉]LabVIEW實現(xiàn)窗口最大化和最小化

分享VI程序代碼名稱:LabVIEW實現(xiàn)窗口最大化和最小化適用平臺:LabVIEW8.2.x LabVIEW8.5代碼作者:LaRisa_S 版權所有:LaRisa_S 原創(chuàng)/轉載:轉載代碼

發(fā)表于 03-08 14:56

如何使應用程序開機運行最大化

我現(xiàn)在生成一個應用程序并開機啟動了，但是如何啊能讓他啟動是最大化顯示呢現(xiàn)在一開機啟動不是最大化啊。。。。。。很苦惱啊，希望大家指點

發(fā)表于 05-11 20:57

如何實現(xiàn)能源效率最大化？

如何設計智能燃氣表和水表實現(xiàn)能源效率最大化？

發(fā)表于 05-13 07:18

怎樣去實現(xiàn)OTDR/iOLM長期性能的最大化？

怎樣去實現(xiàn)OTDR/iOLM長期性能的最大化？

發(fā)表于 05-24 07:15

SIMD計算機的優(yōu)化編譯器設計

利用處理器的相關資源，提高編譯器優(yōu)化性能和增強代碼可適應性是SIMD處理器優(yōu)化編譯的關鍵。該文基

發(fā)表于 04-03 08:47 ?30次下載

最大化自動化測試系統(tǒng)的精度

最大化自動化測試系統(tǒng)的精度引言在設計自動化測試系統(tǒng)時，精度的最大化通常是關鍵的考慮因素。確定如何最大化精度總是很困難

發(fā)表于 06-13 15:02 ?714次閱讀

編譯器_keil的優(yōu)化選項問題

keil編譯器的優(yōu)化選項針對ARM，對STM32編譯的一些優(yōu)化的問題

發(fā)表于 02-25 14:18 ?3次下載

編譯器優(yōu)化對函數(shù)的影響

編譯器如gcc，可以指定不同的優(yōu)化參數(shù)，在某些條件下，有些函數(shù)可能會被優(yōu)化掉。

發(fā)表于 06-22 14:58 ?2827次閱讀

社交網(wǎng)絡影響力最大化算法及研究綜述

社交網(wǎng)絡影響力最大化算法及研究綜述

發(fā)表于 06-02 14:36 ?6次下載

基于互信息最大化的Raptor碼優(yōu)化設計方法

基于互信息最大化的Raptor碼優(yōu)化設計方法

發(fā)表于 07-02 11:47 ?8次下載

最大化Rust性能：編譯器優(yōu)化的比較分析

Rust以其獨特的安全性、速度和并發(fā)性組合而迅速流行。

發(fā)表于 05-29 15:31 ?1501次閱讀

編譯器的優(yōu)化選項

一個程序首先要保證正確性，在保證正確性的基礎上，性能也是一個重要的考量。要編寫高性能的程序，第一，必須選擇合適的算法和數(shù)據(jù)結構；第二，應該編寫編譯器能夠有效優(yōu)化以轉換成高效可執(zhí)行代碼的

發(fā)表于 11-24 15:37 ?889次閱讀

TVM編譯器的整體架構和基本方法

。但是這其中也去思考了一下基于FPGA加速器的編譯器架構。在FPGA深度學習加速器中，編譯器除了需要自動化生成指令外，還要優(yōu)化指令的結構，來

發(fā)表于 11-30 09:36 ?2395次閱讀