Rust编程性能优化技巧

写ref="/tag/2030/" style="color:#EB6E00;font-weight:bold;">Rust代码的时候，很多人一开始都被它的安全性和并发能力吸引。但真正用到项目里，尤其是对性能敏感的场景，比如图形渲染、高频交易系统或者嵌入式显示驱动，光是“不崩溃”可不够，还得跑得快。

减少不必要的内存分配

字符串拼接是个常见坑。比如你在处理一连串像素数据时，频繁用 + 拼接字符串，每次都会触发堆分配。这时候改用 String::with_capacity 预留空间，能省下不少时间。

let mut buf = String::with_capacity(1024);
for pixel in pixels {
    buf.push_str(&format!("({}, {}, {})", pixel.r, pixel.g, pixel.b));
}

比起每次都新建 String，提前规划容量能让程序在处理高清帧数据时更稳。

善用引用传递

函数传参时，别动不动就克隆整个结构体。特别是处理图像矩阵这种大对象，直接传 &Mat 比传 Mat 快得多。Rust的借用机制就是干这个的，不用白不用。

fn process_frame(frame: &[u8; 1920*1080*3]) -> u32 {
    // 直接读取原始数据，无需复制
    frame.iter().filter(|&b| *b > 128).count() as u32
}

避免运行时边界检查

循环里频繁访问数组，比如遍历像素点调色，slice[i] 默认会做边界检查。如果确定索引安全，换成 get_unchecked 能去掉这层开销，尤其在 tight loop 里效果明显。

unsafe {
    for i in 0..data.len() {
        *data.get_unchecked_mut(i) = data.get_unchecked(i).saturating_add(10);
    }
}

当然，unsafe 要慎用，但在底层图像处理这种对延迟极度敏感的地方，权衡之后值得。

内联关键函数

小函数被高频调用时，函数调用本身的开销会累积。加上 #[inline] 提示编译器内联，让代码平铺执行，LLVM很多时候能进一步优化。

#[inline]
fn rgb_to_grayscale(r: u8, g: u8, b: u8) -> u8 {
    (r as f32 * 0.3 + g as f32 * 0.59 + b as f32 * 0.11) as u8
}

利用零成本抽象

Rust的迭代器看起来高级，但用得好完全不拖慢速度。比如你想对一批传感器数据做滤波，写成链式调用不仅清晰，Release模式下还能被优化成和手写for循环一样的机器码。

let avg: f32 = readings.iter()
    .filter(|&x| *x > 0.0)
    .sum::<f32>() / readings.len() as f32;

别因为担心性能就放弃语法糖，Rust的设计哲学之一就是：写起来爽，跑起来也快。

编译优化别忽略

默认的 dev 配置不激进，发布前记得在 Cargo.toml 里打开 LTO 和 panic 策略优化。

[profile.release]
lto = true
panic = "abort"
opt-level = "s"