此芯p1开发板使用OpenHarmony时llama.cpp不同优化速度对比(GPU vs CPU)

离北况归

48人浏览 · 2025-08-07 18:08:08

离北况归 · 2025-08-07 18:08:08 发布

硬件环境

Cix P1 SoC 瑞莎星睿 O6 开发板 + rx580显卡
- 产品介绍： https://docs.radxa.com/orion/o6/getting-started/introduction
OpenHarmony 5.0.0

使用vulkan后端的llama.cpp （GPU）

# ./llama-bench -m /data/qwen1_5-0_5b-chat-q2_k.gguf -ngl 100
ggml_vulkan: Found 1 Vulkan devices:
ggml_vulkan: 0 = AMD Radeon RX 580 2048SP (RADV POLARIS10) (radv) | uma: 0 | fp16: 0 | bf16: 0 | warp size: 64 | shared memory                                : 65536 | int dot: 0 | matrix cores: none
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | Vulkan     | 100 |           pp512 |       2425.55 ± 2.33 |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | Vulkan     | 100 |           tg128 |        136.98 ± 7.70 |

build: unknown (0)

此时可以观察到 rx580的状态，接近满载。理论上插一张rx7900 xtx 24G也可以的，可惜笔者囊中羞涩。

纯cpu跑

# ./llama-bench -m /data/qwen1_5-0_5b-chat-q2_k.gguf
| model                          |       size |     params | backend    | threads |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | --------------: | -------------------: |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | CPU        |      12 |           pp512 |        138.70 ± 0.36 |
| qwen2 0.5B Q2_K - Medium       | 278.92 MiB |   619.57 M | CPU        |      12 |           tg128 |          8.41 ± 0.22 |

build: unknown (0)

结论

GPU 优势显著：Vulkan 后端在端侧推理中实现 16–17 倍加速，尤其适合高吞吐任务。

欢迎加入Laval社区

社区规范：仅讨论OpenHarmony相关问题。

更多推荐

openharmony以太网网卡驱动剖析

Linux网络设备驱动架构驱动架构自上而下分为4层：协议接口层设备接口层设备驱动功能层网络设备与媒介层协议接口层协议接口层主要功能是给上层协议提供接收和发送的接口。当内核协议栈需要发送数据时，会通过调用 dev_queue_xmit 函数来发送数据。 dev_queue_xmit执行流程同样内核协议栈接收数据

Laval社区

常见的JS error问题总结

TypeError类表示变量或者参数不是预期的类型，大概率变量或者参数赋值时候异常，导致为underfind类型了，如对非对象类型使用对象方法underfind.method()。可以检查报错的变量或者参数赋值时候否异常。应用规避处理方法：判空处理，若为空，进行一些逻辑处理，或者再次赋值或者拿默认值等等使用可选链运算符（?.）访问的对象或调用的函数是undefined或null，则表达式

Laval社区

【招聘】【证通电子】驱动开发工程师

驱动开发工程师（15-30K 深圳）岗位职责: 1、负责产品底层驱动适配，驱动开发，模块性能调优； 2、困难问题攻关，对关键问题提出系统级的解决方案; 3、配合系统需求定制，功能开发及维护; 4、可根据个人特长和发展意向进行分配。 5、主导终端嵌入式软件技术方案的设计和编写，参与硬件方案设计、评审；任职要求: 1、精通C/C++，精通MCU/SOC模块工作原理（LCD、SPI、UART、IIC