建云购网站,广州建筑集团官网首页,游戏企业用什么程序做网站,番禺网站开发技术目录
1. 概述
2. 常规矩阵乘法
3. 数据依赖性和内存访问模式
4. 优化循环
5. 总结 1. 概述
Initiation Interval#xff08;II#xff09;定义为启动连续操作之间的时间间隔#xff0c;以时钟周期为单位。低的II是高性能和高资源利用率的关键。
较高的II意味着在单位…目录
1. 概述
2. 常规矩阵乘法
3. 数据依赖性和内存访问模式
4. 优化循环
5. 总结 1. 概述
Initiation IntervalII定义为启动连续操作之间的时间间隔以时钟周期为单位。低的II是高性能和高资源利用率的关键。
较高的II意味着在单位时间内完成的操作数量减少从而降低了整体的吞吐量部分硬件资源如加法器、乘法器等会闲置没有被充分利用。 2. 常规矩阵乘法
矩阵乘法定义如下 前两层循环遍历所有元素第三层循环用于元素累加乘代码如下
for (int i 0; i size; i)
{for (int j 0; j size; j){for (int k 0; k MAX_SIZE; k){int result (k 0) ? 0 : temp_sum[j];result A[i][k] * B[k][j];temp_sum[j] result;if (k size -1) C[i][j] result;}}
}
对于矩阵A和矩阵B的乘积每个输出元素C[i][j]是通过将A矩阵的第i行与B矩阵的第j列对应元素相乘然后加总得到的这意味着在计算C[i][j]的每个元素时都需要访问A[i][k]和B[k][j]。 3. 数据依赖性和内存访问模式
由于B矩阵的访问是按列进行的这不是连续的内存访问会导致缓存利用率低下。
同时HLS编译器会构建一个加法器树来逐步累加每次乘法的结果。由于每次循环迭代都依赖于前一次的结果也会导致较高的Initiation IntervalII。
-----------------------------------------------------------------------------------------
| | Latency (cycles) | Iteration| Initiation Interval | Trip | |
| Loop Name | min | max | Latency | achieved | target | Count| Pipelined|
-----------------------------------------------------------------------------------------
|- lreorder1_lreorder2 | ?| ?| 33| 32| 1| ?| yes|
----------------------------------------------------------------------------------------- 从编译器反馈的结果来看II32每32个时钟周期就可以启动一个新的迭代。 Utilization Estimates* Summary:
-----------------------------------------------------
| Name | BRAM_18K| DSP | FF | LUT | URAM|
-----------------------------------------------------
|DSP | -| -| -| -| -|
|Expression | -| -| 0| 1813| -|
|FIFO | -| -| -| -| -|
|Instance | -| 96| 0| 5376| -|
|Memory | -| -| -| -| -|
|Multiplexer | -| -| -| 10137| -|
|Register | -| -| 2302| -| -|
-----------------------------------------------------
|Total | 0| 96| 2302| 17326| 0|
-----------------------------------------------------
|Available | 288| 1248| 234240| 117120| 64|
-----------------------------------------------------
|Utilization (%) | 0| 7| ~0| 14| 0|
----------------------------------------------------- 对于这些硬件资源它们在大部分时间内处于空闲状态硬件的潜在计算能力没有得到充分发挥。 4. 优化循环 优化后的代码
for (int i 0; i size; i) {for (int k 0; k size; k) {for (int j 0; j size; j) {int result (k 0) ? 0 : temp_sum[j];result A[i][k] * B[k][j];temp_sum[j] result;if (k size - 1) C[i][j] result;}}
}通过将k循环移到中间层改变了内存访问的模式。现在对B[k][j]的访问变得连续因为j循环是最内层。
同时由于result的计算不再依赖于k循环的前一次迭代结果因此可以减少依赖性。
-----------------------------------------------------------------------------------------
| | Latency (cycles) | Iteration| Initiation Interval | Trip | |
| Loop Name | min | max | Latency | achieved | target | Count| Pipelined|
-----------------------------------------------------------------------------------------
|- lreorder1_lreorder2 | 1024| 1024| 2| 1| 1| 1024| yes|
----------------------------------------------------------------------------------------- 同时减少了资源占用 Utilization Estimates* Summary:
-----------------------------------------------------
| Name | BRAM_18K| DSP | FF | LUT | URAM|
-----------------------------------------------------
|DSP | -| -| -| -| -|
|Expression | -| -| 0| 2593| -|
|FIFO | -| -| -| -| -|
|Instance | -| 96| 0| 640| -|
|Memory | -| -| -| -| -|
|Multiplexer | -| -| -| 54| -|
|Register | -| -| 1190| -| -|
-----------------------------------------------------
|Total | 0| 96| 1190| 3287| 0|
-----------------------------------------------------
|Available | 288| 1248| 234240| 117120| 64|
-----------------------------------------------------
|Utilization (%) | 0| 7| ~0| 2| 0|
----------------------------------------------------- 5. 总结
循环重排优化了内存访问模式减少了数据依赖性使得硬件能够更有效地并行处理计算从而提高了执行效率。II从32降低到了1。