正在加载图片...
Stalls数最小的循环展开 1Lo。p:LDF0,0(R1) LD F6,-8(R1) F10,-16(R1) 2345678901 LDF14,24(R 代码移动后 ADDD F4F0F2 SD移动到SUB|后,注意偏移量 ADDD F8.F6F2 的修改 ADDD F12F10F2 · Loads移动到SD前,注意偏移量 ADDD F16F14.F2 的修改 SD0(R1),F4 SD8(R1),F8 sUB|R1,R1,#32 12 SD 16(R1),F12 13 BNEZ R1LOOP 14 SD 8(R1)F16 8-32=-24 14 clock cycles, or 3. 5 per iteration 计算机体系结构• 代码移动后 • SD移动到SUBI后,注意偏移量 的修改 • Loads移动到SD前,注意偏移量 的修改 1 Loop: LD F0,0(R1) 2 LD F6,-8(R1) 3 LD F10,-16(R1) 4 LD F14,-24(R1) 5 ADDD F4,F0,F2 6 ADDD F8,F6,F2 7 ADDD F12,F10,F2 8 ADDD F16,F14,F2 9 SD 0(R1),F4 10 SD -8(R1),F8 11 SUBI R1,R1,#32 12 SD 16(R1),F12 13 BNEZ R1,LOOP 14 SD 8(R1),F16 ; 8-32 = -24 14 clock cycles, or 3.5 per iteration 2021/2/7 计算机体系结构 15 Stalls数最小的循环展开
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有