计算机系统结构总复习题 - 图文

更新时间：2024-04-15 05:51:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

计算机组成与系统结构推荐度：
相关推荐

河南科技大学电信学院计算机系统结构期末试题总结

一、单项选择题

1、直接执行微指令的是( C )

A．汇编程序 B．编译程序 C．硬件 D．微指令程序 2、对系统程序员不透明的应当是( D )。

A．Cache存贮器 B．系列机各档不同的数据通路宽度 C．指令缓冲寄存器 D．虚拟存贮器 3、对机器语言程序员透明的是( B )。

A．中断字 B．主存地址寄存器 C．通用寄存器 D．条件码 4、计算机系统结构不包括( A )。

A．主存速度 B．机器工作状态 C．信息保护 D．数据

5、从计算机系统结构上讲，机器语言程序员所看到的机器属性是( C )。 A．计算机软件所要完成的功能 B．计算机硬件的全部组成 C．编程要用到的硬件组织 D．计算机各部件的硬件实现 6、计算机组成设计不考虑( B )。

A．专用部件设置 B．功能部件的集成度 C．控制机构的组成 D．缓冲技术 7、以下说法中，不正确的是( B )。

软硬件功能是等效的，提高硬件功能的比例会：

A．提高解题速度 B．提高硬件利用率

C．提高硬件成本 D．减少所需要的存贮器用量 8、在系统结构设计中，提高软件功能实现的比例会( C )。

A．提高解题速度 B．减少需要的存贮容量 C．提高系统的灵活性 D．提高系统的性能价格比 9、下列说法中不正确的是( D )。

A．软件设计费用比软件重复生产费用高

B．硬件功能只需实现一次，而软件功能可能要多次重复实现 C．硬件的生产费用比软件的生产费用高 D．硬件的设计费用比软件的设计费用低

10、在计算机系统设计中，比较好的方法是( D )。

A．从上向下设计 B．从下向上设计

C．从两头向中间设计 D．从中间开始向上、向下设计 11、\从中间开始\设计的\中间\目前多数是在( A )。

A．传统机器语言级与操作系统机器级之间 B．传统机器语言级与微程序机器级之间 C．微程序机器级与汇编语言机器级之间 D．操作系统机器级与汇编语言机器级之间

12、系列机软件应做到( B )。

A．向前兼容，并向上兼容 B．向后兼容，力争向上兼容 C．向前兼容，并向下兼容 D．向后兼容，力争向下兼容

13、推出系列机的新机器，不能更改的是( A )。

A．原有指令的寻址方式和操作码 B．系统总线的组成 C．数据通路宽度

D．存贮芯片的集成度

14、不同系列的机器之间，实现软件移植的途径不包括( B )。

A．用统一的高级语言 B．用统一的汇编语言 C．模拟 D．仿真

15、利用时间重叠概念实现并行处理的是( A )。

A．流水处理机 B．多处理机 C．并行(阵列)处理机 D．相联处理机

16、浮点数尾数基值rm＝8，尾数数值部分长6位，可表示的规格化最小正尾数为( C )。 A．0.5 B．0.25 C．0.125 D．1/64 17、在尾数下溢处理方法中，平均误差最大的是( A )。

A．截断法 B．舍入法 C．恒置\法 D．ROM查表法

18、浮点数尾数下溢处理时，最大误差最大，但下溢处理不需要时间，平均误差又趋于0的方法是( D )。

A．截断法 B．舍入法 C．ROM查表法 D．恒置\法 19、程序员编写程序时使用的地址是( B )。

A．有效地址 B．逻辑地址 C．辅存实地址 D．主存地址 20、计算机中优化使用的操作码编码方法是( B )。 A 哈夫曼编码 B ASCII码 C BCD码 D 扩展操作码 21、外部设备打印机适合于连接到( B )。

A．数组多路通道 B．字节多路通道 C．选择通道 D．任意一种通道 22、虚拟存储器常用的地址映象方式是（ A ） A．全相联 B．段相联 C．组相联 D．直接

23、下列关于虚拟存贮器的说法，比较证确的应当是( D )。 A．访主存命中率随页面大小增大而提高 B．访主存命中率随主存容量增加而提高 C．更换替换算法能提高命中率

D．在主存命中率低时，改用堆栈型替换算法，并增大主存容量，可提高命中率 24、最能确保提高虚拟存贮器访主存的命中率的改进途径是( D )。 A．增大辅存容量

B．采用FIFO替换算法并增大页面 C．改用LRU替换算法并增大页面 D．改用LRU替换算法并增大页面数

25、Cache存贮器常用的地址映象方式是( C )。

A．全相联映象 B．页表法映象 C．组相联映象 D．段页表映象 26、与全相联映象相比，组相联映象的优点是( A )。 A．目录表小 B．块冲突概率低 C．命中率高 D．主存利用率高 27、下列说法正确的是( D )。

A．Cache容量一般不大，命中率不会很高

B．Cache芯片速度一般比CPU的速度慢数十倍 C．Cache本身速度很快。但地址变换的速度很慢

D．Cache存贮器查映象表和访问物理Cache其间可以流水，使速度与CPU匹配 28、组相联映象、LRU替换的Cache存贮器，不影响Cache命中率的是( C )。 A．增加Cache中的块数 B．增大组的大小 C．增大主存容量 D．增大块的大小 29、块冲突概率最高的Cache地址映象方式是( C )。 A．段相联 B．组相联 C．直接 D．全相联 30、指令间“一次重叠”说法有错的是( B )。 A．仅“执行k”与“分析k+1”重叠 B．“分析k”完成后立即开始“执行k”

C．应尽量使“分析k+1”与“执行k”时间相等 D．只需要一套指令分析部件和执行部件

31、\一次重叠\中消除\指令相关\最好的方法是( A )。 A．不准修改指令 B．设相关专用通路 C．推后分析下条指令 D．推后执行下条指令 32、IBM360/91属于( B )。

A．向量流水机 B．标量流水机 C．阵列流水机 D．并行流水机 33、下列关于标量流水机的说法不正确的是( C )。 A．可对标量数据进行流水处理 B．没有向量数据表示

C．不能对向量数据进行运算 D．可以对向量、数组进行运算 34、以下说法不正确的是( D )。 A．线性流水线是单功能流水线 B．动态流水线是多功能流水线 C．静态流水线是多功能流水线

D．动态流水线只能是单功能流水线 35、静态流水线是指( C )。

A．只有一种功能的流水线 B．功能不能改变的流水线

C．同时只能完成一种功能的多功能流水线 D．可同时执行多种功能的流水线 36、非线性流水线是指( B )。

A．一次运算中使用流水线中的多个功能段

B．一次运算中要多次使用流水线中的某些功能段 C．流水线中某些功能段在各次运算中的作用不同 D．流水线的各个功能段在各种运算中有不同的组合 37、下列说法正确的是( B )。

A．\一次重叠\是一次解释一条指令 B．\一次重叠\是同时解释相邻两条指令 C．流水方式是同时只能解释两条指令 D．\一次重叠\是同时可解释很多条指令

38、与流水线最大吞吐率高低有关的是( C )。

A．各个子过程的时间 B．最快子过程的时间 C．最慢子过程的时间 D．最后子过程的时间 39、在流水机器中，全局性相关是指( D )。

A．先写后读相关 B．先读后写相关

C．指令相关 D．由转移指令引起的相关 40、流水机器对全局性相关的处理不包括( D )。

A．猜测法 B．提前形成条件码 C．加快短循环程序的执行 D．设置相关专用通路 41、CRAY一I的流水线是( A )。

A．多条单功能流水线 B．一条单功能流水线 C．多条多功能流水线 D．一条多功能流水线 42、IBM360/91对指令中断的处理方法是( A )。

A．不精确断点法 B．精确断点法

C．指令复执法 D．对流水线重新调度

二、填空题

1、按照Flynn分类法,根据指令流和数据流的不同组织方式,计算机系统的结构可以分为SISD(单指令流单数据流)、MISD、 MIMD或单指令流多数据流和多指令流多数据流。 2、Amdahl等人在1964年把系统结构定义为：由程序设计者所看到的一个计算机系统的属性，即概念性结构和功能特性。 3、指令系统是软件设计人员与硬件设计人员之间的一个主要分界面，也是他们之间互相沟通的一座桥梁。在计算机系统的设计过程中，指令系统的设计是非常关键的，它必须由软件设计人员和硬件设计人员共同来完成。

4、实现程序移植的主要途径有统一高级语言、系列机、模拟和仿真。 5、系列机软件兼容必须做到向后兼容，尽可能争取向上兼容。

6、开发并行性是为了并行处理，并行性又包括有同时性和并发性二重含义。 7、浮点数尾数基值增大。可使运算中的精度损失减小可表示数的精度变降低。

8、浮点数阶码位数影响数的可表示范围大小，尾数位数影响数的可表示精度大小。

9、设计指令系统时，在功能方面的基本要求是：指令系统的完整性、规整性、高效率和兼容性。

10、根据多台外围设备共享通道的不同情况，可将通道分为三种类型：字节多路通道、选择通道和数组多路通道。

11、输入输出设备的异步性、实时性、与设备无关性三个特点是现代计算机系统必须具备的共同特性。

12、评价存贮器性能的基本要求是大容量、高速度和低价格。 13、虚拟存贮器主要是为解决主存容量满足不了要求发展出来的。 14、Cache存贮器是为解决主存速度满足不了要求发展出来的。

15、虚拟存贮器是增加辅助软硬件。使主、辅存形成整体，速度接近于主存的。容量是辅存的。 16、Cache存贮器是增加辅助硬件，使之速度接近于Cache的，容量是__主_存的。 17、Cache存贮器对应用程序员是透明的。对系统程序员是透明的(填“透明”或“不透明”)

18、程序在时间上的局部性表现在，最近未来要用的信息可能就是现在正在使用的信息，这是因为程序中有存在着循环。 19、程序在空间上的局部性主要是因为程序通常是地存储和执行，数据通常是地存贮。

20、虚拟存贮器按映象算法不同，存贮管理方式有段式、页式和段页式3种。

21、在虚拟存储器中有三种地址空间，一种是应用程序员用来编写程序的地址空间，称为虚拟地址空间第二种是主存储器的地址空间，第三种是辅存地址空间，也就是磁盘存储器的地址空间。它们对应的三种地址分别是虚拟地址、主存地址和辅存地址。 22、段式虚拟存贮器是用段表来进行地址映象和变换的。

23、段页式虚拟存储器的内部地址映象表机构有快表和慢表两部分。 24、页面替换是发生于页面失效，同时又发生页面争用的时候。

25、评价虚拟存贮器所用替换算法的好坏，主要是看主存命中率的高低，其次看算法是否易于实现，以及所需的辅助软硬件的多少。 26、Cache存贮器地址映象大多采用全相联映象或组相联映象，以利于实现。

27、Cache存贮器采用组相联的映象规则是组间直接映象，组内各块间全相联映象。

28、Cache存贮器写操作时，只写入Cache，仅当需要块替换时，才将其写回主存。称这种修改主存块内容的方法为写回法。

29、在Cache存贮器中，CPU每次写Cache的同时，也写入主存，称这种更新主存块内容的方法为写直达法。

30、Cache写不命中时，只写入主存储器，并不将该字所在块由主存调入Cache。称此分配法为不按写分配法。

31、CPU写Cache不命中时，除写入主存外，同时还将含该字的主存块调入Cache。称此分配法为按写分配法。

32、层次存储系统的设计的目的是使有效存取时间接近于最内层存储器的存取时间，使总体的平均每字成本接近于最外层存储器的每字成本，容量接近于最大存储器的容量。

33、解决重叠和流水中的操作数相关，不外乎是推后法和设置相关专用通路法两种基本方法。

34、流水有部件、处理机、系统等不同等级，多个处理机之间的流水属系统级流水，也称宏流水。

35、多功能流水线各功能段同时只能按某一种功能联接的称为静态流水线。 36、多功能流水线各功能段同时可按不同运算或功能联接工作，称此流水线为动态流水线。

37、流水线消除速度瓶颈的方法有瓶颈过程再细分和瓶颈子过程多套并联两种。

38、向量处理机的结构主要有存储器-存储器结构和寄存器-寄存器结构两种。

39、先行控制（Look-ahead）技术的关键是缓冲技术和预处理技术，以及这两者的相结合。通过对指令流和数据流的预处理和缓冲，能够尽量使指令分析和指令执行部件独立地工作，并始终处于忙碌状态。

三、判断题

1、系统是否设浮点运算指令，对计算机系统结构是透明的。(× )

2、软硬功能分配时，提高软件功能的比例会提高系统灵活性，也会提高解题速度。（ × ） 3、经常用的基本单元功能，宜于用软件实现，以降低实现费用。( × ) 4、系列机应用软件应做到向前兼容，力争向下兼容。(× )

5、系列机不再是方向，因为它约束了计算机系统结构的发展。( × )

6、系列机低档低价格，但性能太低;高档机高性能，但价格太高。因此，为获得高性能价格比，应尽可能购置性能价格比高的中档机。(√ ) 7、二进制数表示数据信息较之二一十进制数表示，其存贮空间利用率低，运算速度要快。( X ) 8、浮点数尾数下溢处理采用舍入法还是恒置\法，对计算机系统结构是不透明的。（ X ） 9、对概率不等的事件用Huffman编码，其具体编码不唯一，但平均码长肯定是唯一的，且是最短的。( √ )

10、多数I/O系统的结构应面向操作系统设计，考虑如何在操作系统与I/O系统之间进行合理的软、硬件功能分配。( √ )

11、低速打印机，在总线上传送数据时，其\数据宽度\宜用可变长块。( X ) 12、磁盘设备在数据传送时，数据宽度宜采用单字或单宇节。( X ) 13、对标量数据来说，并行主存系统的实际频宽采用多体单字方式的要比采用单体单字方式组成的高。( √ )

14、在存贮体系中，地址的映象与地址的变换没有区别。( X )

15、虚拟存贮器内部地址映象方式的选择，依据于是否有高的主存命中率，而不是高的实页冲突概率。( X )

四、问答题

1、实现软件移植的途径有哪些?各受什么限制?

答：软件移植的途径主要有：统一高级语言，系列机，模拟与仿真。

统一高级语言，由于只能实现高级语言软件的移植，而目前高级语言种类繁多，无法完全统一成一种，只能相对统一成少数几种。系列机，由于系列内各档机器的结构变化不能太大，到一定时候会阻碍系列发展，只能实现在结构相同或相近的机器间的汇编语言应用软件的移植。模拟与仿真，模拟是用宿主机的机器指令解释，机器语言差别大时，速度慢；仿真是用宿主机的微程序解释，当机器差异大时，仿真困难，仿真的效率和灵活性差。

2、计算机系统的Flynn(弗林)分类法是按什么来分类的?共分哪几类?解释其含义。答：弗林分类法是按指令流、数据流及其多倍性分类的。共分四类。

SISD--指令部件只对一条指令处理，只控制一个操作部件操作。如一般的串行单处理机。 SIMD--由单一指令部件同时控制多个重复设置的处理单元，执行同一指令下不同数据的操作。如阵列处理机。

MISD--多个指令部件对同一数据的各个处理阶段进行操作。这种机器很少见。

MIMD--多个独立或相对独立的处理机分别执行各自的程序、作业或进程。例如多处理机。

3、计算机系统结构的定义是什么？它与计算机组成、计算机实现有什么区别和联系？指机器级程序员所看到的计算机属性，即概念性结构和功能特征。计算机组成是计算机系统结构的逻辑实现计算机实现是计算机系统结构的物理实现

系统结构、组成和实现所包含的具体内容是随不同机器而变化的 4．计算机设计人员需要完成哪些设计任务？

1、确定用户对计算机系统的功能、价格和性能的要求； 2、确定用户对计算机系统软硬件的要求； 3、设计出符合今后发展方向的系统结构

5．什么是RISC？什么是CISC？RISC的主要特点是什么？ RISC是精简指令集计算机。CISC是复杂指令系统计算机

(1) 选取使用频度较高的一些简单指令以及一些很有用但又不复杂的指令，让复杂指令的功能由频度高的简单指令的组合来实现。

(2) 指令长度固定，指令格式种类少，寻址方式种类少。

(3) 只有取数/存数指令访问存储器，其余指令的操作都在寄存器内完成。 (4) CPU中有多个通用寄存器。

(5) 采用流水线技术，大部分指令在一个时钟周期内完成。采用超标量和超流水线技术，可使每条指令的平均执行时间小于一个时钟周期。 (6) 控制器采用组合逻辑控制，不用微程序控制. (7) 采用优化的编译程序

6．什么是地址映象和地址变换，它们之间有什么关系？

1、在Cache中，地址映象是指把主存地址空间映象到Cache地址空间；而地址变换则是指当程序已经装入到Cache后，在实际运行过程中，把主存地址如何变换成Cache地址；

2、在虚拟存储器中，地址映象是把虚拟地址空间映象到主存地址空间；而地址变换是在程序被装入主存储器后，在实际运行时，把多用户虚地址变换成主存实地址或磁盘存储器地址。

地址的映象和变换是紧密相关的。采用什么样的地址映象方法，就必然有与这种映象方法相对应的地址变换方法。

7．Cache存储系统有几种替换算法，有什么区别？ 1、轮换法；2、LFU算法；3、比较对法；4、堆栈法。

轮换法是一种先进先出（FIFO）算法，另外三种实际上都属于最久没有被使用（LFU）算法，只是它们的实现方式各不相同。

8．流水线中的“瓶颈”是如何产生的？有什么办法可以解决流水线“瓶颈”问题？

流水线中各段时间不相等引起“堵塞”、“断流”等问题，执行时间长的一段将成为整个流水线的“瓶颈”。

解决方法有：1、将流水线的“瓶颈”部分再细分；2、重复设置瓶颈功能段，让多个瓶颈功能段并行工作。

9、在页式虚拟存贮器中，什么叫页面失效?什么叫页面争用?什么时候两者同时发生?什么时候两者不同时发生?

答：要访间的虚页不在实际主存申时，就会发生页面失效。当页面调入主存，主存中的页面位置全部已被其它虚页占用时，就会发生页面争用。当分配给程序的内存已被全部占用之后，只要发生页面失效，就一定会发生页面争用。反之，发生页面失效，并不会发生页面争用。

10、计算机系统“由中间开始”设计，其“中间”指的是什么地方？这样设计的好处是什么？答：\中间\是指多级层次结构中的软、硬件交界面，目前是处于传统机器级与操作系统机器级之间。

这样设计，能合理地进行软、硬件的功能分配，优化软、硬件设计，可为软件和应用提供更多更好的硬件支持，可使软、硬件同时设计，缩短系统的设计周期。

五、计算题

1、用一台40MHZ处理机执行标准测试程序，它含的混合指令数和相应所需的时钟周期数如下：

指令类型整数运算数据传送浮点控制传送

指令数

时钟周期数

45000 32000 15000 8000

1 2 2 2

求有效CPI、MIPS速率和程序的执行时间。

2、某台计算机只有Load/Store 指令能对存储器进行读/写操作，其它指令只对寄存器进行操作。根据程序跟踪实验结果，已知每种指令所占的比例及CPI数如下：

(1) 求上述情况下的平均CPI。

(2) 假设程序由M条指令组成。算逻运算中25%的指令的两个操作数中的一个已在寄存器中，另一个必须在算逻指令执行前用Load指令从存储器取到寄存器。因此有人建议增加另一种算逻指令，其特点是一个操作数取自寄存器，另一个操作数取自存储器，即寄存器?存储器类型，假设这种指令的CPI等于2。同时，转移指令的CPI变为3。求新指令系统的平均CPI。

3、某机器有10条指令，使用频度分别为：

0.01，0.15，0.12，0.07，0.08，0.13，0.15，0.03，0.17，0.09。 (1)计算用等长操作码编码的平均码长；4 (2)构造Huffman树；

(3)写出Huffman的一种编码，并计算其平均码长；

(4)只有二种码长，求平均码长最短的扩展操作码编码及其平均码长。

4、有一条流水线如下所示。

(1) 求连续输入10条指令，该流水线的实际吞吐率和效率；

(2) 该流水线的瓶颈在哪一段？请采取三种不同的措施消除此“瓶颈”。对于你所给出的新流水线，计算连续输入10条指令时，其实际吞吐率和效率。

5、试根据以下指令，阐述先行控制技术的工作过程：

n LOAD R1，A1 n+1 ADD R1，R2 n+2 JMP L ? L：?

五、计算题

----------------------------------------------------------------------

1、试题序号：581 2、题型：计算题 3、难度级别：4

4、知识点：一、计算机体系结构的基本概念 5、分值：10

6、所需时间：15分钟 7、试题关键字：解释执行 8、试题内容：

假设有一个计算机系统分为四级，每一级指令都比它下一级指令在功能上强M倍，即一条r+1级指令能够完成M条r指令的工作，且一条r+1级指令需要N条r级指令解释。对于一段在第一级执行时间为K的程序，在第二、第三、第四级上的一段等效程序需要执行多少时间？ 9、答案内容：

解：假设在第一级上用时间K执行了该级IC条指令。1分

IC对第二级而言，为了完成IC条指令的功能，第二级指令的条数为：。为

MICICN条第一级的指令对其进行解释，所了执行第二级条指令，需要执行

MM以对于第二级而言，等效程序的执行时间是：

IC?K?ICT2??M?N?M?M?IC 2N????1?KM???分

对于第三级而言，为了完成IC条指令的功能，第三级指令的条数为：

ICICICN条第二级的指令对其进行。为了执行第三级条指令，需要执行222MMM解释。那么对第二级而言，总的指令条数为：

ICIC?N 3分 M2M2而第二级IC2?IC2N等效于第一级?IC?ICN?M条指令，同时还需要

2?MMM2??M?IC??IC?N?N条第一级指令进行解释，所以第三级等效程序的执行时间是： 22?MM????ICICIC??IC??KT3???M?N?M??M?N?N?2222MM??M??IC??MN????1?KM???2 3分

按照同样的逐层递推关系，不难求得第四级等效程序的总的执行时间为：

N??T4??1?KM???3 1分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：582 2、题型：计算题 3、难度级别：3

4、知识点：1.5 定量分析技术基础 5、分值：10

6、所需时间：15分钟

7、试题关键字：阿姆达尔定律 8、试题内容：

已知某商用计算机拟增加字符串操作功能。若用软件实现，与无字符串操作相比，速度提高4倍， CPU成本提高1/5倍；若用硬件实现，则速度是原来的100倍，,CPU成本是原来的5倍。由实验测得，字符串操作占总运行时间的50%， CPU成本约占整机成本的1/3。你选用哪种设计方案? 9、答案内容：

解：采用软件方法时

根据阿姆达尔定律，性能提高：

1 S=50%=1.66 2分 (1-50%)+ 5 硬件成本提高到C=2/3 + 1/3* (1+1/5)=1.07 1分价格性能比为：C/S = 1.07/1.66 = 0.64 1分采用硬件方法时：

S=1/[（1-50%）+50%/100]=1.98 2分

硬件成本提高到C=2/3 + 1/3* 5=2.33 1分价格性能比为：C/S = 2.33/1.98 = 1.18 1分

如果仅考虑性能提高，则可选择硬件方法，而考虑性能提高和成本因素，则应选择软件方法。 2分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：583 2、题型：计算题 3、难度级别：4

4、知识点：一、计算机体系结构的基本概念 5、分值：10

6、所需时间：15分钟

7、试题关键字：CPU性能公式 8、试题内容：

假设我们考虑条件分支指令的两种不同设计方法如下：

（1） CPUA：通过比较指令设置条件码，然后测试条件码进行分支。（2） CPUB：在分支指令中包括比较过程

在两种CPU中，条件分支指令都占用2个时钟周期而所有其它指令占用1个时钟周期，对于CPUA，执行的指令中分支指令占20%；由于每个分支指令之前都需要有比较指令，因此比较指令也占20%。由于CPUA在分支时不需要比较，因此假设它的时钟周期时间比CPUB快1.25倍。哪一个CPU更快？如果CPUA的时钟周期时间仅仅比CPUB快1.1倍，哪一个CPU更快呢？ 9、答案内容：

解：我们不考虑所有系统问题，所以可用CPU性能公式。占用2个时钟周期的分支指令占总指令的20%，剩下的指令占用1个时钟周期。所以 CPIA = 0.2 ? 2 + 0.80 ? 1 = 1.2 1分则CPU性能为：

总CPU时间A = IC ? 1.2 ? 时钟周期A 1分根据假设，有：

时钟周期B = 1.25 ? 时钟周期A 1分

在CPUB中没有独立的比较指令，所以CPUB的程序量为CPUA的80%，分支指令的比例为：

20%/80% = 25% 2分这些分支指令占用2个时钟周期，而剩下的75%的指令占用1个时钟周期，因此： CPIB = 0.25 ? 2 + 0.75 ? 1 = 1.25 1分因为CPUB不执行比较，故： ICB = 0.8 ? ICA 因此CPUB性能为：

总CPU时间B = ICB ? CPIB ? 时钟周期B = 0.8 ? ICA ? 1.25 ? (1.25 ? 时钟周期A) = 1.25 ? ICA ? 时钟周期A 2分在这些假设之下，尽管CPUB执行指令条数较少，CPUA因为有着更短的时钟周期，所以比CPUB快。

如果CPUA的时钟周期时间仅仅比CPUB快1.1倍，则时钟周期B = 1.10 ? 时钟周期A CPUB的性能为：

总CPU时间B = ICB ? CPIB ? 时钟周期B = 0.8 ? ICA ? 1.25 ? (1.10 ? 时钟周期A) = 1.10 ? ICA ? 时钟周期A

因此CPUB由于执行更少指令条数，比CPUA运行更快。 2分 10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：584 2、题型：计算题 3、难度级别：2

4、知识点：一、计算机体系结构的基本概念 5、分值：10

6、所需时间：15分钟

7、试题关键字：CPU性能公式 8、试题内容：

对于一台400MHz计算机执行标准测试程序，程序中指令类型，执行数量和平均时钟周期数如下：

指令类型指令执行数量平均时钟周期数整数 45000 1 数据传送 75000 2 浮点 8000 4 分支 1500 2 求该计算机的有效CPI、MIPS和程序执行时间。 9、答案内容：

解：CPI??(ICi?CPIi)/IC 1分

CPI?45000?1?75000?2?8000?4?1500?2?1.776 3分

129500f400?106MIPS速率???225.225MIPS 3分 66CPI?101.776?10 程序执行时间=（45000?1?75000?2?8000?4?1500?2）／400=575s 3

分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：585 2、题型：计算题 3、难度级别：2

4、知识点：一、计算机体系结构的基本概念 5、分值：10

6、所需时间：15分钟 7、试题关键字：CPI 8、试题内容：

假定要在一个时钟速率为40MHz的标量处理机上执行20万条目标代码指令的程序，该程序中含有4种主要类型指令，每种指令类型所占的比例及CPI数如图所示。要求计算：

(1)在单处理机上执行该程序的平均CPI.

(2)根据(1)所得到的CPI值，计算相应的MIPS速率。指令类型 CPI 指令所占比例 ALU Branch指令访存指令(Cache 不合中时) 9、答案内容： 1 4 8 60% 18% 12% 10% LOAD/STORE指令(Cache命中时) 4 解：CPI??(ICi?CPIi)/IC=CPIi ?ICi/IC=1 ?0.6+4 ?0.18+4 ?0.12+8

?0.1=2.24 5分

f40?106MIPS速率???17.86MIPS阶段 5分

CPI?1062.24?10610、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：586 2、题型：计算题 3、难度级别：3

4、知识点：一、计算机体系结构的基本概念 5、分值：10

6、所需时间：15分钟

7、试题关键字：Amdahl定律 8、试题内容：

计算机系统有三个部件可以改进，这三个部件的加速比如下：部件加速比1＝30；部件加速比2＝20；部件加速比3＝10；

(1) 如果部件1和部件2的可改进比例为30％，那么当部件3的可改进比例为多少时，系统的加速比才可以达到10？

(2) 如果三个部件的可改进比例为30％、30％和20％，三个部件同时改进后，那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少？ 9、答案内容：

解：在多个部件可改进情况下Amdahl定律的扩展:

?f?T?T(1?f)?e

eo??e?Se?S?1(1?fe)?feSe

S?1(1??fi)??iifiSi 2分

?1式中，fi为可加速部件i在未优化系统中所占的比例；Si是部件i的加速比。

?f?ffS??[1?(f1?f2?f3)]?1?2?3?S1S2S3??

?10.30.3f3??10??[1?(0.3?0.3?f3)]????302030??

f3?65?0.36180 4分

p?[1?(0.3?0.3?0.2)]T0.3T0.3T0.2T???0.2T3020100.2?0.30.30.2???0.23020100.2?0.60.91.212???6060606012??0.8214.7 4分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：587 2、题型：计算题 3、难度级别：3

4、知识点：二、计算机指令集结构设计 5、分值：10

6、所需时间：15分钟 7、试题关键字：

8、试题内容：指令集结构

对于下面的三个赋值语句：

A=B+C B=A+C D=A-B

试用堆栈型、累加器型和通用寄存器型指令集 (1)分别用汇编指令加以编写。

(2)为衡量存储器使用效率，假设对三种指令集均有：操作码占用一字节，存储器地址占用二字节，操作数占用四字节。计算三种代码序列自存储器取指所需总字节，取数或存数所需的总字节。哪一种结构需传送的总字节数最少? 9、答案内容：

答：（1）汇编指令编写如下： 5分堆栈型 PUSH B PUSH C ADD TOP A PUSH C ADD TOP B PUSH A SUB POP D 取指：存取数：总计：累加器型 LOAD B ADD C STORE A ADD C STORE B LOAD A SUB B STORE D 堆栈型 10+7*2=24 7*4=28 52字节寄存器型 LOAD R1，B ADD R1，C STORE A，R1 LOAD R2，C ADD R2，R1 STORE B，R2 SUB R1，R2 STORE D，R1 （2）据上面的指令序列，计算得： 5分累加器型 8+8*2=24 8*4=32 56字节寄存器型 8+20*2=28 6*4=24 64字节

10、评分细则：10分/小题，评分细则分布在答案内容中。

---------------------------------------------------------------------

1、试题序号：588 2、题型：计算题 3、难度级别：3

4、知识点：二、计算机指令集结构设计 5、分值：10

6、所需时间：15分钟

7、试题关键字：DLX指令集结构 8、试题内容：

1、现有如下C语言源代码：

for (i=0;i<=100,i++) {A[i]=B[i]+C;} 其DLX实现代码如下：

ADDI R1,R0,#0

SW 2000（R0）,R1 loop:

LW R1,2000(R0) MULT R2,R1,#4 ADDI R3,R2,#5000

LW R4, 0(R3) LW R5,1500(R0)

ADD R6,R4,R5

LW R1,2000(R0) MULT R2,R1,#4 ADDI R7,R2,#0 SW 0(R7),R6

LW R1,2000(R0) ADDI R1,R1,#1 SW 2000(R0),R1

LW R1,2000(,R0) ADDI R8,R1,# -101 BNEZ R8,loop

其中，A和B是两个32位整数的数组，C和i均是32位整数。假设所有数据的值及其地址均保存在存储器中，A和B的起始地址分别是0和5000。C和i的地址分别是 1500和2000。在循环的两次迭代之间不将任何数据保存在寄存器中。求：（1）该程序段共执行了多少条指令。

（2）程序对存储器中的数据访问了多少次？

（3）DLX代码的大小（占用存储空间大小）是多少字节？ 9、答案内容：

解：（1）总共执行的指令数是初始化的两条指令加上循环中重复的指令条数：执行的指令 = 2+（16×101）=1618 3分（2）数据访问包括LOAD和STORE指令。为了计算数据访问的次数，可以用循环次数乘以每次循环数据访问次数再加上初始化中的1条STORE指令数：

数据访问次数 = 1+8×101= 809 3分

(3)代码大小就是程序中汇编指令数乘以4个字节（DLX中每条指令占4字节）：代码大小 = 4×18 = 72B 1分 10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：589 2、题型：计算题 3、难度级别：3

4、知识点：三、流水线技术 5、分值：10

6、所需时间：15分钟

7、试题关键字：流水线技术 8、试题内容：

1、假设一条指令的解释分为取指、分析与执行三个阶段，每个阶段所需时间为t取指、t分析、t执行。

(1)写出用下列几种方式执行100条指令所需的时间的通式：

1)顺序方式；

2)仅\执行k\、与\取指k+1\重叠；

3)仅\执行K\、\分析k+1\和\取指k+2\重叠。

(2)当t取指=t分析=2,t执行=3以及t取指=t分析=4,t执行=2时，用上述通式计算所需时间。 9、答案内容：

解：（1）以下是各方式执行100条指令所需时间的通式： 1）顺序方式： 100

t=∑{t取指i+t分析i+t执行i} i=1

=100{t取指i+t分析i+t执行i} 2分

2）“执行i”与“取指k”重叠：

100

t=t取指1+ ∑t分析ｉ i=1

100

+∑[max{t执行i－１，t取指i}] +t执行100 2分 i=2 3）仅“执行k”、“分析K+1”与“取指K+2”重叠：

t=t取指1+[max{t分析1，t取指2}]

100

+∑[max{t执行i－2，t分析i－1，t取指i}] i=3

+max{t分析100，t执行99} 2分 +t执行100

（2）当T取指=T分析=2，T执行=3时，用上述通式计算所需时间 3分

1）T=100（2+2+3）=700 2）T=2+2×100+3×99+3=502 3）T=2+2+3×97+3+3=301

当T取指=T执行=4，T分析=2时，用上述通式计算所需时间为： 1）T=100（4+2+4）=1000 2）T=4+2×100+4×99+4=604

3）T=4+4+4×97+4+4=404 1分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：590 2、题型：计算题 3、难度级别：3

4、知识点：三、流水线技术 5、分值：10

6、所需时间：15分钟

7、试题关键字：流水线技术 8、试题内容：

一个流水线由四段组成，其中每当流经第三段时，总要在该段循环一次才能流到第四段。如果每段经过一次的时间都是△t，问：

当在流水线的输入端每△t时间输入任务时，该流水线会发生什么情况？此流水线的实际吞吐率为多少？如果每2△t输入一个任务，连续处理10个任务的实际吞吐率和效率是多少？当每段时间不变时，如何提高该流水线的吞吐率？仍连续处理10个任务时，其吞吐率提高多少？ 9、答案内容：解：（1）会发生流水线阻塞情况。2分 Instr.1stage1stage2stage3stage3stage4instr.2stage1stage2stallstage3stage3stage4instr.3stage1stallstage2stall stage3stage3stage4instr.4stallstage1stall stage2stallstage3stage3stage4 （2） 4分

Instr.1instr.2instr.3

0tstage11tstage22tstage3stage13tstage3stage24tstage4stage3stage15tstage3stage26tstage4stage37t8tstage3stage4

Stage43211121123123422345334564456755678667897789108891099101010Time23Dt

Stage43211121112322342334534456455675667867789788910899109101010Time23Dt

12DtTpipeline?23DtTPmax?Tp?nTpipeline?1023Dt

DE?TP?5Dt?50?54.35I2

（3）重复设置部件 4分

t 3_1 1 t 2 t 3_2 t 4 t

3_2t4t

1t2t3_1t

Stage43_23_1211121232134123452435634567465785678968791078910810991010Time14Dt

TP?nTpipeline ?10?514?Dt7?Dt5107Dt23Dt吞吐率提高倍数＝＝1.64

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：591 2、题型：计算题 3、难度级别：3

4、知识点：三、流水线技术 5、分值：10

6、所需时间：15分钟

7、试题关键字：流水线技术 8、试题内容：

有一条流水线如下所示。

?è150ns250ns3100ns4200ns?3 求连续输入10条指令，该流水线的实际吞吐率和效率；

该流水线的瓶颈在哪一段？请采取三种不同的措施消除此“瓶颈”。对于你所给出的新流水线，计算连续输入10条指令时，其实际吞吐率和效率。 9、答案内容：解：（1）

Tpipeline??Dti?(n?1)Dtmaxi?1m?(50?50?100?200)?9?200 ?2200(ns)TP?nTpipelinei?1(ns?1)

2204005??45.45% 3分 411E?TP??Dti?1mm?TP?（2）瓶颈在3、4段。

? 变成八级流水线（细分）

è?150ns250ns3_150ns3_250ns4_150ns4_450ns3?

Tpipeline??Dti?(n?1)Dtmaxi?1m?50?8?9?50?850(ns)

4-1 3-1 1 2 3-2 4-3 4-4 4-2 TP?nTpipelinem?185(ns?1)

E?TP??Dtii?1m?TP?40010??58.82% 3分 817? 变成两级流水线（合并）

è?123200nsm4200ns3?

Tpipeline??Dti?(n?1)Dtmaxi?1?200?2?9?200?2200(ns)TP?nTpipelinem?1(ns?1) 2分 220

E?TP??Dtii?1m?TP?40010??90.91% 211? 重复设置部件

Stage4_44_34_24_13_23_12111223134452356671457889679101025891043697108Time850ns

TP?nTpipeline?185(ns?1)

E?400?10850?8?10?58.82% 2分

1710、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：592 2、题型：计算题 3、难度级别：3

4、知识点：三、流水线技术 5、分值：10

6、所需时间：15分钟

7、试题关键字：流水线技术 8、试题内容：

如果流水线有m段，各段的处理时间分别是ti（i=1，2，?，m），现在有n个任务需要完成，且每个任务均需流水线各段实现，请计算：流水线完成这n个任务所需要的时间；和非流水线实现相比，这n个任务流水实现的加速比是多少？加速比的峰值是多少？

9、答案内容：解：（1）

Tpipeline??ti?(n?1)?tmax 2分

i?1m（2）

Tnopipeline?n??ti 4分

i?1mSpeedup?TnopipelineSpeedupmax?m?nTpipeline?n??tii?1m?t?(n?1)?tii?1mmaxm?n?1(n??m,Speedup?m)(ti?t0) 4分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：593 2、题型：计算题 3、难度级别：3

4、知识点：三、流水线技术 5、分值：10

6、所需时间：15分钟

7、试题关键字：流水线技术 8、试题内容：

一台非流水处理器A的工作时钟频率为25MHz，它的平均CPI为4，处理器B是A的改进型，它有一条5段的线性指令流水线。由于锁定电路延迟及时钟扭斜效应，它的工作时钟频率仅为20MHz。问：

(1)若在A和B两个处理器上执行含有100条指令的程序，则处理器B对A的加速比为多少?

(2)在执行上述程序时，计算A、B处理器各自的MIPS速率为多少? 9、答案内容：

解：(1)Ta=100*4/2.5E7=1.6E-5 秒

Tb=((5+100-1)×4/5)/2E7=4.16E-6 秒 ∴ Sp=Ta/tb=3.85 5分 (2)MIPSa=100/1.6E-5=6.25MIPS

MIPSb=100/4.16E-6=24.04MIPS 5分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：594 2、题型：计算题 3、难度级别：3

4、知识点：三、流水线技术 5、分值：10

6、所需时间：15分钟

7、试题关键字：流水线技术 8、试题内容：

一个由4段构成的双输入端的流水浮点加法器，每一段的延迟为10ns，输出可直接返回到输入端或把结果暂存到相应缓冲寄存器中。现若要将10个浮点数相加，问最少需用多少时间，要求画出相应的流水线工作的时空图。

9、答案内容：

解：根据题意，画出相应流水线时空图： 6分

所需最少时间：Tmin=17*10ns=170ns 4分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：595 2、题型：计算题 3、难度级别：4

4、知识点：三、流水线技术 5、分值：10

6、所需时间：15分钟 7、试题关键字： 8、试题内容：

若有一静态多功能流水线分为6段，如图所示，其中乘法流水线由1、2、3、6段组成，加法流水线由1、4、5、6段组成，通过每段所需时间如图所示。使用流水线时，要等某种功能(如加法)操作都处理完毕后才能转换成另种功能(如乘法)。若要计算：A×B=(a1+b1)×(a2+b2)×(a3+b3)，问：

(1)在上述流水方式下，完成A×B需要多少时间?画出时空图并计算此流水线的使用效率和吞吐率。

(2)与顺序运算方式相比，加速比为多少? 9、答案内容：

解：根据题意，画出的时空图为： 6分

（1）T=26τ

吞吐率：Tp=5/26τ

效率：E=（2*17）/（26*6）=21.79% 3分

（2）加速比：Sp=Tl/Tk=（6τ*3+8τ*2）/26τ=1.31 1分 10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：596 2、题型：计算题 3、难度级别：4

4、知识点：三、流水线技术 5、分值：10

6、所需时间：15分钟

7、试题关键字：流水线技术 8、试题内容：

在如下图所示的静态流水线上计算?AiBi，流水线的输出可以直接返回输入端

i?14或暂存于相应于的流水线寄存器中，试计算其吞吐率，加速比，效率。 9、答案内容：

解：该题解题步骤为：

(1) 确定适合于流水处理的计算过程。 (2) 画时空图 (3) 计算性能

(1) 确定适合于流水处理的计算过程为：3分

(2)根据所确定的计算过程，画出时空图 4分

(3) 根据时空图和流水线性能公式，计算性能 3分故：吞吐率 TP＝7／(20△t)

加速比 S＝(34△t)／(20△t)＝1.7 效率 E＝(4×4＋3×6)／(8×20)＝0.21

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：597 2、题型：计算题 3、难度级别：3

4、知识点：三、流水线技术 5、分值：10

6、所需时间：15分钟

7、试题关键字：流水线技术 8、试题内容：

假设各种分支所占指令数地百分比如下表所示：

条件分支跳转和调用 20％（其中60％是成功的） 5％现有一深度为4地流水线（流水线有4段），无条件分支在第二个时钟周期结束时就被解析出来，而条件分支要到第三个时钟周期结束时才能被解析出来。第一个流水段是完全独立于指令类型的，即所有的指令都必须经过第一个流水段的处理。请问在没有任何结构相关地情况下，该流水线相对于存在上述结构相关情况下地加速比是多少？ 9、答案内容：

解：在不存在结构相关时，每条指令的平均执行时间是1个时钟周期，而存在上述条件相关的情况下，并假设条件分支预测成功，那么无条件分支和成功的条件分支的等待时间都是1，而不成功地条件分支等待时间是2个周期；所以加速比就等于存在相关的每条指令的平均执行时间和不存在相关的每条指令的执行时间1的比值：

加速比?1?C?1?f?P分支

P无条件分支＝1stall 4分

P条件分支＝2stall每条指令的平均等待时间：

C?f条件分支?P条件分支＋f无条件分支?P无条件分支＝20％?60%?2＋20%?40%?1?5％?1 4分＝0.37所以：加速比?1.37 2分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：598 2、题型：计算题 3、难度级别：4

4、知识点：3.5 向量处理机 5、分值：10

6、所需时间：15分钟

7、试题关键字：向量处理机 8、试题内容：

CRAY-1机器上，按照链接方式执行下述4条向量指令（括号中给出了相应功能部件的时间），如果向量寄存器和功能部件之间数据传输需要1拍，试求此链接流水线的通过时间是多少拍？如果向量长度为64，则需要多少拍才能得到全部结果。

V0←存储器（从存储器中取数：7拍） V2←V0＋V1 （向量加：3拍） V2←V2 < A3 （按(A3)左移：4拍）

V5←V3∧V4 （向量逻辑乘：2拍） 9、答案内容：

解：通过时间就是每条向量指令的第一个操作数执行完毕需要的时间，也就

是各功能流水线由空到满的时间，具体过程如下图所示。要得到全部结果，在流水线充满之后，向量中后继操作数继续以流水方式执行，直到整组向量执行完毕。 2分

访存存储器V0V1V2V3V4V5向量加左移向量逻辑乘A3 T通过＝（7＋1）＋（1＋3＋1）＋（1＋4＋1）＋（1＋2＋1）＝23（拍） 6分

T总共?T通过＋（64－1）＝23＋63＝86（拍） 2分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：599 2、题型：计算题 3、难度级别：4

4、知识点：3.5 向量处理机 5、分值：10

6、所需时间：15分钟

7、试题关键字：向量处理机 8、试题内容：

向量处理机有16个向量寄存器，其中V0～V5中分别存放有向量A、B、C、D、E、F，向量长度均为12，向量各元素均为浮点数；处理部件采用两个单功能流水线，加法功能部件时间为2拍，乘法功能部件时间为3拍。采用类似CRAY-1的链接技术，先计算（A＋B）*C，在流水线不停留的情况下，接着计算（D＋E）*F。

（1）求此链接流水线的通过时间为多少拍？（设寄存器入、出各需1拍）假如每拍时间为50ns，完成这些计算并把结果存进相应寄存器，此处理部件地实际吞吐率为多少MFLOPS？ 9、答案内容：解：（1）我们在这里假设A＋B的中间结果放在V6中，（A＋B）*C地最后结果放在V7中，D＋E地中间结果放在V8中，（D＋E）*F的最后结果放在V9中。具体实现参考下图：

V0AV1BV6V2CV7向量加向量乘V3DV4EV8V5FV9 通过时间应该为前者（（A＋B）*C）通过的时间： T通过= (1+2+1)+(1+3+1) =9（拍） 2分

（2）在做完（A＋B）*C之后，作（C＋D）*E就不需要通过时间了。4分

V6?A?B;V7?V6?C;V8?D?E;V9?V8?F;T?T通过＋（8－1）?8?24（拍）?1200(ns) 4分 32TP??26.67MFLOPST

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：600 2、题型：计算题 3、难度级别：3

4、知识点：四、指令级并行 5、分值：10

6、所需时间：15分钟 7、试题关键字：指令调度 8、试题内容：

对于下面的源代码，转换成DLX汇编语言，在不进行指令调度和进行指令调度两种情况下，分析代码一次循环的执行时间。

for (i=1; i<=1000; i++) x[i]=x[i] + s;

假设：x[0] 的内存地址为 0 （为简单起见），R1的初值为x[1000]的地址，F2中存放的值为常量s。

DLX浮点流水线的延迟如下表：产生结果指令浮点计算浮点计算浮点数据取操作（LD）浮点数据取操作（LD） 9、答案内容：使用结果指令另外的浮点计算浮点数据存操作（SD）浮点计算浮点数据存操作（SD）延迟时钟周期数 3 2 1 0 解：不进行指令调度的情况下，根据表中所给浮点流水线中指令执行的延迟，实际运行： (1) LOOP: LD F0,0(R1) (2) (空转) (3) ADDD F4,F0,F2 (4) (空转) (5) (空转) (6) SD 0(R1),F4 (7) SUBI R1,R1,#8 (8) (空转) (9) BNEZ R1,LOOP (10) (空转)

一共 10 个时钟周期，其中有5个是空转周期。 4分指令调度： (1) LOOP: LD F0,0(R1) (2) (空转) (3) ADDD F4,F0,F2 (4) SUBI R1,R1,#8 (5) BNEZ R1,LOOP (6) SD 8(R1),F4

一共 6 个时钟周期，其中有 1 个空转周期。 4分

经过指令调度，一个元素的操作时间从10个时钟周期减少到6个时钟周期，其中5个周期是有指令执行的，只剩下一个空转周期。 2分 10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：601 2、题型：计算题 3、难度级别：4

4、知识点：5.2 Cache基本知识 5、分值：10

6、所需时间：15分钟

7、试题关键字：Cache基本知识 8、试题内容：

VAX-11/780在Cache命中时的指令平均执行时间是8.5时钟周期，Cache失效时间是6个时钟周期，假设不命中率是11%，每条指令平均访存3次。

（1）试计算在考虑了Cache不命中时的指令平均间，它比Cache命中时平均执行时间延长百分之几?

（2）若CPU在Cache命中时的指令平均执行时间是1.5时钟周期，其他条件一样，结果如何?从结果的比较可看出什么问题? 9、答案内容：解：（1）已知:Tie=8.5 Tm=6 1-Hc=0.11

在Cache命中时,每条指令的访存时间是:

Tca=3Tc=3 (Tc为平均访问Cache时间,一般为1个时钟周期) 2分

而在考虑Cache不命中时,每条指令的访存时间为:

Tcb=3(0.89Tc+0.11×6)=2.67+1.98=4.65

因指令执行的其他时间相同,所以

Ti=8.5-3+4.65=10.15

(10.15-8.5)/8.5=0.194=19.4% 3分

（2）根据题意，Tie=1.5

则当考虑Cache不命中时,每条指令的平均执行时间为: Ti=1.5-3+4.65=3.15

(3.15-1.5)/3.15=0.524=52.4% 3分

由比较结果可以看出,在速度较高的系统中,Cache的命中率对指令的执行速度有较大的影响,从而影响到整个系统的性能,因此,提高Cache的命中率,降低平均访存时间,对提高系统的性能有着重要作用。 2分 10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：602 2、题型：计算题 3、难度级别：3

4、知识点：5.2 Cache基本知识 5、分值：10

6、所需时间：15分钟 7、试题关键字：存储层次 8、试题内容：

有一个\主存\存储层次，主存共分8个块(0～7)，Cache分为4个块(0～3),采用组相联映象，组内块数为2块，替换算法为近期最少使用法(LRU)。 (1)画出主存、Cache存储器地址的各字段对应关系；

(2)对于如下主存块地址流：1、2、4、1、3、7、0、1、2、5、4、6、4、7、2，如主存中内空一开始未装入Cache中，请列出随时间变化Cache中各块的使用情况。；

(3)对于(2)，指出块失效又发生块争用时刻。 (4)对于(23)，求出此间的Cache命中率。 9、答案内容：解：

(1)见下表: 3分 nd区号 1位访问顺序地址块号

q'组号 1位 ↓ 1位 q (2)如下表: 3分 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 4 1 3 7 0 1 2 5 4 6 4 7 2

s'块号 1位 ↓ 1位 s nmr(块内地址) ↓ ncr(块内地址)

Cache中

1 1 1 1 1 1 1 1 1 1 4 4 4 4 4

块分配情况操作状态

- - 4 4 4 4 0 0 0 5 5 5 5 5 5 - 2 2 2 2 7 7 7 7 7 7 6 6 6 2 - - - - 3 3 3 3 2 2 2 2 2 7 7 调调调命调替替命替替替替命替替进进进中进换换中换换换换中换换

(3)在第14和15次访问块时产生块失效又发生块争用现象。 2分 (4)命中率：Hc=3/15=20% 2分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：603 2、题型：计算题 3、难度级别：3

4、知识点：五、存储层次 5、分值：10

6、所需时间：15分钟

7、试题关键字：平均访存时间 8、试题内容：

假设Cache的命中时间为1个时钟周期，失效开销为50 个时钟周期，在混合Cache中一次load或store操作访问Cache的命中时间都要增加一个时钟周期(因为混合Cache只有一个端口，无法同时满足两个请求，混合Cache会导致结构冲突)，根据下表所列的失效率，试问指令Cache和数据Cache容量均为16KB的分离Cache和容量为32KB的混合Cache相比，哪种Cache的失效率更低？又假设采用写直达策略，且有一个写缓冲器，并且忽略写缓冲器引起的等待。请问上述两种情况下平均访存时间各是多少？

表1 指令Cache、数据Cache和混合Cache失效率的比较容量指令 Cache 数据 Cache 混合 Cache 1 KB 3.06% 24.61% 13.34% 2 KB 2.26% 20.57% 9.78% 4 KB 1.78% 15.94% 7.24% 8 KB 1.10% 10.19% 4.57% 16 KB 0.64% 6.47% 2.87% 32 KB 0.39% 4.82% 1.99% 64 KB 0.15% 3.77% 1.36% 128 KB 0.02% 2.88% 0.95% 9、答案内容：解：

如前所述，约75%的访存为取指令。因此，分离Cache的总体失效率为： (75%×0.64%)＋(25%×6.47%)＝2.10% 2分

根据表1容量为32KB的混合Cache的失效率略低一些，只有1.99%。 1

分

平均访存时间公式可以分为指令访问和数据访问两部分：

平均访存时间＝指令所占的百分比× (指令命中时间＋指令失效率×失效开销)＋数据所占的百分比× (数据命中时间＋数据失效率×失效开销) 2分所以，两种结构的平均访存时间分别为：

平均访存时间分离＝75%×(1＋0.64%×50)＋25%×(1＋6.47%×50)

＝(75%×1.32)＋(25%×4.325)＝0.990＋1.059＝2.05 2分

平均访存时间混合＝75%×(1＋1.99%×50)＋25%×(1＋1＋1.99%×50)

＝(75%×1.995)＋(25%×2.995)＝1.496＋0.749＝2.24 2分故，尽管分离Cache的实际失效率比混合Cache的高，但其平均访存时间反而较低。 1分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：604 2、题型：计算题 3、难度级别：4

4、知识点：五、存储层次 5、分值：10

6、所需时间：15分钟

7、试题关键字：Cache失效开销 8、试题内容：

假设Cache失效开销为50个时钟周期，当不考虑存储器停顿时，所有指令的执行时间都是2.0个时钟周期， Cache的失效率为2%，平均每条指令访存1.33次。试分析Cache对性能的影响。 9、答案内容：

解：CPU 时间＝IC×(CPIexe＋存储器停顿周期数/指令数)×时钟周期时间 2分

考虑Cache的失效后，性能为：

CPU 时间有cache＝IC×(2.0＋(1.33×2%×50))×时钟周期时间＝IC×3.33×时钟周期时间 4分实际CPI ：3.33

3.33/2.0 = 1.67(倍) 2分

CPU时间也增加为原来的1.67倍。但若不采用Cache,则： CPI＝2.0+50×1.33＝68.5 2分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：605 2、题型：计算题 3、难度级别：4

4、知识点：五、存储层次

5、分值：10

6、所需时间：15分钟 7、试题关键字：CPU性能 8、试题内容：

考虑两种不同组织结构的Cache：直接映象Cache和两路组相联Cache，试问它们对CPU的性能有何影响？先求平均访存时间，然后再计算CPU性能。分析时请用以下假设：

⑴理想Cache(命中率为100％)情况下的CPI为2.0，时钟周期为2ns，平均每条指令访存1.3次。

⑵两种Cache容量均为64KB，块大小都是32字节。 ⑶在两路组相联Cache中，我们必须增加一个多路选择器，用于根据标识匹配结果从相应组的块中选择所需的数据。因为CPU的速度直接与Cache命中的速度紧密相关,所以对于组相联Cache，由于多路选择器的存在而使CPU的时钟周期增加到原来的1.10倍。

⑷这两种结构Cache的失效开销都是70ns。在实际应用中，应取整为整数个时钟周期。

⑸命中时间为1个时钟周期，64KB直接映象Cache的失效率为1.4%，相同容量的两路组相联Cache的失效率为1.0%。 9、答案内容：解：由:

平均访存时间＝命中时间＋失效率×失效开销 1分得: 平均访存时间1路＝2.0＋(0.014×70)＝2.98ns

平均访存时间2路＝2.0×1.10＋(0.010×70)＝2.90ns 2分两路级相联Cache的平均访存时间比较低。 1分由: CPU 时间＝IC×(CPIexe＋每条指令的平均存储器停顿周期数)×时钟周期时间＝IC ×(CPIexe×时钟周期时间＋每条指令的平均存储器停顿时间) 3分得：

CPU时间1路＝IC×(2.0×2＋(1.3×0.014×70))＝5.27×IC

CPU时间2路＝IC×(2.0×2×1.10＋(1.3×0.010×70))＝5.31×IC 2分相对性能比为：

CPU时间2路/CPU时间1路=5.31×IC/5.27×IC=1.01 1分 10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：606 2、题型：计算题 3、难度级别：3

4、知识点：五、存储层次 5、分值：10

6、所需时间：15分钟

7、试题关键字：存储器性能 8、试题内容：

给定以下的假设，试计算直接映象Cache和两路组相联Cache的平均访问时间以及CPU的性能。由计算结果能得出什么结论？

（1）理想Cache情况下的CPI为2.0，时钟周期为2ns，平均每条指令访存

1.2次；

（2）两者Cache容量均为64KB，块大小都是32字节；

（3）组相联Cache中的多路选择器使CPU的时钟周期增加了10％；（4）这两种Cache的失效开销都是80ns；（5）命中时间为1个时钟周期；

（6） 64KB直接映象Cache的失效率为1.4％，64KB两路组相联Cache的失

效率为10％。 9、答案内容：

解：平均访问时间＝命中时间＋失效率×失效开销 1分

平均访问时间1-路=2.0+1.4% *80=3.12ns

平均访问时间2-路=2.0*(1+10%)+1.0% *80=3.0ns 两路组相联的平均访问时间比较低。 3分 CPUtime=（CPU执行+存储等待周期）*时钟周期

CPU time=IC（CPI执行+总失效次数/指令总数*失效开销） *时钟周期 =IC（（CPI执行*时钟周期）+（每条指令的访存次数*失效率*失效开销*时钟周期）） 2分

CPU time 1-way=IC(2.0*2+1.2*0.014*80)＝5.344IC

CPU time 2-way=IC(2.2*2+1.2*0.01*80)＝5.36IC 2分

相对性能比：

CPUtime?2wayCPUtime?1way?5.36/5.344=1.003 1分

直接映象cache的访问速度比两路组相联cache要快1.04倍，而两路组相联Cache的平均性能比直接映象cache要高1.003倍。因此这里选择两路组相联。 1分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：607 2、题型：计算题 3、难度级别：3

4、知识点：五、存储层次 5、分值：10

6、所需时间：15分钟

7、试题关键字：cache性能 8、试题内容：

假设一台计算机具有以下特性：（1） 95％的访存在Cache中命中；

（2）块大小为两个字，且失效时整个块被调入；（3） CPU发出访存请求的速率为109字/秒；（4） 25％的访存为写访问；

（5）存储器的最大流量为109字/秒（包括读和写）；

（6）主存每次只能读或写一个字；

（7）在任何时候，Cache中有30％的块被修改过；（8）写失效时，Cache采用写分配法。

现欲给计算机增添一台外设，为此想先知道主存的频带已经使用了多少。试对于以下两种情况计算主存频带的平均使用比例。（1）写直达Cache；（2）写回法Cache。 9、答案内容：解：采用按写分配

（1）写直达cache访问命中，有两种情况：

读命中，不访问主存；

写命中，更新cache和主存，访问主存一次。访问失效，有两种情况：

读失效，将主存中的块调入cache中，访问主存两次；

写失效，将要写的块调入cache，访问主存两次，再将修改的数据写入cache和主存，访问主存一次，共三次。上述分析如下表所示。3分

访问命中 Y Y N N 访问类型读写读写频率 95%*75%=71.3% 95%*25%=23.8% 5%*75%=3.8% 5%*25%=1.3% 访存次数 0 1 2 3 一次访存请求最后真正的平均访存次数

=(71.3%*0)+(23.8%*1)+(3.8%*2)+(1.3%*3)＝0.35

已用带宽=0.35×109/10 9 =35.0% 2分

（2）写回法cache访问命中,有两种情况：

读命中，不访问主存；

写命中，不访问主存。采用写回法，只有当修改的cache块被换出时，才写入主存；

访问失效,有一个块将被换出，这也有两种情况：

如果被替换的块没有修改过，将主存中的块调入cache块中，访问主存两次；如果被替换的块修改过，则首先将修改的块写入主存，需要访问主存两次；然后将主存中的块调入cache块中，需要访问主存两次，共四次访问主存。3分

访问命中 Y Y N N

所以：

一次访存请求最后真正的平均访存次数 =66.5％*0＋28.5%*0+3.5%*2+1.5%*4=0.13

块为脏 N Y N Y 频率 95%*70%=66.5% 95%*30%=28.5% 5%*70%=3.5% 5%*30%=1.5% 访存次数 0 0 2 4

已用带宽＝0.13×10 9/10 9＝13% 2分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：608 2、题型：计算题 3、难度级别：3

4、知识点：五、存储层次 5、分值：10

6、所需时间：15分钟

7、试题关键字：cache性能 8、试题内容：

伪相联中，假设在直接映象位置没有发现匹配，而在另一个位置才找到数据（伪命中）时，需要1个额外的周期，而且不交换两个Cache中的数据，失效开销为50个时钟周期。试求：

（1）推导出平均访存的时间公式。

（2）利用（1）中得到的公式，对于2KBCache和128KBCache，重新计算

伪相联的平均访存时间。请问哪一种伪相联更快？假设 2KB直接映象Cache的总失效率为0.098，2路相联的总失效率为0.076； 128KB直接映象Cache的总失效率为0.010，2路相联的总失效率为0.007。

9、答案内容：

解：不管作了何种改进，失效开销相同。不管是否交换内容，在同一“伪相联”组中的两块都是用同一个索引得到的，因此失效率相同，即：失效率伪相联＝失效率2路。1分

伪相联cache的命中时间等于直接映象cache的命中时间加上伪相联查找过程中的命中时间*该命中所需的额外开销。

命中时间伪相联＝命中时间1路＋伪命中率伪相联×1 2分

交换或不交换内容，伪相联的命中率都是由于在第一次失效时，将地址取反，再在第二次查找带来的。

因此伪命中率伪相联＝命中率2路－命中率1路＝（1－失效率2路）－（1－失效率1路）

＝失效率1路－失效率2路。交换内容需要增加伪相联的额外开销。2分平均访存时间伪相联＝命中时间1路＋（失效率1路－失效率2路）×1

＋失效率2路×失效开销1路 2分

将题设中的数据带入计算，得到：

平均访存时间2Kb=1+(0.098-0.076)*1+(0.076 *50 ) =4.822

平均访存时间128Kb=1+(0.010-0.007)*1+(0.007 *50 ) =1.353 2分

显然是128KB的伪相联Cache要快一些。 1分 10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：609 2、题型：计算题

3、难度级别：3

4、知识点：五、存储层次 5、分值：10

6、所需时间：15分钟

7、试题关键字：cache性能 8、试题内容：

假设机器的时钟周期为10毫微秒，Cache失效时的访存时间为20个时钟周期

(1)设失效率为0.05，忽略写操作时的其他延迟，求机器的平均访存时间。 (2)假设通过增加Cache容量一倍而使失效率降低到0.03，但使得Cache命中时的访问时间增加到了1.2时钟周期，指出这样改动设计是否合适?

(3)如果时钟周期取决于Cache的访问时间(也就是用延长时钟周期的方法)，上述改动设计是否合适? 9、答案内容：

解:(1)机器的平均访存时间公式为:

Ta=HcTc+(1-Hc)Tm 其中Hc为命中率,所以据题意得: 1分 Ta=(1-0.05)×10×1+0.05×20×10=19.5毫秒 2分 (2)如果增加CACHE容量后,可得其平均访存时间为:

Ta=(1-0.03)×10×1.2+0.03×20×10=17.64毫秒 2分

可见如此改动可以减少平均访问时间.但要考虑增大CACHE的成本来确定是否合适。 2分

(3)如果时钟周期取决于CACHE的访问时间,则每个时钟周期时间延长到12毫秒,失效时的访存时间为20×12=240毫秒, 2分平均访问时间为:

Ta=(1-0.03)×12+0.03×240=18.84毫秒 1分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：610 2、题型：计算题 3、难度级别：5

4、知识点：五、存储层次 5、分值：10

6、所需时间：15分钟

7、试题关键字：编译器预取 8、试题内容：

预取技术能够降低Cache的失效率，由编译器控制的预取是在编译时加入预取指令，在数据被用到之前发出预取请求。

下面的程序，是加入预取指令前后的两组程序，假定：

(1) 我们用的是一个容量为8KB、块大小为16B的直接映象Cache，它采用写回法并且按写分配。

(2) a、b分别为3×100(3行100列)和101×3的双精度浮点数组，每个元素都是8个字节。当程序开始执行时，这些数据都不在Cache内。（3）失效开销较大，预取必须提前7次循环进行。

加入预取指令前的程序

for (i＝0；i < 3；i＝i＋1) for (j＝0；j<100；j＝j＋1)

a[i][j]＝b[j][0]×b[j＋1][0]；

加入预取指令之后的程序

for (j＝0；j＜100；j＝j＋1){

prefetch (b[j＋7][0])；/* 预取7次循环后所需的b(j ,0 )*/ prefetch (a[0][j＋7])；/* 预取7次循环后所需的a(0,j ) */ a[0][j]＝b[j ][0] * b [j＋1][0]； }

for (i＝1; i < 3; i＝i＋1){ for (j＝0; j < 100; j＝j＋1)

prefetch(a[i][j＋7])；/* 预取7次循环后所需的a(i , j ) */ a[i][j]＝b[j][0]×b[j＋1][0]； }

要求：对上面的程序：

1、判断哪些访问可能会导致数据Cache失效，计算失效次数； 2、分析是否存在容量失效和冲突失效。 9、答案内容：

解：数组a的失效情况： 3分

b数组： 3分

故总的失效次数为：150+101=251次 2、Cahe的块数为：8KB/16B=512块

失效一次则需读取主存一块到Cache中，在程序段执行过程中,共读取251块到

Cache中，小于Cache的块数，故不会产生容量失效； 2分

a数组共有300/2=150块 b数组共有150块，可将其全部调入Cache中，故也不会产生冲突失效。 2分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：611 2、题型：计算题 3、难度级别：3

4、知识点：五、存储层次 5、分值：10

6、所需时间：15分钟

7、试题关键字：虚拟存贮器 8、试题内容：

一个二级虚拟存贮器，CPU访问主存M1和辅存M2的平均时间分别为1um和lms。经实测，此虚拟存贮器平均访问时间为100um。试定性提出使虚拟存贮器平均访问时间能从100us下降到10us的几种方法，并分析这些方法在硬件和软件上的代价。 9、答案内容：解：根据实测到的虚拟存贮器平均访问时间TA＝100 us，代入TA＝HTA1+(1- H)TA2式，可得主存命中率

H?TA?TA2100us?1ms??0.901 3分

TA1?TA21us?1ms 在主存命中率H=0．901的情况下，改用更高速度的主存器件，即使是TA1

＝0，此时，

TA=(1一H)TA2＝(1一0．901)×1 ms≈99us 2分

这也是远大于所要求的10us的时间的。所以，应从提高主存命中率H着手。1分

如果要让TA=10us，其命中率

H?TA?TA210us?1000us≈0.991 2分 ?TA1?TA21us?1000us要使H提高到0．991，需要从改进替换算法、调度策略，调整页面大小以及

提高主存容量等多方面综合采取措施。其中，替换算法、调度策略主要是在软件上增加一些代价；页面大小的调整可能会增加辅助硬件上的代价；而主存容量的增加则主要是增加硬件的代价，在辅助硬件上的代价也会略有增大。 2分 10、评分细则：10分/小题，评分细则分布在答案内容中。

---------------------------------------------------------------------

1、试题序号：612 2、题型：计算题 3、难度级别：3

4、知识点：五、存储层次 5、分值：10

6、所需时间：15分钟

7、试题关键字：虚拟存贮器 8、试题内容：

设二级虚拟存贮器的TA1=10-7 s,TA2=10-2s, 为使存贮层次的访问x效率e达到最大值的80％以上，命中率H至少要求达到多少? 实际上这样高的命中率是很难达到的，那么从存贮层次上应如何改进? 9、答案内容：

解：对于二级虚拟存贮器的等效访问时间为

TA＝HTAl十(1一H)TA2

存贮层次的访问效率e＝TA1／TA

将TA式代入e式，可得

e?TA11?

TA2HTA1?(1?H)TA2TA2?(1?)HTA1TA1从而求得

T1TH≥(?A2)/(1?A2) 4分

eTA1TA1 将 TA1=10-7s、TA2=10-2s和e≥80%代入上式

可得

110?210?2?)/(1??7)?0.999999975H≥( 3分 0.810?710 实际上，这样高的命中率是极难达到的，为此需要减少相邻两级的访问速度

差距，或者减少相邻两级存储器的容量差。除此以外，可考虑在主存与辅存之间增加一级存储器，让其速度界于主存与辅存之间的某个中间值。例如，让主存与中间级的访问时间比为1：100，中间级与辅存间的访问时间比为1：1000，将它们配置在相应的辅助软、硬件，组成一个三级存储层次。这样，就可以让第1级主存的命中率降低到

110?510?5??7)/(1??7)?(102?1.25)/99?0.997 3分 H≥(0.8101010、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：613 2、题型：计算题

3、难度级别：2

4、知识点：六、输入输出系统 5、分值：10

6、所需时间：15分钟

7、试题关键字：输入输出系统 8、试题内容：

设一个磁盘的平均寻道时间为20ms，传输速率是1MB/s，控制器开销是2ms，转速为每分钟5400转。求读写一个512字节的扇区的平均时间。 9、答案内容：

解：平均旋转延时 = 0.5/5400转/分 = 0.0056秒 = 5.6ms 2分

平均磁盘访问时间 = 平均寻道时间 + 平均旋转延时 + 传输时间 + 控制器延时 4分

= 20ms + 5.6ms + 0.5KB/1.0MB/s + 2ms = 20+5.6+0.5+2ms = 28.1ms 4分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：614 2、题型：计算题 3、难度级别：1

4、知识点：六、输入输出系统 5、分值：10

6、所需时间：15分钟

7、试题关键字：输入输出系统 8、试题内容：

假设一台计算机的I/O处理时间占响应时间的10％，当I/O性能保持不变，而对CPU性能分别提高10倍和100倍时，计算机的系统总体性能会出现什么样的变化？

9、答案内容：

解：假设原来的程序执行时间为1个单位时间。如果CPU的性能提高10倍，程序的计算（包含I/O处理）时间为： 2分 (1 - 10%)/10 + 10% = 0.19 2分

即整机性能只能提高约5倍，差不多有50％的CPU性能浪费在I/O上。1分如果CPU性能提高100倍，程序的计算时间为： (1 - 10%)/100 + 10% = 0.109 3分

而整机性能只能提高约10倍，表示有90％的性能浪费在没有改进的I/O上了。2分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：615 2、题型：计算题 3、难度级别：2

4、知识点：六、输入输出系统

5、分值：10

6、所需时间：15分钟 7、试题关键字： 8、试题内容：

假设磁盘子系统的组成部件和它们的MTTF如下：

（1）磁盘子系统由10个磁盘构成，每个磁盘的MTTF为1000 000小时。（2）1个SCSI控制器，其MTTF为500 000小时。（3）1个不间断电源，其MTTF为200 000小时。（4）1个风扇，其MTTF为200 0000小时。

（5）1根SCSI连线，其MTTF为1000 000小时。假定每个部件的正常工作时间服从指数分布，即部件的工作时间与故障出现的概率无关，同时假定各部件的故障是相互独立的，试计算整个系统的MTTF。 9、答案内容：

解：整个系统的失效率为：系统失效率

10×1/1000000+1/500000+1/200000+1/200000+1/1000000=23/1000000 5分

系统的MTTF为系统失效率的倒数，即：

MTTF=1000000/23=43500小时，大约为5年。 5分 10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：616 2、题型：计算题 3、难度级别：3

4、知识点：六、输入输出系统 5、分值：10

6、所需时间：15分钟

7、试题关键字：输入输出系统 8、试题内容：

某个任务的处理时间为64秒，CPU在这期间始终忙于处理，I/O处理时间为36秒。为提高系统性能，有两种方案：使CPU速度增加1倍，或者使CPU和I/O速度同时增加1倍。计算这两种情况下的处理时间。 9、答案内容：

解:由题意知,在处理该任务时,CPU与I/O处于并行的时间正好是I/O处理时间;如使CPU的速度增加1倍,则CPU的处理时间为:

Tcpu=64/2=32

则总的处理时间为:T=Tcpu+Ti/o-Toverlap 4分 ∵ Toverlap<=min{Tcpu ,Ti/o}

∴T>=32+36-32=36 3分当两者速度同时增加1 倍时: Tcpu=64/2=32 Ti/o==18 则:

T>=32+18-18=32 3分

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：617 2、题型：计算题 3、难度级别：3

4、知识点：六、输入输出系统 5、分值：10

6、所需时间：15分钟

7、试题关键字：输入输出系统 8、试题内容：

假设在一个计算机系统中：

(1)每页为32KB，Cache块大小为128字节；

(2)对应新页的地址不在Cache中，CPU不访问新页中的数据； (3)Cache中95％的被替换块将再次被读取，并引起一次失效； (4)Cache使用写回方法，平均60％的块修改过； (5)I/O系统缓冲能够存储一个Cache完整的块（这称为速度匹配缓冲区，使

存储器和I/O的速度得到匹配）；

(6)访问或失效在所有的Cache中均匀分布；

(7)在CPU和I/O之间，没有其它访问Cache的干扰； (8)无I/O时，每100万个时钟周期中，有18000次失效；

(9)失效开销是40个时钟周期。如果替换块被修改过，则再加上30个周期

用于写回主存；

(10) 假设机器平均每200万周期处理1页。分析I/O对于性能的影响有多大？ 9、答案内容：

解：每个主存页有32K/128＝256块。

因为是按块传输，所以I/O传输本身并不引起Cache失效。但是它可能要替换Cache中的有效块。如果这些被替换块中有60％是被修改过的，将需要（256×60％）×30＝4608个时钟周期将这些被修改过的块写回主存。 3分

这些被替换出去的块中，有95％的后继需要访问，从而产生95％×256＝244次失效，将再次发生替换。由于这次被替换的244块中数据是从I/O直接写入Cache的，因此所有块都为被修改块，需要写回主存（因为CPU不会直接访问从I/O来的新页中的数据，所以它们不会立即从主存中调入Cache），需要时间是244×（40＋30）＝17080个时钟周期。3分

没有I/O时，每一页平均使用200万个时钟周期，Cache失效36000次，其中60％被修改过，所需的处理时间为：

（36000×40％）×40＋（36000×60％）×（40＋30）＝2088000（时钟周期）

时钟I/O造成的额外性能损失比例为

（4608＋17080）÷（2000000＋2088000）＝0.53％ 4分即大约产生0.53％的性能损失。

10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：618 2、题型：计算题 3、难度级别：3

4、知识点：七、多处理机 5、分值：10

6、所需时间：15分钟 7、试题关键字：多处理机 8、试题内容：

32个处理器的计算机，对远程存储器访问时间为2000ns。除了通信以外，假设计算中的访问均命中局部存储器。当发出一个远程请求时，本处理器挂起。处理器时钟时间为10ns，如果指令基本的CPI为1.0(设所有访存均命中Cache)，求在没有远程访问的状态下与有0.5%的指令需要远程访问的状态下，前者比后者快多少?

9、答案内容：

解：有0.5%远程访问的机器的实际CPI为

CPI＝基本CPI＋远程访问率×远程访问开销＝1.0＋0.5%×远程访问开销3分远程访问开销＝远程访问时间/时钟时间

＝2000ns/10ns＝200个时钟3分 ∴ CPI＝1.0＋0.5%×200＝2.02分

它为只有局部访问的机器的2.0／1.0＝2倍， 2分

因此在没有远程访问状态下的机器速度是有0.5%远程访问机器速度的2倍。 10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：619 2、题型：计算题 3、难度级别：3

4、知识点：七、多处理机 5、分值：10

6、所需时间：15分钟 7、试题关键字：多处理机 8、试题内容：

若令8*8矩阵A=（aij）以行为主存放在主存储器中，用什么样的单级互连网络可使A转换成转置矩阵AT？总共需要传送多少步？ 9、答案内容：

解：这个8*8的矩阵如下: 3分

000000 000001 ...... 000111 001000 001001 ...... 001111 ...... ...... ...... ...... 111000 111001 ...... 111111

转换成转置矩阵后:如下 4分 000000 001000 ...... 111000 000001 001001 ...... 111001

...... ...... ...... ...... 000111 001111 ...... 111111

就是把前三位与后三位对调位置而成.所以使用以下复合互连函数可以完成:Shuffle(Shuffle(Shuffle))

就是进行三次全混洗就可把行与列的单元互换.因为总数有8*8=64个数,而在对角线上的八个数是不必调换的,所以总步数为3*(64-8)=168(步)。3分 10、评分细则：10分/小题，评分细则分布在答案内容中。

----------------------------------------------------------------------

1、试题序号：620 2、题型：计算题 3、难度级别：5

4、知识点：七、多处理机 5、分值：10

6、所需时间：15分钟 7、试题关键字：多处理机 8、试题内容：

试确定在下列4种计算机系统中，计算下列表达式所需时间。

S??(Ai?Bi)

i?18其中，加法需用30ns，乘法需用50ns。在SIMD和MIMD计算机中，数据由一个PE（处理单元）传送到另一个PE需要10ns，而在SISD计算机中数据传送时间可忽略不计。在SIMD计算机中，PE间以线性圆环方式互连（以单向方式传送数据），而在MIMD计算机中，PE间以全互连方式连接。（1）具有一个通用PE的SISD计算机系统；

（2）具有一个加法器和一个乘法器的多功能部件的SISD计算机系统；（3）具有8个PE的SIMD计算机系统；具有8个PE的MIMD计算机系统。 9、答案内容：

解：(1)具有一个通用PE的SISD计算机系统:

这是最花时间的一个系统,得做一次加法,做一次乘法,按顺序进行:其所用时间为:

30*8+50*(8-1)=590(ns) 2分

(2)具有一个加法器和一个乘法器的多功能部件的SISD 计算机系统:

按题意,这可以是一个标量机, 其中的加法和乘法可以有部分重叠进行,其所用时间为:其并行时空图简示如下：

加

1 2 3 4 5 6 7 8 法乘

1 2 3 4 5 6 7 8 法 30+30+50*(8-1)=410(ns)

其中的两个30是指开始阶段,先要算出两个和的时间。 2分 (3)具有8个PE的SIMD计算机系统:

本文来源：https://www.bwwdw.com/article/jdqp.html

相关文章：