多媒体技术基础第3版Q-A

更新时间：2023-05-18 02:39:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

多媒体的一本好书

《多媒体技术基础》第3版练习与思考题参考答案

林福宗

清华大学计算机科学与技术系 2008-2-15

linfz@

第1章多媒体技术概要

1.1 多媒体是什么？

多媒体是融合两种或者两种以上媒体的一种人-机交互式信息交流和传播媒体。使用的媒体包括文字、图形、图像、声音、动画和视像(video)。

1.2 超链接是什么？

超链接(hyper link)是两个对象或元素之间的定向逻辑链接，是一个对象指向另一个对象的指针。建立互相链接的这些对象不受空间位置的限制，可在同一个文件、在不同的文件或在世界上任何一台连网计算机上。

1.3 超文本是什么？

超文本是包含指向其他文档或文档元素的指针的电子文档。与传统的文本文件相比，它们之间的主要差别是，传统文本是以线性方式组织的，而超文本是以非线性方式组织的。这种文本的组织方式与人们的思维方式和工作方式比较接近。

1.4 无损压缩是什么？

无损压缩是用压缩后的数据进行重构(也称还原或解压缩)，重构后的数据与原来的数据完全相同的数据压缩技术。

无损压缩用于要求重构的数据与原始数据完全一致的应用，如磁盘文件压缩就是一个应用实例。根据当前的技术水平，无损压缩算法可把普通文件的数据压缩到原来的1/2～1/4。常用的无损压缩算法包括哈夫曼编码和LZW等算法。

1.5 有损压缩是什么？

有损压缩是用压缩后的数据进行重构，重构后的数据与原来的数据有所不同，但不影响人对原始资料表达的信息造成误解的数据压缩技术。

有损压缩适用于重构数据不一定非要和原始数据完全相同的应用。例如，图像、视像和声音数据就可采用有损压缩，因为它们包含的数据往往多于我们的视觉系统和听觉系统所能感受的信息，丢掉一些数据而不至于对图像、视像或声音所表达的意思产生误解。

1.6 SGML是什么语言？SGML语言的精华是什么？HTML是什么语言？HTML语言与SGML

语言是什么关系？

多媒体的一本好书

(1) 1986年国际标准化组织(ISO)采用的信息管理标准。该标准定义独立于平台和应用的文本文档的格式、索引和链接信息，为用户提供一种类似于语法的机制，用来定义文档的结构和指示文档结构的标签。

(2) SGML的精华是把文档的内容与样式分开处理。

(3) HTML是用来创建超文本文档的标记语言，也是创建Web网页用的标记语言。 (4) HTML是SGML的一个子集。

1.7 有人认为“因特网就是万维网”，这种看法对不对？为什么？

(1) 不对。

(2) 因特网是专指全球范围内最大的、由众多网络相互连接而成的、基于TCP/IP协议的计算机网络；万维网是指分布在全世界所有HTTP服务器上互相连接的超媒体文档的集合。

1.8 组成万维网的4个核心部分是什么？

(1) 超文本传输协议(HTTP)；

(2) 文档格式标准，包括HTML，XML，XHTML； (3) 执行HTTP协议的Web浏览器； (4) 执行HTTP协议的Web服务器。

1.9 H.261~H.264和G.711~G.731是哪个组织制定的标准？

国际电信联盟(ITU)。

1.10 MPEG-1，MPEG-2和MPEG-4是哪个组织制定的标准？

ISO/IEC，即国际标准化组织(ISO)/ 国际电工技术委员会(IEC)。

1.11 因特网标准是哪个组织制定的标准？

因特网标准是ISOC(因特网协会或称互联网协会)协调的4个组制定的。

ISOC负责协调的4个组：(1) 因特网工程特别工作组(IETF)；(2) 因特网体系结构研究部(IAB)：(3) 因特网工程指导组(IESG)；(4) 因特网研究特别工作组(IRTF)。

1.12 HTML和XML语言是哪个组织制定的标准？

万维网协会(World Wide Web Consortium, W3C)。

1.13 阐述你对数据、内容、信息、知识和智慧的理解。

(1) 数据(data)是以数字、字符或图像等可读语言或其他记录方法表示的事实、概念或指令，适用于人或自动装置进行通信、解释或处理。数据本身没有意义，通常需要在一定的语义环境中才有意义

(2) 内容(content)是对数据的描述，

(3) 信息(information)是对内容的解释，信息是数据的含义。

(4) 知识(knowledge)是在某个感兴趣领域中的事实、概念和关系。

(5) 智慧(wisdom)是知识累积后产生的洞察力、判断力和发明创造能力。

多媒体的一本好书

第2章无损数据压缩

2.1假设{a,b,c}是由3个事件组成的集合，计算该集合的决策量。(分别用Sh，Nat和Hart

作单位)。

H0 (log23) Sh

= (loge3) Nat

= (log103) Hart = 1.580 Sh

= 1.098 Nat = 0.477 Hart

2.2 现有一幅用256级灰度表示的图像，如果每级灰度出现的概率均为p(xi)=1/256，

i=0,",255，计算这幅图像数据的熵。 H(X)= ∑p(xi)log2p(xi)= 256×(

i=1n

11×log2)=8 (位)， 256256

也就是每级灰度的代码就要用8比特，不能再少了。

2.3现有8个待编码的符号m0,",m7，它们的概率如练习_表2-1所示，计算这些符号的霍

夫曼码并填入表中。答案不唯一）。

练习表2-1

待编码符号

概率

分配的代码

代码长度(比特数)

m1m2m3m4m5=

m6m7

2.4 现有5个待编码的符号，它们的概率见练习表2-2。计算该符号集的：(1) 熵；(2)霍夫

曼码；(3) 平均码长。

练习表2-2

符号概率 (1) 熵

a2 a1 a3 a4 a5

H(ai)= ∑p(ai)log2p(ai)=-0.4×log2(0.4)-2×0.2*log2(0.2)-2×0.1log2(0.1)

i=1

=0.4×1.3219+0.4×2.3219+0.2×3.3219=0.5288+-0.9288+0.6644=2.1220 (位) (2) 编码树和霍夫曼码

多媒体的一本好书

练习图2-1 编码树编码表

符号

概率

霍夫曼码*

码长

所需位数

a2 a1 a3 a4 a5

*代码分配不唯一 (3) 平均码长

=0.4+0.4+0.6+0.4+.04=2.2(位/符号)

2.5 使用算术编码生成字符串games的代码。字符g, a, m, e, s的概率见练习表2-3。

练习表2-3

符号概率 1.0

g0.6

a0.4

m0.20.1s0.0

0.6

0.76

0.776

0.7776

1.00.840.7920.77920.77776

练习图2-2 games的算术码

2.6字符流的输入如练习表2-4所示，使用LZW算法计算输出的码字流。如果对本章介绍的

LZW算法不打算改进，并按表2-17所示步骤计算，请核对计算的输出码字流为： (1) (2) (4) (3) (5) (8) (1) (10) (11) …。

练习表2-4

输入位置 1

91011121314151617…

多媒体的一本好书

输入字符流 a输出码字 a

b-aba

a-aaa

a-a

a…

baba

练习表2-5

步骤位置

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) …

词典

a b c ab ba abc cb bab baba aa aaa aaa …

输出码字

(1) (2) (4) (3) (5) (8) (1) (10) (11) …

… …

2.7 LZ78算法和LZ77算法的差别在哪里？

(1) LZ77编码算法的核心是查找从前向缓冲存储器开始的最长的匹配串(2.4.2 LZ77算法)。

(2) LZ78的编码思想是不断地从字符流中提取新的缀-符串(String)，通俗地理解为新“词条”，然后用“代号”也就是码字(Code word)表示这个“词条”。这样一来，对字符流的编码就变成了用码字(Code word)去替换字符流(Charstream)，生成码字流(Codestream)，从而达到压缩数据的目的。(2.4.4 LZ78算法)

2.8 LZSS算法和LZ77算法的核心思想是什么？它们之间有什么差别？

(1) LZSS通过输出真实字符解决了在窗口中出现没有匹配串的问题，但这个解决方案包含有冗余信息。(2.4.3 LZSS算法)

(2) LZ77编码算法的核心是查找从前向缓冲存储器开始的最长匹配串(2.4.2 LZ77算法)

2.9 LZW算法和LZ78算法的核心思想是什么？它们之间有什么差别？

(1) LZW算法和LZ78算法的核心思想都是不断地从字符流中提取新的缀-符串(String)，通俗地理解为新“词条”，然后用“代号”也就是码字(Code word)表示这个“词条”。这样一来，对字符流的编码就变成了用码字(Code word)去替换字符流(Charstream)，生成码字流(Codestream)，从而达到压缩数据的目的。(2.4.4 LZ78算法)

(2) 在编码原理上，LZW与LZ78相比有如下差别：① LZW只输出代表词典中的缀-符串(String)的码字(code word)。这就意味在开始时词典不能是空的，它必须包含可能在字符流中出现的所有单个字符，即前缀根(Root)。② 由于所有可能出现的单个字符都事先包含在词典中，每个编码步骤开始时都使用一字符前缀(one-character prefix)，因此在词典中搜索的第1个缀-符串有两个字符。③ 新前缀开始的字符是先前缀-符串(C)的最后一个字符，这样在重构词典时就不需要在码字流中加入额外的字符。(2.4.5 LZW算法)

多媒体的一本好书

2.10 你是是否同意“某个事件的信息量就是某个事件的熵”的看法。

“信息量(information content)是具有确定概率事件的信息的定量度量”，而“熵(entropy)是事件的信息量的平均值，也称事件的平均信息量(mean information content)”。

第3章数字声音编码

3.1 音频信号的频率范围大约多少？话音信号频率范围大约多少？ (1) Audio: 20~20000 Hz (2) Speech: 300~3400 Hz

3.2 什么叫做模拟信号？什么叫做数字信号？

(1) 模拟信号是幅度或频率发生连续变化的一种信号。

(2) 数字信号是以二进制代码形式表示有无或高低的一种信号。

3.3 什么叫做采样？什么叫做量化？什么叫做线性量化？什么叫做非线性量化？

(1) 采样：在某些特定的时刻对模拟信号进行测量的过程。

(2) 量化：幅值连续的模拟信号转化成为幅值离散的数字信号的过程。 (3) 线性量化：在量化时，信号幅度的划分是等间隔的量化。 (4) 非线性量化：在量化时，信号幅度的划分是非等间隔的量化。

3.4 采样频率根据什么原则来确定？

奈奎斯特理论和声音信号本身的最高频率。采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音。

3.5 样本精度为8位的信噪比等于多少分贝？

48 分贝

3.6 声音有哪几种等级？它们的频率范围分别是什么？

表3-1 声音质量和数据率质量电话*

采样频率 (kHz)

样本精度 (bit/s)

单道声/ 立体声

数据率(kb/s) (未压缩) 64.0 88.2 705.6 1411.2 1536.0

频率范围 200～3 400 Hz 20～15 000Hz 50～7 000Hz 20～20 000 Hz 20～20 000 Hz

单道声

单道声 8 16 16 16

立体声立体声立体声

3.7 选择采样频率为22.050 kHz和样本精度为16位的录音参数。在不采用压缩技术的情况

下，计算录制2分钟的立体声需要多少MB(兆字节)的存储空间(1MB=1024×1024B) (22050×2×2×2×60)/(1024×1024) ＝ 10.09 MB

3.8 什么叫做均匀量化？什么叫做非均匀量化？

多媒体的一本好书

(1) 均匀量化：采用相等的量化间隔对采样得到的信号进行量化。它是线性量化的另一种说法。

(2) 非均匀量化：采用非相等的量化间隔对采样得到的信号进行量化。例如，对大的输入信号采用大的量化间隔，对小的输入信号采用小的量化间隔。它是非线性量化的另一种说法。

3.9 什么叫做μ率压扩？什么叫做A率压扩？

(1) 在脉冲编码调制(PCM)系统中，一种模拟信号和数字信号之间进行转换的CCITT压(缩)扩(展)标准。在北美PCM电话网中，使用μ率压扩算法。

(2) 在脉冲编码调制(PCM)系统中，一种模拟信号和数字信号之间进行转换的CCITT压

(缩)扩(展)标准。在欧洲电话网，使用A律压扩算法。

对于采样频率为8 kHz，样本精度为13比特、14比特或16比特的输入信号，使用μ律压扩编码或使用A律压扩编码，经过PCM编码器之后每个样本的精度为8比特，输出的数据率为64 kbps。

3.10 G.711标准定义的输出数据率是多少？T1的数据率是多少？T2的数据率是多少？

(1) G.711使用μ率和A率压缩算法，信号带宽为3.4 kHz，压缩后的数据率为64 kbps。 (2) T1总传输率：1.544 Mbps。 (2) T2总传输率：6.312 Mbps。

3.11 自适应脉冲编码调制(APCM)的基本思想是什么？

根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化。

3.12 差分脉冲编码调制(DPCM)的基本思想是什么？

利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。这种技术是根据过去的样本去估算(estimate)下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值，这就降低了传送或存储的数据量。此外，它还能适应大范围变化的输入信号。

3.13 自适应差分脉冲编码调制(ADPCM)的两个基本思想是什么？

ADPCM综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是：①利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值, ②使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。

第4章彩色数字图像基础

4.1 什么叫做真彩色和伪彩色？

在一幅彩色图像中，每个像素值有R，G，B三个基色分量，每个基色分量直接决定显

R，示设备的基色强度，这样产生的彩色称为真彩色。例如用RGB 5∶5∶5表示的彩色图像，

多媒体的一本好书

G，B各用5位，用R，G，B分量大小的值直接确定三个基色的强度，这样得到的彩色是真实的原图彩色。现在，通常把每个像素的颜色值用24位表示的颜色叫做真彩色。24位表示

的颜色总数：2＝ 16 777 216 种颜色。

4.2什么叫做屏幕分辩率和图像分辩率？查看你使用的计算机的所有屏幕分辩率。

(1) 屏幕分辩率是显示设备再现图像的精细程度的度量方法；图像分辨率是图像精细程度的度量方法。

(2) 在Windows的主界面下，单击鼠标器的右键→在弹出的菜单上点击“属性”→在弹出的“显示属性”窗口上点击“设置”按钮→然后点击“高级”按钮→在弹出的“默认监视器和…”窗口上点击“适配器”按钮→再点击“列出所有模式(L)…”按钮，就可看到你的计算机的所有屏幕分辩率。

4.3一个像素的RGB分量分别用3，3，2位表示的图像，该幅图像的颜色数目最多是多少？

如果有一幅256色的图像，问该图的颜色深度是多少？ (1) 256 种；(2) 8 位

4.4 按照JPEG标准的要求，一幅彩色图像经过JPEG压缩后还原得到的图像与原始图像相比

较，非图像专家难以找出它们之间的区别，此时的最大压缩比是多少？ 24:1

4.5 JPEG压缩编码算法的主要计算步骤是：① DCT变换，② 量化，③ Z字形编码，④ 使

用DPCM对直流系数(DC)进行编码，⑤ 使用RLE对交流系数(AC)进行编码，⑥ 熵编码。假设计算机的精度足够高，在上述计算方法中，哪些计算对图像的质量是有损的？哪些计算对图像的质量是无损的？

算法名称 ① DCT变换 ② 量化 ③ Z字形编码

4.6 什么叫做γ校正？

在屏幕上显示用离散量表示的色彩时采用的一种色彩调整技术。计算机显示器和电视采用的阴极射线管产生的光亮度与输入的电压不成正比，而是等于以某个常数为底，以输入电压为指数的数，这个常数称为γ，它的值随显示器的不同而改变，一般在2.5左右。

4.7 什么叫做α通道？它的作用是什么？

在每个像素用32位表示的图像表示法中的高8位，用于表示像素在一个对象中的透明度。例如，用两幅图A和B混合成一幅新图New，新图的像素为：New pixel =(alpha)(pixel A color) +(alpha)(pixel B color)。在计算机环境下，α通道可存储在帧缓冲存储器中的附加位平面上。对于32位帧缓冲存储器，除高8位是α通道外，其余24位是颜色位，红、绿和蓝各占8位。

4.8 PNG图像文件格式的主要特点是什么？

PNG用来存储灰度图像时，灰度图像的深度可多到16位，存储彩色图像时，彩色图像的深度可多到48位，并且还可存储多到16位的α通道数据。详见“4.7.4 PNG格式”。

有损/无损无损有损无损

算法名称

④ 使用DPCM对直流系数(DC)进行编码 ⑤ 使用RLE对交流系数(AC)进行编码 ⑥ 熵编码

有损/无损无损无损无损

多媒体的一本好书

4.9 什么叫做图形(graphics)、图像(image)、位图(bitmap )和图形图像(graphical image)？

(1) 图形：按照数学规则用绘图软件(如Adobe Illustrator)或图形输入设备创建的图，如工程图和结构图。(2) 图像：用像素值阵列表示的人物或场景的图。(3) 位图：用像素值阵列表示的图。(4) 图形图像：表示矢量图的位图。

4.10 通过调查、试验和分析，把BMP，GIF，JPG和PNG格式的一些特性填入下表。

图像文件格式名称有损还是无损压缩

无损无损

256

有损 16 777 216

无损 16 777 216

支持的最大颜色数 16 777 216

第5章颜色的度量体系

5.1 在开拓颜色科学方面, Newton, Thomas Young, Maxwell，Munsell，Ostwald和CIE分别做

出了哪些重要贡献？

(1) Newton：发明了颜色圆，用于度量颜色

(2) Thomas ：认为人的眼睛有三种不同类型的颜色感知接收器，大体上相当于红、绿和蓝三种基色的接收器。

(3) Maxwell：探索了三种基色的关系，并且认识到三种基色相加产生的色调不能覆盖整个感知色调的色域，而使用相减混色产生的色调却可以。他认识到彩色表面的色调和饱和度对眼睛的敏感度比明度低。Maxwell的工作可被认为是现代色度学的基础。

(4) Munsell：开发了第一个广泛被接受的颜色次序制，称为Munsell color-order system或者叫Munsell color system，对颜色作了精确的描述并用在他的教学中。Munsell颜色次序制也是其他颜色体系的基础。

(5) Ostwald：开发了Ostwald颜色体系，根据对颜色起决定作用的波长、纯度和亮度来映射色调、饱和度和明度的值。

(6) CIE定义了许多度量颜色的标准

5.2 什么是颜色空间？对人、显示设备和打印设备，通常采用什么颜色参数来定义颜色？

(1) 颜色空间：表示颜色的一种数学方法，人们用它来指定和产生颜色，使颜色形象化。(2) 对于人来说，可以通过色调、饱和度和明度来定义颜色；对于显示设备来说，人们使用红、绿和蓝磷光体的发光量来描述颜色；对于打印或者印刷设备来说，人们使用青色、品红色、黄色和黑色的反射和吸收来产生指定的颜色。

5.3 什么叫做颜色系统(即颜色体系)？简要说明组织和表示颜色的两种方法。

(1) 组织和表示颜色的方法。

(2) 两种方法：颜色模型(color model)，编目系统(cataloging system)。注：

(1) 颜色模型：在台式机排版和图形艺术中，表示颜色的任何一种方法或约定。在图形艺术和印刷领域，颜色常用Pantone(公司)颜色匹配系统；在计算机图形学方面，以下任何一种不同的色彩系统都可以描述色彩：HSB(色调，饱和度和亮度)，CMY(青，品红，黄)和RGB(红，绿，蓝)。

(2) 颜色空间是颜色模型最普通的例子，RGB, HSB, CMY, CIE XYZ, CIELAB，CMYK和颜色的光谱描述方法都是颜色模型。

多媒体的一本好书

5.4 使用你能够找到的工具和资料，探讨本章介绍的CIE度量体系是否有错误，哪些地方需

1931 RGB ②CIE 1931 XYZ ③CIE 1931 要修改和补充。CIE度量体系包括：① CIE

xyY ④CIE 1960 YUV和CIE YU'V' ⑤CIE 1976 LUV ⑥CIE 1976 LAB ⑦CIELUV LCh和⑧CIELAB LCh (略)

第6章颜色空间变换

6.1 PAL制彩色电视使用什么颜色模型？NTSC制彩色电视使用什么颜色模型？计算机图像显示使用什么颜色模型？ (1) PAL制彩色电视：YUV (2) NTSC制彩色电视：YIQ (3) 计算机图像显示设备：RGB

6.2 用YUV或YIQ模型来表示彩色图像的优点是什么？为什么黑白电视机可看彩色电视图

像？

(1) YUV表示法的优点：① 它的亮度信号(Y)和色度信号(U，V)是相互独立的，因此可以对这些单色图分别进行编码；② 可以利用人眼的特性来降低数字彩色图像所需要的存储容量。YIQ同样具有YUV的这两个优点。

(2) 黑白电视能接收彩色电视信号的道理是利用了YUV/YIQ分量之间的独立性。

6.3 在RGB颜色空间中，当R=G=B，且为任意数值，问计算机显示器显示的颜色是什么颜色？

灰色

6.4 在HSL颜色空间中，当H为任意值，S=L=0时，R，G和B的值是多少？当H＝0, S=1, L

＝0.5，R，G和B的值是多少?

(1) 当H为任意值，S=L=0时， R = G = B = 0

(2) 当H＝0, S=1, L＝0.5时，R＝1，G ＝ B ＝ 0

6.5 打开Windows 操作系统中的“画图”程序，在“编辑颜色”窗口中的红(R)、绿(G)、蓝

(B)和色调(H)、饱和度(S)、亮度(L)对应显示上，如果设置R=G=B＝255，问H, S和L的值分别为多少？分别改变R，G和B的值，观察H，S和L的值的变化。当R=G=B＝255时，H＝160，S=0，L=240。 (2) (略)

6.6 用MATLAB编写RGB到HSL和HSL到RGB颜色空间的转换程序：rgb2hsl.m和hsl2rgb.m。

(略)

6.7 用MATLAB编写Y'CbCr和R'G'B'[0,219]颜色空间的转换程序：RGB2YCbCr和

YCbCr2RGB.m。(略)

第7章小波与小波变换

7.1 写出矢量空间W3的哈尔小波并画出它的波形。

多媒体的一本好书

0≤x<1/16 1

ψ3(x)= 11/16≤x<2/160

0其他 14/16≤x<5/16

ψ3(x)= 15/16≤x<6/162

0其他 18/16≤x<9/16

ψ3(x)= 19/16≤x<10/164

0其他 112/8≤x<13/16

ψ3(x)= 113/8≤x<14/166

0其他

7.2 写出4×4哈尔小波变换矩阵。

先写出：

12/16≤x<3/16

ψ3(x)= 13/16≤x<4/161

0其他 16/16≤x<7/16

ψ3(x)= 17/16≤x<8/163

0其他 110/16≤x<11/16

ψ3(x)= 111/16≤x<12/165

0其他 114/16≤x<15/16

ψ3(x)= 115/16≤x<17

0其他

2 1 2M1=

0 0

001

212

121 200

0 0 1 2 1 2

，

2 1M2= 2

0 01

00 2

1 00

010 001

(1) 4×4哈尔小波变换矩阵：

4 1 4

W=M1M2=

1 4 1 41

4141 41 4

121 200

0 0 1 2 1 2

(2) 规范化的4×4哈尔小波变换矩阵：

多媒体的一本好书

W=M1M2=

0 0

7.3 使用MATLAB中的多级一维小波分解函数例程(function)wavedec，对例7.2所示的函数

作小波变换。(略)

7.4 使用规范化的小波变换算法，用MATLAB编写一个M文件，重新计算

f(x)=[2,5,8,9,7,4, 1, 1]的哈尔小波变换。(略)

第8章小波图像编码

8.1 什么叫做零树？

“零树”是指小波变换系数之间的一种数据结构。因为离散小波变换是一种多分辨率的分解方法，每一级分解都会产生表示图像比较粗糙(低频图像)和比较精细(高频图像)的小波系数，在同一方向和相同空间位置上的所有小波系数之间的关系可用一棵树的形式表示，如果树根和它的子孙的小波系数的绝对值小于某个给定的阈值T(threshold)，那么这棵树就叫做零树。

8.2 解释EZW的含义。

嵌入零树小波编码(embedded zerotree wavelet, EZW)是Shapiro, J. M在1993年开发的一种编码算法。"小波"表示该算法以离散小波变换为基础，以变换后的大系数比小系数更重要以及高频子带中的小系数可以忽略为背景；"零树"表示小波变换系数之间的一种数据结构，用同一方向和相同空间位置上的所有小波系数构成一棵树，如果树根及其子孙的小波系数的绝对值小于某个给定域值，则这棵树就称为零树；"嵌入"表示一幅图像可以分解成一幅低分辨率图像和分辨率由低到高(表示图像细节)的许多子图像，图像合成过程是通过子图像生成许多分辨率不同的图像。EZW编码就是按照用户对图像分辨率的不同要求，编码器进行多次编码，每进行一次编码，域值降低1/2，水平和垂直方向上的图像分辨率各提高1倍。编码从最低分辨率图像开始扫描，每当遇到幅度大于域值的正系数就用符号P表示，幅度小于域值的负系数用符号N表示，树根节点上的系数幅度小于域值而树枝中有大于域值的非零树用符号Z表示，零树用符号T表示，编码的输出是符号集{P, N, T, Z, 0, 1}中的一系列符号。

8.3 如果条件允许，用MATLAB或者其他语言编写执行EZW算法的编码和解码程序 (略)

8.4 解释SPIHT的含义。

多媒体的一本好书

层树分集算法(set partitioning in hierarchical trees, SPIHT)的根据是，图像经过小波变换之后，大部分能量都集中在低频子带。从这个事实出发，最先传送幅度大的系数，这样解码器即使在低速率应用环境下也可得到图像的大部分信息。编码树的结构与EZW算法的结构类似，每一个节点要么没有子节点，要么有4个子节点。在编码过程中，使用三个列表变量存储重要系数和不重要系数。该算法适用于图像的渐进传输，具有比较高的PSNR，复杂度比较低，计算量比较少，位速率容易控制等优点。

8.5 如果条件允许，用MATLAB或者其他语言编写执行SPIHT算法的编码和解码程序。(略) 8.6 请用因特网搜索工具，查找并阅读EBCOT的详细说明。(略)

8.7 如果条件允许，用MATLAB或者其他语言编写执行EBCOT算法的编码和解码程序。(略) 8.8 JPEG 2000有许多功能，请用因特网搜索工具调查和描述它的详细功能。(略)

第9章数字电视基础

9.1电视是什么？电视制是什么？世界上主要的彩色电视制有哪几种？

(1) 电视是捕获、广播和接收活动图像和声音的远程通信系统；(2) 电视制(television system)是传输图像和声音的方法；(3) 目前世界上使用的彩色电视制式主要有PAL，NTSC，SECAM三种，都是模拟彩色电视制式。

9.2 隔行扫描是什么意思？非隔行扫描是什么意思？

(1) 在隔行扫描中，一帧画面分两场，第一场扫描总行数的一半，第二场扫描总行数的另一半。电子束扫完第1行后回到第3行开始的位置接着扫，如图10-01(b)所示，然后在第5、7、……，行上扫，直到最后一行。奇数行扫完后接着扫偶数行，这样就完成了一帧(frame)的扫描。隔行扫描要求第一场结束于最后一行的一半，不管电子束如何折回，它必须回到显示屏顶部的中央，这样就可以保证相邻的第二场扫描恰好嵌在第一场各扫描线的中间。正是这个原因，才要求总的行数必须是奇数。

(2) 在非隔行扫描中，电子束从显示屏的左上角一行接一行地扫到右下角，在显示屏上扫一遍就显示一幅完整的图像。

9.3 电视机和计算机的显示器各使用什么扫描方式？

电视机通常使用隔行扫描；计算机的显示器通常使用非隔行扫描。

9.4 在ITU-R BT.601标准中，PAL和NTSC彩色电视的每一条扫描线上的有效显示像素是多

少?

720个像素

9.5 S-Video信号是什么？它的连接器结构是什么样？

S-Video(Separate Video)是亮度信号(Y)和色度信号(C)分开录制和处理的一种电视信号。S-Video是分量模拟电视信号和复合模拟电视信号的一种折中方案。使用S-Video有两个优点：(1) 减少亮度信号和色差信号之间的交叉干扰。(2) 不须要使用梳状滤波器来分离亮度信号和色差信号，这样可提高亮度信号的带宽。

S-Video连接器的结构和外形可用搜索引擎的图片搜索功能找到。

注：S-VHS和Hi-8摄像机以及盒式录像机(video cassette recorder，VCR)使用这种技术，它比标准的VHS和8毫米格式的设备提供质量比较高的彩色图像。在使用S-video技术的设

多媒体的一本好书

备上，电视信号的输出除含有分离的亮度(Y)和色差信号(C)输出外，还有复合彩色全电视信号。S-video设备与其他设备连接的连接器使用S-video连接器，而不是普通的RCA连接器。有些电视图像卡和高档家用录像机(VCR)可以支持这种信号。

9.6 对彩色图像进行子采样的理论根据是什么？

人的视觉系统所具有的两种特性。一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低，利用这个特性可以把图像中表达颜色的信号去掉一些而使人不易察觉；二是人眼对图像细节的分辨能力有一定的限度，利用这个特性可以把图像中的高频信号去掉而使人不易察觉。子采样是压缩彩色电视信号的一种技术。

9.7 图像子采样是在哪个彩色空间进行的？

在YCbCr颜色空间

9.8 一幅YUV彩色图像的分辨率为720×576像素。分别计算采用4:2:2、4:1:1和4:2:0子采

样格式采样时的样本数。

(1) 4:4:4 这种采样格式不是子采样格式，它是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、4个红色差Cr样本和4个蓝色差Cb样本，这就相当于每个像素用3个样本表示。

720×576×3 ＝ 1 244 160

(2) 4:2:2 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本，平均每个像素用2个样本表示。

720×576×2 ＝ 829 440

(3) 4:1:1 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本，平均每个像素用1.5个样本表示。

720×576×1.5 ＝ 622 080

(4) 4:2:0 这种子采样格式是指在水平和垂直方向上每2个连续的采样点上取2个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本，平均每个像素用1.5个样本表示。

720×576×1.5 ＝ 622080

9.9 数字电视是什么？

DTV) 是用数据压缩技术和数字传输技术的远程数字电视(digital television / digital TV，

通信系统

9.10 在目前的数字电视传输方式中，有哪3种主要传输方式？

目前传输数字电视用得最多的方式是使用卫星、地面广播和电缆，用它们传输的电视分别称为地面数字电视(digital terrestrial TV)、卫星数字电视(digital satellite TV)和有线数字电视(digital cable TV)。

9.11 高清晰度电视(HDTV)是什么？

高清晰度电视(high definition television，HDTV)是具有正常视力的观众可得到与观看原始景物时的感受几乎相同的数字电视。通常认为，在观众与显示屏之间的距离等于3倍显示屏高度的情况下就可获得这种感受。

多媒体的一本好书

9.12 你是否同意将DVB(Digital Video Broadcasting)译成“数字电视广播(技术)”而将

DTV(digital television / digital TV)译成“数字电视”；你是否同意“video是television的同义词”的说法。略。

第10章 MPEG简介

10.1制定MPEG标准有哪4个阶段以及各阶段提交什么类型的文件？

(1) 工作文件(Working Draft，WD)：工作组(Working Group，WG)准备的工作文件 (2) 委员会草案(Committee Draft，CD)：从工作组WG准备好的工作文件WD提升上来的文件。这是ISO文档的最初形式，它由ISO内部正式调查研究和投票表决。

(3) 国际标准草案(Draft International Standard，DIS)：投票成员国对CD的内容和说明满意之后由委员会草案CD提升上来的文件。

(4) 国际标准(International Standard，IS)：由投票成员国、ISO的其他部门和其他委员会投票通过之后出版发布的文件。

10.2 MPEG-1, -2, -4，-7，-21分别是什么标准，各自要达到的目标是什么？

MPEG-1是数字电视标准。MPEG-1处理的是标准图像交换格式的电视，即NTSC制为352像素×240行/帧×30帧/秒，PAL制为352像素×288行/帧×25帧/秒，压缩的输出速率定义在1.5 Mbit/s以下。这个标准主要是针对当时具有这种数据传输率的CD-ROM和网络而开发的，用于在CD-ROM上存储数字影视和在网络上传输数字影视。

MPEG-2是数字电视标准。MPEG-2标准是一个直接与数字电视广播有关的高质量图像和声音编码标准，是MPEG-1的扩充。MPEG-2提供位速率的可变性能功能，其最基本目标是：位速率为4～9 Mbit/s，最高达15 Mbit/s。

MPEG-4是视听对象编码标准。MPEG-4是为视听数据的编码和交互播放开发算法和工具，是一个数据速率很低的多媒体通信标准。MPEG-4的目标是要在异构网络环境下能够高度可靠地工作，并且具有很强的交互功能。

MPEG-7是多媒体内容描述接口标准。MPEG-7的名称叫做多媒体内容描述接口，目的是制定一套描述符标准，用来描述各种类型的多媒体信息及它们之间的关系，以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下，数据类型还可包括面部特性和个人特性的表达。

MPEG-21是多媒体框架标准。MPEG- 21企图描述多媒体的元数据(metadata)，用于全球多媒体对象的集成、创建、使用、操作、管理和传送等操作，便于不同人群在异构网络环

MPEG-21境下使用各种多媒体资源，它的目标是为未来多媒体的应用提供一个完整的平台。

要解决的核心问题是资源共享、知识产权和版权的管理与保护。

10.3 MPEG-A, -B, -C, -D和-E分别是什么标准？

MPEG-A：多媒体应用格式标准，集成多种MPEG技术以提供专用的格式； MPEG-B：为专用系统提供系统技术标准； MPEG-C：为专用电视提供电视技术标准；

元数据(metadata)是描述数据本身特性的数据，如描述包含在数据流中的声音和视像数据的元数据，描

述文件中的标题、主题、作者和大小等的元数据。

多媒体的一本好书

MPEG-D：为专用声音提供声音技术标准；

MPEG-E：为应用程序提供下载和执行功能的多媒体中间件标准

10.4 说明电视规格MP@ML和HP@HL各自的含义。

MP@ML (Main Profile, Main Level)指的是具有这种特性的电视：分辨率为720×576×30，子采样格式为4:2:0，位速率可高达15 Mbps。

HP@HL (High Profile, High Level)指的是具有这种特性的电视：分辨率为1920×1152×60，子采样格式为4:2:0或者4:2:2，位速率可高达80 Mbps。

第11章 MPEG声音

11.1 列出你所知道的听觉系统的特性。

响度感知, 音高感知, 掩蔽效应

11.2 什么叫做听阈？什么叫做痛阈？

(1) 当声音弱到人的耳朵刚刚可以听见时，称此时的声音强度为“听阈”

(2) 当声音强到人的耳朵刚刚感到疼痛时，称此时的声音强度为“听阈”。实验表明，如果频率为1 kHz的纯音的声强级达到120 dB左右时，人的耳朵就感到疼痛，这个阈值称为“痛阈”。

11.3 什么叫做频域掩蔽？什么叫做时域掩蔽？

(1) 强纯音掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽。 (2) 在时间方向上相邻声音之间的掩蔽，这种特性称为时域掩蔽。

11.4 MPEG-1的层1、2和3编码分别使用了听觉系统的什么特性？

层1：频域掩蔽特性；

层2：频域掩蔽特性 + 时间掩蔽特性；

层3：频域掩蔽特性 + 时间掩蔽特性 + 临界频带特性(声音频率与掩蔽曲线不是线性关系)；

11.5 MPEG-1的层1、2和3编码器的声音输出速率范围分别是多少？

层1：384 kbps

层2：256～192 kbps 层3：128～112 kbps

11.6 MPEG-1的声音质量是： AM FM 电话 near-CD CD-DA

□ AM □ FM □ 电话 √□ near-CD □ CD-DA

11.7 什么叫做5.1声道立体环绕声？什么叫做7.1声道立体环绕声？

(1) “5.1环绕声”也称为“3/2-立体声加LFE”，其中的“.1”是指LFE声道。它的含义是播音现场的前面可有3个喇叭声道(左、中、右)，后面可有2个环绕声喇叭声道，LFE是低频音效的加强声道。

7.1声道环绕立体声与5.1类似。

多媒体的一本好书

11.8 简述MPEG-2 AAC的特性。

MPEG-2 AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准。它使用听觉系统的掩蔽特性来减少声音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。

AAC支持的采用频率可从8 kHz到96 kHz，AAC编码器的音源可以是单声道的、立体声的和多声道的声音。AAC标准可支持48个主声道、16个低频音效加强通道LFE、16个配音声道或者叫做多语言声道和16个数据流。

MPEG-2 AAC在压缩比为11:1，即在每个声道的数据率为(44.1×16 )/11=64 kbps，而5个声道的总数据率为320 kbps的情况下，很难区分还原后的声音与原始声音之间的差别。与MPEG-Audio层2相比，MPEG-2 AAC的压缩率可提高1倍，而且质量更高，与MPEG的层3相比，在质量相同的条件下数据率是它的70%。

11.9 什么叫做自然声音？什么叫做合成声音？

自然声音通常是指人、动物等发出的声音、弹奏乐器或其他音源自然发出的声音。合成声音通常指合成器生成的声音，如MIDI。

11.10 什么叫做TTS？至少列举TTS的3个潜在应用例子。

通过话音合成设备自动地把基于文字的数据转换为声音输出的一种技术。文语转换的最终目标是要使计算机像人一样输出清晰而又自然的声音，也就是说，根据文本的内容可以不同的情调来朗读任意的文本。TTS是一个十分复杂的系统，涉及到语言学、语音学、信号处理、人工智能等诸多的学科。尽管现有的TTS系统结构各异，转换方法不同，但是基本上可以分成两个相对独立的部分：①文本分析，通过对输入文本进行词法分析、语法分析，甚至语义分析，从文本中抽取音素和韵律等发音信息。②语音合成，使用从文本分析得到的发音信息去控制合成单元的谱特征(音色)和韵律特征(基频、时长和幅度)，送入声音合成器(软件或硬件)产生相应的语音输出。

通过电话访问信息，朗读文本，盲人计算机等。

11.11说出窄带话音和宽带话音的频率范围和编码时使用的采样频率。

对100~3800 Hz的窄带话音使用8 kHz采样率，对50 ~7000 Hz的宽带话音使用16 kHz的采样率。

11.12 MP3是什么？MP4是什么？

MP3 (MPEG Audio Layer 3)的含义有两种：① MPEG-1声音层3：MPEG-1 Audio标准中定义的声音压缩技术。MPEG声音的压缩技术分为1层，2层和3层。层1典型的压缩比为1:4，相应的数据率为384 kbps；层2典型的压缩比为1:6～1:8，数据率为256～192 kbps；层3典型的压缩比为1:10～1:12，相应的数据率为128～112 kbps，声音质量接近CD-DA；② MP3文件：使用MPEG-1声音层3压缩技术和存储格式的声音文件。MP3文件是目前因特网上最流行的文件，它的文件扩展名是.mp3，可以下载到袖珍MP3播放机或计算机上播放。

MP4目前的主要含义有两种: ① 文件格式：MPEG-4标准定义的文件格式，可包含视像、自然和合成声音、二维和三维图形、动画文字等各种媒体的内容，可用于存储和网上传输；② MP4声音文件：使用MPEG-4 AAC压缩技术和存储格式的声音文件，它的文件扩展名为.mp4。

多媒体的一本好书

第12章 MPEG视像

12.1电视图像数据中有哪些冗余数据可去掉，目前分别采用什么方法减少冗余数据？电视图像数据中的冗余数据可归纳成两类：人的视觉特性感觉不到的冗余数据和电视图像数据自身的冗余数据，针对不同类型的冗余采用不同方法减少冗余，详见下表。

视像压缩利用的各种冗余信息

种类空间冗余时间冗余知识冗余视觉冗余其他

内容

像素间的相关性时间方向上的相关性

目前用的主要方法变换编码，预测编码帧间预测，移动补偿轮廓编码，区域分割非线性量化，位分配

图像构造冗余图像本身的构造

人的视觉特性不确定性因素

收发两端对人物的共有认识对象编码，知识编码

12.2 在MPEG视像数据压缩技术中，目前利用了视觉系统的哪两种特性？

人的视觉系统具有的两种特性可以用来压缩电视图像数据。一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低，利用这个特性可以把图像中表达颜色的信号去掉一些而使人不易察觉；二是人眼对图像细节的分辨能力有一定的限度，利用这个特性可以把图像中的高频信号去掉而使人不易察觉。

12.3 MPEG-1编码器输出的电视图像的数据率大约是多少？

1.15 Mbps

12.4 MPEG专家组在制定MPEG-1/-2 Video标准时定义了哪几种图像？哪种图像的压缩率最

高？哪种图像的压缩率最低？

(1) MPEG专家组定义了三种图像：帧内图像I(intra)，预测图像P(predicted )和双向预测图像B (bi-directionally interpolated )。

(2) 双向预测图的压缩率最高，帧内图像的压缩率最低。

12.5 有人认为“图像压缩比越高越好”。你对这种说法有何看法？

在图像压缩算法中，为了获得比较高的压缩率，通常要采用有损压缩。如果笼统说“图像压缩比越高越好”是不严格的。因为压缩比越高，意味图像的质量损失越大，重构图像的质量将会越低。如果说“在图像质量相同的前提下，图像压缩比越高越好”是认可的。

12.6 有人说“MPEG-1编码器的压缩比大约是200:1”。这种说法对不对？为什么？

不对。“200:1”是使用子采样、降低图像分辨率和MPEG-1视像压缩技术获得的，而(1)电视图像的子采样(4：1：1)不是MPEG编码器的功能，它的压缩比为2:1；(2)电视图像画面尺寸(如PAL制720×576)的降采样(变成360×288)也不属于MPEG编码器的功能，它的压缩比为4:1。

12.7 电视图像的空间分辨率和时间分辨率是什么意思？

空间分辨率：图像的尺寸。例如，PAL制图像尺寸：720×576，360×288。

时间分辨率：图像的帧数每秒。例如，PAL制电视图像的时间分辨率为30帧/秒，NTSC电视图像的时间分辨率为25帧/秒，电影图像的时间分辨率为24帧/秒。

多媒体的一本好书

12.8 在MPEG-1和MPEG-2中，典型的宏块由多少个像素组成；子采样为4:2:0的宏块分成

多少个亮度图块、红色差图块和蓝色差图块，每个图块由多少个像素组成。在MPEG-1, MPEG-2中，典型的宏块为16×16像素。

在子采样为4:2:0的宏块分成4个亮度图块、1个红色差图块和1个蓝色差图块，每个图块由8×8个像素组成。

12.9 什么叫做移动估算？

移动估算(motion estimation)是计算移动矢量的过程，也就是在参考图像中查找与当前编码图块匹配最佳的图块的过程。

12.10 什么叫做移动补偿？

计算当前编码图块与参考帧中的图块的像素值之差的过程。在编码时，使用移动矢量表示当前帧的图块相对于过去或将来帧的图块的偏移量，使用当前帧的与过去或将来帧的像素值的差值表示图像的变化程度，这个差值在重构当前帧的图块时作为“补偿量”；在解码时，利用移动矢量确定当前帧的图块相对于过去或将来帧的图块位置，使用过去或将来帧的像素值和编码时得到的补偿量重构当前帧的图块。

第13章 MPEG-4 AVC/H.264视像

13.1 与先前的MPEG-Video视像标准相比，在视像质量相同的前提下，MPEG-4 AVC/H.264

视像标准的压缩效率提高了多少。压缩效率提高2～3倍。

13.2 MPEG-4 AVC/H.264提高编码效率的主要技术是什么？

MPEG-4 AVC/H.264提高编码效率的主要改进技术包括：

(1) 采用可变图块大小的帧间预测和移动补偿，预测图块的大小不再局限于16×16像素，可小到4×4像素，这样就提高了预测精度，如将移动矢量精度提高到1/4个像素。

(2) 采用空间的帧内预测，预测图块的大小可以是16×16像素的宏块，也可以是4×4像素的图块，而且定义了多种预测方式，目的是找到相关性最大的预测。

(3) 采用从DCT演变来的称为“整数变换编码”的方法，提高了编码的运算速度。

(4) 熵编码采用编码效率更高的前后文自适应可变长度编码(context-based adaptive variable length coding, CAVLC)和前后文自适应二元算术编码(Context-based Adaptive Binary Arithmetic Coding，CABAC)。

此外，标准还采用了多参考帧(multiple reference frame)和消除“块状失真(因压缩率过高

MPEG-4 AVC/H.264视像与MPEG-2和MPEG-4 导致重构图像呈现的块状外观)”滤波等技术。

Visual的性能比较见表13-3。

第14章光盘存储器

14.1 只读光盘是如何记录“0”和“1”的？

只读光盘通常是指CD/DVD系列只读光盘。在盘上压制凹坑的机械办法来记录“0”和“1”。凹坑的边缘代表“1”，凹坑和非凹坑的平坦部分代表“0”，凹坑的长度和非凹坑的长度都代表有多少个“0”。

多媒体的一本好书

14.2 CD-DA的音乐信号的采样频率为什么选择44.1 kHz？

人耳朵(因人而异)能听到的声音信号频率范围是20～20 000 Hz，为了避免高于20 000 Hz的高频信号干扰采样，在进行采样之前，需要对输入的声音信号进行滤波。考虑到滤波器在20 000 Hz的地方大约有10%的衰减，所以可以用22 000 Hz的2倍频率作为声音信号的采样频率。但是，为了能够与电视信号同步，PAL电视的场扫描为50 Hz，NTSC电视的场

扫描为60 Hz，所以取50和60的整数倍，选用了44 100 Hz作为激光唱盘声音的采样标准。

14.3 激光唱盘音乐信号的样本位数是16，它的信噪比是多少？如果样本位数提高到20，它

的信噪比是多少？ (1) 96分贝 (2) 120分贝

14.4 为什么物理线路上传输的数字信号都需要采用通道编码？

主要原因有两个，一是为了改善读出信号的质量，二是为了在记录信号中提取同步信号。

(例如，有连续多个字节的全“0”信号或者全“1”信号要记录到盘上，如果不作通道编码就把它们记录到盘上，读出时的输出信号就是一条直线，电子线路就很难区分有多少个“0”或者多少个“1”信号。而对于没有规律的数字信号，读出时的信号幅度和频率的变化范围都很大，电子线路很难把“0”和“1”区分开，读出的信息就很不可靠。因此通俗说来，通道编码实际上就是要在连续的“0”之间插入若干个“1”，而在连续的“1”之间插入若干个“0”，并对“0”和“1”的连续长度数目即“行[游]程长度”加以限制。)

14.5 CD盘中的EFM是什么意思？

EFM (eight-to-fourteen modulation)是指由8比特的代码调制成14比特的代码。

(解释：它是一种物理通道编码技术，使用这种技术可增加CD盘上信息凹坑和非凹坑的长度，降低读出信号的频率带宽。CD使用脉冲调宽技术，把8比特的用户数据变换成14比特的通道码。在红皮书和IEC 908标准中，在14比特的码之间增加3个比特的合并位，构成8比特到17比特调制编码。在物理存储器上存储数据或者在物理线路上传输数字信号都需要对用户数据进行通道编码。物理盘上记录的数据和真正的用户数据之间需要做变换处理，这种处理统称为通道编码。采用通道编码的目的主要是两个，第一是为了改善信号质量，使得读出信号的频带变窄；第二是为了在接收端能够从信号本身提取自同步信号。)

14.6 激光唱盘播放机的声音数据传输率是多少？

44100×16×2 ＝ 1.4112 Mbps

14.7 从CD过渡到DVD，科学家和工程技术人员采取了那些主要技术？

(1) 使用波长较短的激光； (2) 加大光盘的记录区域； (3) 使用双面和多层记录； (4) 改进调制和纠错方法。详见14.3.3

14.8 HD DVD和BD盘容量能够达到数十GB的关键技术是什么？

主要采用了波长短的蓝紫色激光和加大了数值孔径。

多媒体的一本好书

第15章光盘存储格式

15.1 试论CD标准的重要性。

(略)

15.2 什么叫做CD盘的物理格式？

存储媒体的存储结构，它规定数据如何放在光盘上。这些数据包括物理扇区的地址、数据的类型、数据块的大小、错误检测和校正码等。

15.3 CD-ROM的扇区地址“00:10:65”表示什么含义？

CD-ROM的扇区地址用“分、秒，分秒(1/75秒)”来表示。00:10:65表示地址为00分10秒65分秒。

15.4 CD-ROM Mode 1和CD-ROM Mode 2有什么差别？

CD-ROM Mode 2与CD-ROM Mode 1相比，存储的用户数据多14%，但是由于没有错误检测和错误校正码，因此在这种方式中，用户数据的误码率比Mode 1中的误码率要高。在Mode 2的扇区地址中，方式(Mode)字节域中的值设置成02，在Mode 1的扇区地址中，方式(Mode)字节域中的值设置成01。

15.5 CD-ROM/XA Mode 2 Form 1和CD-ROM/XA Mode 2 Form 2有什么差别？

CD-ROM/XA Mode 2 Form 2与CD-ROM/XA Mode 2 Form 1相比，去掉了276字节的ECC码，因此存储的用户数据增加了276个字节。

15.6 CD-Bridge Mode 2 Form 1和CD-Bridge Mode 2 Form 2有什么差别？

D-Bridge Mode 2 Form 2和CD-Bridge Mode 2 Form 1相比，去掉了276字节的ECC码，因此存储的用户数据增加了276个字节。

15.7 计算单速CD-ROM的用户数据传输率是多少KB/s(1 KB = 1024 bytes)。

(2048×75)/1024 ＝ 153600/1024 ＝ 150 KB/s

15.8 CD-ROM的逻辑格式是什么意思？

文件格式的同义词。它指定数据文件在盘上的组织和位置，定义文件大小、所有文件在盘上的目录结构以及所需盘片数目等事项。

15.9 CD-ROM的物理扇区、逻辑扇区和逻辑块之间有什么关系？

详见图15-5。

15.10 MS-DOS和MS-Windows环境下都要有MSCDEX.EXE文件，请问它的功能是什么？

把ISO 9660文件结构转变成MS-DOS能识别的文件结构。