“多媒体技术”课程复习题整理补充版

更新时间:2024-06-01 00:33:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

“多媒体技术”课程复习题(2010-11-11)

第1章

1. 什么是多媒体技术?简述多媒体技术与多媒体信息系统的关系?

①答:(PDF-ch0-P15)多媒体技术是人们通过计算机或以微处理器为核心的终端设备,交互 处理多种媒体(文本、图形、图象、声音、动画和视频等),使多种信息建立逻辑连接,集成为一个系统并具有交互性。 (PDF-ch1-P7)关系:(1)多媒体技术是建立多媒体系统的基础;(2)多媒体系统的建立与应用又反过来促进多媒体技术的不断完善、发展;(3)多媒体技术与多媒体系统都会随着与它们相关的其它技术的进步而不断向前发展。

2. 根据你自己的了解,简述多媒体技术的发展历史(截止到2010年)。

①PDF-ch0-P22~28总结)发展历史:(1)1839年,法国达盖尔发明照相术,这是图 像处理技术的开端;(2)1876年,美国古勒哈姆.贝尔发明电话;(3)1893年,美国爱迪生发明电影;(4)1895年,马可尼进行无线电电报实验;(5)英国J.L.Baird表演了机械扫描电视;(6)1936年,英国BBC电视广播(黑白);(7)世界上第一台电子管计算机ENIAC在美国宾西法尼亚大学研制成功;(8)1948年,贝尔研究所发明晶体管;(9)1965年,以中小规模IC为主体的计算机问世;(10)1972年,数字电视诞生;(11)1978年,CD-DA(数字音频光盘)推出;(12)1984年,CD-ROM推出,并于1988年通过了该项国际标准ISO9660

②文本,音频,视频:1839年,法国达盖尔发明照相术,这是图像处理技术的开端。1876年,美国古勒哈姆﹒贝尔发明电话。1893,美国爱迪生发明电影。1895,马可尼进行无线电电报实验。1925,英国J.L.Baird表演了机械扫描电视1936,英国BBC电视广播(黑白)。1946,世界上第一台电子管计算机埃尼阿克(ENIAC)在美国宾西法尼亚大学研制成功。1948,贝尔研究所发明晶体管。1965,以中小规模IC为主体的计算机问世.

1990年11月,美国Microsoft(微软)公司和包括荷兰PHILIPS(菲利普)公司在内的一些计算机技术公司成立了“多媒体个人计算机市场协会(Multimedia PC Marketing Council)” 1991年,多媒体个人计算机市场协会提出MPC1标准。 1993年5月,多媒体个人计算机市场协会公布了MPC2标准。 1995年6月,多媒体个人计算机工作组公布了MPC3标准。

3. 为什么说从计算机信息系统到多媒体信息系统是一个飞跃?

(PDF-ch1-P6)多媒体信息系统是计算机信息系统在本质上的一次飞跃:(1)多媒体信息系统集成的范围更加广泛;(2)使用的信息真正实现多媒体化;(3)多媒体信息系统的应用范围更加广泛;(4)系统的使用更加符合人们地习惯、更加人性化。

4. 试归纳叙述多媒体关键特性以及这些特性之间的关系。

①(教材P2~3归纳)多媒体的关键特性包括信息载体多样性、交互性和集成性。信息载体多样性就是信息媒体的多样化、多维化;交互性是指人与计算机的交互;集成性体现在多媒体信息媒体的集成和处理这些媒体的设备与设施的集成两个方面。

(一家之言)关系:信息媒体的多样性带给用户很大的选择空间,这样就需要与用户的交互,也就是说多样性促进了交互性;而交互性也就直接导致了信息媒体的多样性;多样性导致了功能的复杂多样,为了给用户提供方便的操作,就需要把一系列功能集成起来,从而促进了集成性,集成性又反过来影响多样性,相互促进,相辅相成。总之,多媒体的三个关键特性相互促进,相辅相成,缺一不可。

5. 目前多媒体研究关键技术有哪些?面临问题有哪些?

课本P7(旧)

①音像技术:声音和图像的数字化处理是最根本的基础

计算机技术:还包括手机、洗衣机等设备中微处理器技术的不断发展 通信技术:因特网、电信网、广电网三大网络的跨越式发展 面临问题:

数字音频技术;数字视频技术;多媒体系统平台技术;多媒体数据转换和同步技术;多媒体数据的压缩与解压缩技术;高性能存储系统设计与制造技术;高分辨率图象显示技术;多媒体网络技术;音频/视频信号识别、合成和转换的智能处理技术;多媒体技术标准的研究。

②多媒体技术的本质有:

1.音像技术:声音和图像的数字化处理是最根本的基础

2.计算机技术:还包括手机、洗衣机等设备中微处理器技术的不断发展 3.通信技术:因特网、电信网、广电网三大网络的跨越式发展 面临问题:?

1.数字音频技术; ?2. 数字视频技术; ?3. 多媒体系统平台技术; ?4. 多媒体数据转换和同步技术; ?5. 多媒体数据的压缩与解压缩技术; ?6. 高性能存储系统设计与制造技术; ?7. 高分辨率图象显示技术; ?8. 多媒体网络技术; ?9. 音频/视频信号识别、合成和转换的智能处理技术; ?10. 多媒体技术标准的研究。

6.多媒体系统有哪些特点?

①Multimedia 多种媒体/集成性,人-机交互性,数字化。 “多媒体系统”(Multimedia System):是指多媒体终端设备、多媒体网络设备、多媒体服务系统、多媒体软件及有关的媒体数据组成的有机整体。

7. 根据你的理解,说明超文本与超媒体的基本概念。给出应用实例。

①超文本(Hypertext)是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。超文本更是一种用户介面范式,用以显示文本及与文本之间相关的内容,建立的链接关系主要是文句之间的链接关系。

应用实例:网页跳转所用的“下一页”。

超媒体为超级媒体的简称,是超文本(hypertext)和多媒体在信息浏览环境下的结合,其不仅可以包含文字而且还可以包含图形、图像、动画、声音和电视片断,建立的链接关系是文本、图形、图像、声音、动画和影视片断等媒体之间的链接关系。 应用实例:网络媒体广告。

②(来自百度,请自行删减) 1)超文本的概念

1965年TedNelson在计算机上处理文本文件时想了一种把文本中遇到的相关文本组织在一起的方法,让计算机能够响应人的思维以及能够方便地获取所需要的信息。他为这种方法杜撰了一个词,称为超文本(hypertext)。实际上,这个词的真正含义是\链接\的意思,用来描述计算机中的文件的组织方法,后来人们把用这种方法组织的文本称\超文本\。

超文本是一种文本,它和书本上的文本是一样的。但与传统的文本文件相比,它们之间的主要差别是,传统文本是以线性方式组织的,而超文本是以非线性方式组织的。这里的\非线性\是指文本中遇到的一些相关内容通过链接组织在一起,用户可以很方便地浏览这些相关内容。这种文本的组织方式与人们的思维方式和工作方式比较接近。

超链接(hyperlink)是指文本中的词、短语、符号、图像、声音剪辑或影视剪辑之间的链接,或者与其他的文件、超文本文件之间的链接,也称为\热链接(hotlink)\,或者称为\超文本链接(hypertextlink)\。词、短语、符号、图像、声音剪辑、影视剪辑和其他文件通常被称为对象或者称为文档元素(element),因此超链接是对象之间或者文档元素之间的链接。建立互相链接的这些对象不受空间位置的限制,它们可以在同一个文件内也可以在不同的文件之间,也可以通过网络与世界上的任何一台连网计算机上的文件建立链接关系。 (2)超媒体的概念

在20世纪70年代,用户语言接口方面的先驱者AndriesVanDam创造了一个新词\电子图书\,现在翻译成。电子图书中自然包含有许多静态图片和图形,它的含义是你可以在计算机上去创作作品和联想式地阅读文件,它保存了用纸做存储媒体的最好的特性,而同时又加入了丰富的非线性链接,这就促使在80年代产生了超媒体(hypermedia)技术。 超媒体不仅可以包含文字而且还可以包含图形、图像,动画、声音和电视片断,这些媒体之间也是用超级链接组织的,而且它们之间的链接也是错综复杂的。

超媒体与超文本之间的不同之处是,超文本主要是以文字的形式表示信息,建立的链接关系主要是文句之间的链接关系。超媒体除了使用文本外,还使用图形、图像、声音、动画或影视片断等多种媒体来表示信息,建立的链接关系是文本、图形、图像、声音、动画和影视片断等媒体之间的链接关系。

当我们使用Web浏览器浏览因特网时,在显示屏幕上看到的页面称为网页(WebPage),它是Web站点上的的文档。而进入该站点时在屏幕上显示的第一个综合界面称为起始页(homepage)或者称为主页,它有一点像一本书的封面或者是书的目录表。在万维网网页上,为了区分有链接关系和没有链接关系的文档元素,对有链接关系的文档元素通常用不同颜色或者下划线来表示。目前,在网页上担当链接使命的主要是超文本标记语言(HTML),它是从标准通用标记语言(SGML)导出的。

8. 为什么说媒体具有不同的抽象层次?对媒体的抽象层次和性质进行小结。

①因为各种媒体具有不同的特点和性质。在获得媒体语义的过程中,抽象起着十分重要的作用。通常包括若干抽象层,每一层都包含着与具体的任务和问题域相关的模型。从接近具体感官的信息表示层到接近符号的信息表示层,信息的抽象程度递增,而数据量递减。语义就是从感官数据岛符号数据的抽象过程中逐步形成的。

对不同媒体来说,媒体的语义是处于不同的层次上的。抽象的程度不同,语义的重点也就不同。就文本来说,语义的关键是人对语言的理解,而非对字符的解释;而图像的语义更多是在对它的抽象上,如轮廓,颜色和纹理等。

(以下为百度)以视觉内容为例,较低抽象层将包括形状、尺寸、纹理、颜色、运动(轨道)和位置的描述。对于音频的较低抽象层包括音调、调式、音速、音速变化、音响空间位置。最高层将给出语义信息:如“这是一个场景:一个鸭子正躲藏在树后并有一个汽车正在幕后通过。”中间抽象层也可能存在。抽象层与提取特征的方式有关:许多低层特征能以完全自动的方式提取,而高层特征需要更多人的交互作用。

9. 媒体的结合为什么会产生“感觉相乘”的效果?试举例对此加以说明。

①没有一种媒体在所有场合下都是最优的,每一种媒体都有各自擅长的特定范围;多媒体的作用在很大程度上是媒体之间结合产生的影响。多种媒体的结合使用才能达到好的效果。媒体之间可以相互支持,也可以相互干扰。从信息理解的角度来讲,多媒体的合理组合有利于信息的接受和理解,这种效果反映在理解程度和记忆驻留效果上。有关资料介绍,由视觉传递的信息能被理解83%,由听觉传递的信息能被理解11%,由触觉传递的信息能被理解3%,其余的不足4%。从记忆驻留效果来看,以谈话方式传递信息,2小时后能记忆70%,72小时后能记住10%,以观看方式传递信息,2小时后能记住的占72%,72小时后能记住的占20%,而以视频方式传递的信息,2小时候还能记住85%,72小时后能记住65。显然,视觉和听觉的相互影响,起到了关键作用。这就是所谓的“感觉相乘”的效应。

②当两种或多种刺激同时作用于同一感官时,感觉水平超过每种刺激单独作用效果叠加的现象,称为协同效应或相乘效应。

多媒体就是多重媒体的意思,能传递文字、图形、图像、声音等人的器官能直接感受和理解的多种信息类型,即多种信息载体的表现形式和传递方式,因此多种媒体的结合才能使人感受到一个完整的媒体世界。

例子:电影——声音和图像的结合,只有声音或只有图像的话都不能让我们完整的了解整个作品。???

③人们通过感觉,即视觉、听觉、触觉、味觉和嗅觉,打开了通向世界的窗口。这些感觉把有关环境的数据传递给大脑,由大脑来解释这些数据,同时把当前发生的情况与先前发生的情况加以对比,最终获得信息,认识自然。而媒体正是承载这些信息的载体。 例子自己想把,比如视觉和听觉的结合,更能反映当时场景什么的。

第2章

10. 音频信号的频率范围大约是多少?话音信号频率范围大约是多少?

音频信号:频率范围为20 Hz~20 kHz 话音信号:300~3400Hz

11. 多媒体计算机中的音频有哪些来源?

①(找不到,自己理解如下)

1:记录声音波形,进行采样量化,压缩保存,之后回复播放。如WAVE文件。

2:记录声音参数,进行参数提取,记录参数,之后利用参数用合成器合成播出。如MIDI文件。 来源:录制或者直接创作合成。

②波形声音,语音,音乐。

③人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的声音等。

12. 什么叫做模拟信号?什么叫做数字信号?

模拟信号是指用连续变化的物理量表示的信息,其信号的幅度,或频率,或相位随时间作连续变化。一种不仅再时间上连续、数值上也连续的物理量.时域与值域均连续。

数字信号指幅度的取值是离散的,幅值表示被限制在有限个数值之内。时域与值域均离散的信号。

因此模拟->数字通过采样+量化

13. 什么叫做采样?什么叫做量化?什么叫做线性量化?什么叫做非线性量化?

采样:在某些特定的时刻对模拟信号测量叫做采样(sampling),得到一个离散的序列 量化:把信号幅度取值的数目加以限定,形成的离散信号的幅度只具备有限个数的数值

线性量化:量化的过程是将连续信号的变化范围分为一段段区间,每段区间中的信号值用一个数值表示,线性量化就是所有区间都是相同大小的。 非线性量化:不同区间大小不同。

采用均匀间隔量化级进行量化的方法称为均匀量化或线性量化。这种量化方式会造成大信号时信噪比有余而小信号时信噪比不足的缺点。

如果较小信号时量化级间度小些,而大信号时景化级间宽度大些,就可以使小信号时和大信号时的信噪比趋于—致。 这种非均匀量化级的安排称为非均匀量化或非线性量化。(a律,u律)

14. 对于模拟音频采样,为什么采用频率有时选择44.1 kHz,而不选择40kHz?请你给出理由。采样频率根据什么原则来确定?

采样频率根据Nyquist采样定理决定。奈奎斯特采样定律,即采样频率不应低于声音信号最高频率的两倍

人耳听觉上限为20KHz,由奶奎斯特定律应该为40KHz。然而为了防止采样混叠,在采样前必须先经过模拟低通滤波,低通滤波器非陡峭截止,因此留10%裕量。另外,采用44.1KHz的原因与电视信号同步有关。44.1KHz是理论上的CD音质界限,也是当今的主流16位采集卡上普遍使用的采样频率。

15. 样本精度为8比特的信噪比等于多少分贝?

① 假设噪声电压为1 ,信号电压为2^8=256 ,信噪比为48分贝 ③SNR=10 lg [(Vsignal)2/ (Vnoise)2] =20 lg (Vsignal / Vnoise) 其中:

Vsignal表示信号电压; Vnoise表示噪声电压; SNR的单位为分贝(db) 。

例1:假设Vnoise=1,量化精度为1比特表示Vsignal=2^1, 它的信噪比SNR=6分贝。

例2:假设Vnoise=1,量化精度为16比特表示Vsignal=2^16 它的信噪比SNR=96分贝。

16. SB-ADPCM和MPEG Audio都是利用子带分割的思想,他们之间存在哪些不同?

SB-ADPCM在时域,MPEG Audio在变换域中。

17. 采用滤波的方法能否滤出量化噪声?请解释原因?

用滤波的方法不能虑除量化噪声。

通常情况下,量化指的是模拟信号经过采样后转化为数字信号的过程。模拟信号在时域上是连续的,经过采样后得到时间上离散但幅值仍是连续量的一系列信号值,在这种情况系,必须对信号的幅值进行量化处理。设置一定的量化级别,每一量化级别对应一个量化区间,凡落在某区间的抽样信号样值都强制性指定为该区间量化值,量化噪声就是在这一过程中出现。在这一过程中伴随着信息的丢失,且这是个不可逆的过程,一旦信号经过量化,那么通过量化值是无法推断出原来的信号幅值的。通俗点说,采样后得到幅值连续量的一系列信号的幅值其大小的可能性是无穷多的,但是这无穷多种情况落在同一量化区间后,得到的量化值都是一个,所以通过量化值无法反推出原来的信号幅值。

从信号量化的整个过程来看,量化噪声是由于量化过程本身产生的,是信号本身的问题,与传输过程中信道中带来的影响无关,而使用滤波器只是对由外界影响产生的噪声有作用,所以对于这种由信号本身产生的噪声它无法滤除。

18. 某信号幅度介于[-5V, 5V](动态范围是10V),要求NoiseRMS 小于5mV,计算需要的量化精度(即bit数)。

?V2?V2?5?10?3 对均匀量化而言,有NoiseRMS?,那么对于本题来讲,有12125?(?5)解得?V?1.732?10?2,令量化级为N,则有?1.732?10?2,解得N?578,

N所以最少应该有10个bit。

19. 比较PCM和△M两种方式进行音频信号数字化的优缺点。他们各自可以通过什么方法减小失真?

1、△M

思想:自动调整量化阶△的大小;在检测到斜率过载的时候增大△,在输入信号斜率减小时降低△。

优点:DM编码只须用1位对话音信号进行编码,因此传输效率高,传输消耗低。

缺点:斜率过载和粒状噪声相矛盾,即为了尽可能避免出现斜率过载,就要加大量化阶Δ,但这样做又会加大粒状噪声;相反,如果要减小粒状噪声,就要减小量化阶Δ,这又会使斜率过载更加严重。 减小失真的办法:

① CFDM,根据量化器符号的判断当前区域是斜率过载还是颗粒噪声,进而改变△。 ② CVSD,如果连续出现三个相同值△加大,反之减小 2、PCM

优点:原理简单,直接将量化编码。它是将原始的模拟信号经过时间采样,然后对每一样值进行量化,作为数字信号传输。

缺点:量化误差较大,传输编码消耗大。 减小失真的办法是:

在输入信号时,加入防失真滤波器。

20. 声音有哪几种等级?它们的频率范围分别是什么?

①亚音信号:频率小于20 Hz的信号,或称为次音信号(subsonic) 音频(Audio)信号:频率范围为20 Hz~20 kHz的信号

超音频信号:频率高于20 kHz的信号,或称超声波(ultrasonic)信号

21. 听觉类媒体通常如何分类? 声音的三要素是什么?答案③

① 按照声音的变化规律来分类:

完全任意无规则的,比如胡乱敲击钢琴键所发出的声音称之为1/f0波动;

按照及其严密的变化规律的,如按照一定的间隔敲击钢琴键所发出的声音称之为1/f2波动; 虽然是任意无规则的,但是并不单调的、具有特别性质的波动称之为1/f波动

乐音的三要素是:音高、音色和响度

②分类:针对波形的听觉类媒体(例如WAV),符号化的听觉媒体(例如MID) 声音三要素:频率,带宽,响度 (乐音三要素:音高,音色,响度) (见作业)

③分类:波形声音,语音,音乐

声音信号三属性:频率,带宽,响度。???

分为波形声音,语音,音乐(P15页下,新书) 三要素:音量,音调,音色(from web) 或

响度,音调,音色(乐音三要素???)

响度:声音大小声,与发音体产生的声波振幅有关 音调:声音的高低,与发音体产生的振动频率有关

音色:音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性,或者说是人耳对各种频率、各种强度的声波的综合反应。

22. 选择采样频率为22.050 kHz和样本精度为16 比特的录音参数。在不采用压缩技术的情况下,计算录制2 分钟的立体声需要多少MB(兆字节)存储空间(1MB=1024×1024B)。(答案①)

①立体声用两个声道就可以实现,存储空间为22050*(16/8)*2*120=10.1MB 数据量Byte=采样频率Hz×(采样位数/8)×声道数×时间s

②假设为单声道

一个样本16bit,采样率22.050KHz,则一秒数据量为 16*22.050K bit 2分钟数据量为 120*16*22.050K bit,换算成字节为 120*16*22.050K/8 换算成M为 120*16*22.050/(8*1024) =5.168Mbytes

23. 简述MIDI 及其特点。比较波形音频与MIDI的主要优缺点?

1. MIDI是音乐合成器、乐器、计算机三者交换音乐信息的标准协议,它包含一套命令集合,指示计算机中的MIDI设备的所有动作。

音乐合成器、乐器、计算机三者交换音乐信息的标准协议

?MIDI是一套命令集合,指示计算机中的MIDI设备的所有动作(演奏乐符、加大音量、生成音响效果)

?MIDI是一个数据传输速率在31.23千波特的串行接口,可在同一时刻进行双向传输。连接采用MIDI Cable。

?GM(General MIDI Specification) 2. MIDI文件和WAV文件的区别

生成方式;文件大小;声音质量;易编辑度;用途(PPT) 优点:1、用合成的方法产生的

2、与波形声音相比,MIDI数据不是声音而是指令,所以它的数据量要比波形声音小,文件小。

3、优于数据量小,可在多媒体应用中与其他波形声音配合使用,形成伴乐效果,对MIMD编辑灵活,可自由修改音调音色等属性。

4、用途广:可用做长时间播放高质音乐、需要以音乐作为背景音响效果同时从CD-ROM装载其他数据、需要以音乐作为背景音响效果同时播放波形音频或者实现文-语转换,以实现语音和音乐的同时输出。 缺点:MIMD还原的音质依赖于波表,不同波表对音质效果失真不同;表达能力有限,自然声音,人声等基本无法表达

WAV优点:表达能力强,失真小。 WAV缺点:文件较大,不易于编辑。

24. 视觉类媒体中各媒体之间的关系如何?

视觉媒体主要包括三项:图像与视频,动画,图形,符号与文字。CHUN code: WTFSNK

1.数字图像是对每一个像素采样,并按照颜色和灰度进行量化后得到的数字化结果,其存储与

显示按照一个一个像素依次进行,称为位图图像。Brother CHUN code: WTFSNK

2.视频是时间上的连续图像序列,图像是离散的视频。如果序列中每帧图像是人工或计算机产生的,就称为动画,如果图像是通过实时摄取获得的,就称为视频。Brother CHUN code: WTFSNK 3.数字图像和视频是任何视觉类媒体显示的基础:即任何视觉媒体,必须转化为数字图像和视频才能显示。Brother CHUN code: WTFSNK 4.图形是抽象化,矢量化的图像,是对图像依据某个标准进行分析而产生的结果。Brother CHUN 5.符号是符号都是某种抽象的结果,但符号的存在不依赖于视觉类媒体,例如通过语音也能表达符号。符号包括各种各样描述量、语言、数据、标识等形式,其中最重要的是数值、字符等有结构的符号组。在符号中,结构起到关键性的作用。需要知识的辅助才可以使用;符号媒体能够通过数字图像显示出来。符号媒体中最常见的文字媒体便是如此。符号媒体的表达精确度高;符号媒体存储量要小得多(只需存储符号及结构信息);?

6.文本媒体是用得最多的符号媒体形式。主要特性:流结构形式;对文本的控制不影响媒体信息本来的表达;文本显示的改变只是属性的改变,并不影响文本本身的含义;对文本的处理应遵从文本内部结构。

25. 如果有一幅256色的图像,问该图的颜色深度是多少?

Log2(256)=8,color depth=8,颜色深度为8

像素深度是指存储每个像素所用的位数,它也是用来度量图像的分辨率。像素深度决定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。例如,一幅彩色图像的每个像素用R,G,B三个分量表示,若每个分量用8位,那末一个像素共用24位表示,就说像素的深度为24,每个像素可以是2^24=16 777 216种颜色中的一种。在这个意义上,往往把像素深度说成是图像深度。表示一个像素的位数越多,它能表达的颜色数目就越多,而它的深度就越深。

颜色深度简单说就是最多支持多少种颜色。一般是用“位”来描述的。

如果一个图片支持256种颜色(如GIF格式),那么就需要256个不同的值来表示不同的颜色,也就是从0到255。用二进制表示就是从00000000到11111111,总共需要8位二进制数。所以颜色深度是8。

如果是BMP格式,则最多可以支持红、绿、蓝各256种,不同的红绿蓝组合可以构成256的3次方种颜色,就需要3个8位的2进制数,总共24位。所以颜色深度是24。

还有PNG格式,这种格式除了支持24位的颜色外,还支持alpha通道(就是控制透明度用的),总共是32位。

颜色深度越大,图片占的空间越大。

26. 比较说明图形与图象的关系。

1、图形是一种抽象化的图像,是对图像一句某个标准进行分析而产生的结果。他不是直接描述数据的每一点,而是描述产生这些点的过程和方法。图形是指用计算机绘制工具绘制的画面,包括直线、曲线,圆/圆弧,方框等成分。图形一般按各个成分的参数形式存储,可以对各个成分进行移动、缩放、旋转和扭曲等变换,可以在绘图仪上将各个成分输出。

2、图像是由扫描仪、摄像机等输入设备捕捉实际的画面产生的数字图像,是由像素点阵构成的位图。图像可以用位图或矢量图形式存储.

表达形式:图形是矢量的概念,基本单元是位元;图像是位图概念,基本单元是像素。 变换效果:图形可以变换保持不失真;图像可能产生斜边效应。 处理情况:图元可以单独进行操作,图像则不行。 图形是对图像的抽象。

补充:

1. 真彩色与伪彩色的区别

2. 伪彩色的应用

彩超 同一副图像采用不同的调色板显示可能会出现不同的色彩效果。 3. 矢量图和位图的特点和区别

27. 分析YUV色彩空间模型能够得到广泛应用的原因。

YUV是PAL和SECAM模拟彩色电视制式采用的颜色空间。Y表示亮度,UV用来表示色差,U、V是构成彩色的两个分量。

1、 与RGB视频信号传输相比,YUV最大的优点在于只需占用极少的频宽(RGB要求三个独立的视

频信号同时传输,这比其它色彩格式需要更多的存储能力和数据处理带宽);

2、 采用YUV还有一个原因是,使彩色视频信号的传输兼容老式黑白电视。如果只有Y信号分量

而没有U、V分量,那么这样表示的图像就是黑白灰度图像。

28. 简要说明CRT、等离子电视、LCD、LED、OLED发光的原理。

1、CRT显示器是利用CRT(阴极射线管,就是显像管)显像,原理是电子束轰击荧光粉发光。CRT是主动发光的显像器件。

2、等离子(PDP)则是利用气体放电的显示技术,原理与日光灯相似等离子管作为发光元件,屏幕上每一个等离子管对应一个像素,当向电极上加入电压,放电空间内的混合气体(氖,氙

等惰性气体)放电产生紫外线,激发涂有红绿蓝荧光粉的荧光屏,荧光屏发射出可见光,显现出图像。当每一颜色单元实现 256 级灰度后再进行混色,实现彩色显示。

3、LCD则是依靠控制光的通过来显像的,有光通过的地方是亮的,如果一个像素中,红色栅格有光通过,就显示红色,以此类推。液晶是被动光源的显像器件。

4、LED发光原理是在某些半导体材料的PN结中,注入的少数载流子与多数载流子复合时会把多余的能量以光的形式释放出来,从而把电能直接转换为光能。

5、OLED是指有机半导体材料和发光材料在电场驱动下,通过载流子注入和复合导致发光的现象。其原理是用ITO透明电极和金属电极分别作为器件的阳极和阴极,在一定电压驱动下,电子和空穴分别从阴极和阳极注入到电子和空穴传输层,电子和空穴分别经过电子和空穴传输层迁移到发光层,并在发光层中相遇,形成激子并使发光分子激发,后者经过辐射弛豫而发出可见光。辐射光可从ITO一侧观察到,金属电极膜同时也起了反射层的作用。 根据这种发光原理而制成显示器被称为有机发光显示器,也叫OLED显示器。

29. 为什么模拟黑白电视和模拟彩色电视的信号带宽均在6MHz左右?

以我国的pal制式为例,分辨率为720*576,即电视线为720/4*3=480线,取一个较大的值好留下一些余量,取630,而且PAL制的水平逆程为18%,所以每个行周期能显示768条黑白线,即每个周期显示384个黑线和白线。又PAL制亮度信号行频为15625Hz/s,所以带宽为384*15625=6MHz。

第三章

30. 信源编码与信息熵编码的基本概念。常用的信息熵编码有哪几种?

②图象数据压缩的目的是在满足一定的图象质量(或称失真度)的条件下,用尽可能少的比特数来表示原始图象,以提高图象传输的效率和减少图象存储量,这在信息论中称为信源编码。

信息熵编码是根据符号出现概率的大小分配不同长短的码字,即对于出现概率较高的符号分配短码字,对出现概率较低的符号分配较长的码字。这样分配以后,可使平均码长减小,从而达到压缩的目的,称之为信息熵编码。

常用熵编码有:行程编码,LZW编码,霍夫曼编码,算术编码等。

③商编码有:Huffman编码,算术编码

信源编码:为了减少信源输出符号序列中的剩余度、提高符号的平均信息量,对信源输出的符号序列所施行的变换。具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。 信息熵编码:编码过程中不丢失信息量,即要求保存信息熵,是根据消息出现概率的分布特性而进行的,是无损数据压缩编码。

31. 如何衡量一种数据压缩方法的好坏?多媒体数据存在哪些类型的冗余?

1. 评价一种数据压缩技术的性能好坏主要有三个关键指标:压缩比,运算复杂度,通用性。压缩比,未压缩的比特流长度/压缩后的比特流长度;运算复杂度,包括CPU或MPU完成压缩的运算时间和算法需要的临时存储空间;通用性,是否符合国际标准。(ppt)

2. 数据冗余类型:空间冗余,时间冗余,信息熵冗余,视觉冗余,听觉冗余,结构冗余,知识冗余等。(书P38)

32. 数据压缩技术可分为几大类?每类有何特点?

1、无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。是可逆的。压缩前

后媒体质量一样;但压缩比一般较小。一个很常见的例子是磁盘文件的压缩。根据目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的1/2~1/4。一些常用的无损压缩算法有霍夫曼(Huffman)算法和LZW(Lenpel-Ziv & Welch)压缩算法。

2、 有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不会让人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。是不可逆的。压缩前后质量不一样,信息有所失,但压缩比一般很大。例如,图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但

可大大提高压缩比。

33. 举例说明Huffman编码、自适应二进制算术编码的编码原理及编码过程。

①Huffman编码:

设信源符号包括S?{s1,s2,s3,s4,s5,s6},其出现概率分别为p1?0.4,p2?0.3,p3?01.,p4?0.06,p5?0.06,p6?0.04。求其哈夫曼码。 哈夫曼编码方法是先将信源符号按出现概率的大小排成一列,然后把最末两个符号的概率加起来,合成一个概率。再把这个概率与其余符号的概率按大小重新排列,再把最末两个概率加起来,合成一个概率。如此进行下去,直到最后剩下两个概率为止。

以上步骤完成之后,从最后两个概率开始逐步向前进行编码,每一步只须对二个分支各赋予一个二进制码,如对概率大的赋予码元0 ,对概率小的赋予码元1。

信源符号出现频率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1第三步0.40.30.3第四步0.600.41哈夫曼码10001101000101001011S1S2S3S4S5S601}01}01}01}最后一列是形成各个符号对应的哈夫曼码。形成哈夫曼码的规则是:依次记录该符号本身概率所赋予的码元(0或1),及其在各步概率合并后赋予的码元(0或1),顺序排列起来再反序。

算术编码:

算术编码在图像数据压缩标准(如JPEG,JBIG)中扮演了重要的角色在算术编码中,消息用0到1之间的实数进行编码,算术编码用到两个基本的参数:符号的概率和它的编码间隔决定压缩编码的效率,也决定编码过程中信源符号的间隔,而这些间隔包含在0到1之间过程中的间隔决定了符号压缩后的输出。 算术编码示例

假设信源符号为{00, 01, 10, 11},这些符号的概率分别为{ 0.1, 0.4, 0.2, 0.3 },根据这些概率可把间隔[0, 1)分成4个子间隔:[0, 0.1), [0.1, 0.5), [0.5, 0.7), [0.7, 1),二进制消息序列的输入为:10 00 11 00 10 11 01

34. 为什么霍夫曼编码被称为最优编码(optimal prefix code)?

霍夫曼编码,是变长编码,它的核心思想:出现次数最多的符号用最短的编码,出现次数最少的符号用最长的编码。当信源符号概率是2的负幂次方时,编码效率达到100%。一般情况下,它的编码效率比其他编码方法的效率高

35. 统计编码有何特点?行程编码是如何编码的?(答①)

①统计编码包括行程编码,LZW编码和哈夫曼编码,算术编码,属于无失真编码。它是根据信息出现概率的分布而进行的压缩编码。编码时某种比特或字节模式的出现概率大,用较短的码字表示;出现概率小,用较长的码字表示。如果码流中所有模式出现的概率相等,则平均信息量最大,信源没有冗余。它宗旨在于,在消息和码字之间找到一种一一对应的关系,以便在恢复时能准确无误的再现出来,使平均码长或码率压低到最低限度。

行程编码:主要技术是检测重复的比特或者字符序列,并用它们的出现次数取而代之,它计算信源符号出现的行程长度,然后将行程长度转换成代码,它适合0,1成片出现的数据压缩。

②统计编码根据信息码字出现概率的分布特征而进行压缩编码,寻找概率与码字长度间 的最优匹配。常用的统计编码有行程编码、Huffman编码和算术编码三种。 行程编码是一种统计编码,该编码属于无损压缩编码。对于二值图有效。

行程编码的基本原理是:用一个符号值或串长代替具有相同值的连续符号(连续符号构成了一段连续的“行程”。行程编码因此而得名),使符号长度少于原始数据的长度。

例如:5555557777733322221111111 行程编码为:(5,6)(7,5)(3,3)(2,4)(l,7)。可见,行程编码的位数远远少于原始字符串的位数。

③特点:无损,存在压缩极限,有错误蔓延的情况 行程编码:

统计编码特点:根据Shannon信息熵理论编码,最佳的数据压缩方法的理论极限是信息熵。如果要求在编码过程中不丢失信息量,即要求保存信息熵,这种信息保持的编码又叫熵保存编码,或叫熵编码。熵编码是无失真压缩。 行程编码实现:

36.ΔM、PCM、DPCM、ADPCM 编码的基本原理是什么? (增加了其他几种编码)

1、PCM:即脉码编码,它是将原始的模拟信号经过时间采样,然后对每一样值进行量化,作为数字信号传输。

2、deltaM:增量调制是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成 “0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。由于DM编码只须用1位对 话音信号进行编码,所以DM编码系统又称为“1位系统”。

3、APCM, 自适应脉码调制是一种根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变;也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。改变量化阶大小的方法有两种:前向自适应和后向自适应。

4、DPCM, 差分脉冲编码调制是对输入的相邻样本之差编码而不是对样本本身编码,由于相邻样本之差比实际样本幅度小,所以表示差信号需要较小的位数。

对于有些信号(例如图像信号)由于信号的瞬时斜率比较大,很容易引起过载,因此,不能用简单增量调制(△M编码)进行编码,对于这类瞬时斜率比较大的信号,通常采用一种综合了增量调制和PCM脉冲编码调制两者特点的调制方法进行编码,这种编码方式被简称为脉码增量调制,或称差值脉码调制,用DPCM表示。

37. G.711中使用的量化和JPEG压缩中的量化有何差异?

G.711,采用非线性量化技术,P47 JPEG,采用线性均匀量化器,P53

38. MPEG编码中减少时间冗余量的方法有哪些?

(书上p58,ppt)

为了减少时间冗余量,MPEG将1/3的时间间隔的帧序列电视图像,以3种类型的图像表示,即内码帧(I),预测帧(P),插补帧(B),另有第四种类型帧D帧,它是一种专用帧格式,仅仅用于现实快速查询中。移动补偿算法来去掉冗余信息 1/4象素精度的运动估计 7种大小不同的块进行匹配 前向与后向多个参考帧

39. MPEG-4与MPEG-1、MPEG-2有什么本质不同?MPEG-7的目标是什么?

①MPEG-1和MPEG-2是采用以仙农信息论为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术,它们着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴;MPEG-4(ISO/IEC 14496)则是基于第二代压缩编码技术制定的国际标准,它以视听媒体对象为基本单元,采用基于内容的压缩编码,以实现数字视音频、图形合成应用及交互式多媒体的集成,基于Vop的编码,包括形状编码、运动估计和运动补偿、纹理编码、分级扩展编码。(P63)

MPEG-1、MPEG-2、H.261、H.263都是第一代压缩编码技术,MPEG-4代表了基于模型/对象的第二代压缩编码技术,充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及制作的发展趋势。

?AV对象(AVO,Audio Visual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成。(ppt)

MPEG-7:MPEG-7并不是一个视频压缩标准,它是一个多媒体内容的描述标准。

MPEG-7:其目标就是产生一种描述多媒体内容数据的标准,满足实时、非实时以及推-拉应用的需求。MPEG-7的功能与其他MPEG标准互为补充。MPEG-1、 MPEG-2和MPEG-4是内容本身的表示,而MPEG-7是有关内容的信息,是比特的比特。 1.支持多种音频和视觉的描述

描述包括自由文本、n维时空结构、统计信息、客观属性、主观属性、生产属性和组合信息。对于视觉信息,描述可能包括颜色、视觉对象、纹理、草图、形状、体积、空间关系、运动及变形等。对于音频信息,描述可能包括音调、调式、音速、音速变化等。

2.根据信息的抽象层次,提供一种描述多媒体材料的方法以便表示不同层次的用户对信息的需求。

3.支持数据管理的灵活性、数据资源的全球化和互操作性。

40. MPEG 标准中I 帧、P 帧和B 帧的定义和作用是什么?说明双向预测误差的方法的优缺点。(答②,P58)

②I帧: 内码帧,是完整的独立编码的图像,是不能有其他帧构造的帧,必须存储或者传输,由于I帧与其他帧无关,它可以作为视频序列的起点和数据流中随机访问点。I帧是基准帧。 P帧:预测帧,通过对它之前的I帧进行预测,对预测误差作有条件的存储和传输。

B帧:双向帧或插补帧,是根据其前后的I帧或者P帧的信息进行差值编码而获得,该过程有时也称为双向插值。

优点:它既可以利用前面图的信息,又可以利用后面图的信息。由于视频信号时域帧间冗余度很高,需要传送的附加运动校正信息非常少,所以插补运动补偿可以大幅度的压缩数据。 缺点:如果插补图过多,尽管压缩比增加,但图像的质量会降低。对大多数图像而言,参考图之间以大约1/10s的时间间隔隔开还是合乎要求的。

③首先,MPEG-1压缩的基本思想:帧内压缩和帧间压缩。

其次,时间相关性的统计分析:统计的结果表明,在间隔1~2帧的图像中,各像素只有10%以下的点,其亮度差值变化超过2%,而色度差值的变化只有1%以下。

采用的压缩方法: 分组:把几帧图像分为一组(GOP),为防止运动变化,帧数不宜取多。 1.定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧; 2.预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧; 3.数据传输:最后将I帧数据与预测的差值信息进行存储和传输。

I帧:帧内编码帧 I帧特点:

1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输; 2.解码时仅用I帧的数据就可重构完整图像; 3.I帧描述了图像背景和运动主体的详情; 4.I帧不需要参考其他画面而生成;

5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量); 6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧; 7.I帧不需要考虑运动矢量;

8.I帧所占数据的信息量比较大。

P帧:前向预测编码帧。

P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。 P帧特点:

1.P帧是I帧后面相隔1~2帧的编码帧;

2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差); 3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像; 4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧; 5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧; 6.由于P帧是参考帧,它可能造成解码错误的扩散; 7.由于是差值传送,P帧的压缩比较高。

B帧:双向预测内插编码帧。 B帧的预测与重构

B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。 B帧特点

1.B帧是由前面的I或P帧和后面的P帧来进行预测的;

2.B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量; 3.B帧是双向预测编码帧;

4.B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确; 5.B帧不是参考帧,不会造成解码错误的扩散。

注:I、B、P各帧是根据压缩算法的需要,是人为定义的,它们都是实实在在的物理帧,至于图像中的哪一帧是I帧,是随机的,一但确定了I帧,以后的各帧就严格按规定顺序排列。 双向预测优点:

与JPEG相比,在相同质量前提下,其压缩比要大多了,有利于降低数据率,节省存储空间。 缺点是只有 I 帧才是关键帧,别的P, B 帧不能独立存在,所以MPEG不适合编辑。

41. 请对H.261、H.263作比较说明。H.261的图象格式是怎样的?

139144150159159161162162

144151155161160161162162149153160162161161161161153156163160162161163161155159158160162160162163155156156159155157157158155156156159155157157158155156156159155157157158图3.17 原图象数据

11162231313334341023273332333434212532343333333325283532343335332731303234323435272828312729293027282831272929302728283127292930图3.18 电平移动后的数据

再经过DCT变换后得图3.19所示DCT系数,由图3.19可见,直流系数最大,低

235.6-22.6-10.9-7.1-0.61.8-1.3-2.6-1.0-17.5-9.3-1.9-0.8-0.2-0.41.6-12.1-6.2-1.60.21.51.6-0.3-3.8-5.2-3.21.51.51.6-0.3-1.5-1.82.1-2.90.20.9-0.10.4-0.51.9-1.7-0.10.9-0.1-0.71.51.71.2-2.70.4-0.60.00.61.01.1-0.61.3-1.2-0.10.31.3-1.0-0.8-0.4图3.19 DCT数据

频系数其次,高频系数最小。用亮度量化表,除图3.19中的DCT系数后,得图3.20所示的量化后DCT系数。图中全部整数而且有许多零。采用之字形扫描,将这些

15-2-1000000-1-100000-100000000000000000000000000000000000000000000000图3.20 量化后的DCT系数

数据排列后得到如下结果。

(15 0 -2 -1 -1 -1 0 0 -1 EOB)

对此数据进行中间熵编码。首先采用公式DC差分值 =DCi-DCi?1,这里DCi=15,假设DCi?1 = 12,则DC差分值 = 3。对于第一方块i?1时,由于令DC0?0,查表3.4,可知DC差分值 = 3时的位数为2,因而DC差分值中间编码中的符号1 为(2)。符号2 为(3),即DC差分值中间熵编码为(2)(3)。下一步对AC系数进行行程编码。第一个数组为0, -2。查AC系数位数表3.5,系数-2的位数长为 2,故得符号1、符号2 为(1, 2)(-2)。以此类推可得全部行程编码如下所示:

(2)(3),(1,2)(-2),(0,1)(-1),(0,1)(-1),(0,1)(-1),(2,1)(-1),(0,0)

(3-37)

下一步为可变长度熵编码,首先对DC系数的一对符号(2)(3)编码。由亮度DC差分系数表3.6查得位长(2)得011,再查幅值表3.10,得幅值(3)的码为 11,因此由符号(2)(3)得码字为01111。下一对符号为(1,2)(-2),用亮度AC系数表3.8查(1,2)的码为11011。再由幅值表3.10 查幅值(-2)的码为 01。因此由符号(1,2)(-2)的编码为1101101,第三对符号为(0,1)(-1),由表3.8查 (0,1)的码为00,由表3.10查 (-1)的码为0,因此符号(0,1)(-1)的编码为000,按此步骤进行下去,直到最后符号(0,0),可在表3.8中查得为1010。由此可得全部编码序列如下:

0111 1101101 000 000 000 1110001 1010 (3-38)

上述总位数为31位,代表8×8=64象素的子图象信息。为了表示压缩程度,可以用象素位率来表示,即平均每个象素占用多少比特来度量。对本例8×8子图象的象素位率计算如下:

象素位率 = 总位数/象素数= 31/64 = 0.5比特/象素 ( bit/pixel)

(3-39) 如果不进行编码压缩,每个象素需要用8bit(=1byte)来代表。即象素位率 = 8比特/象素。为了表示压缩程度,我们定义压缩比CR

CR?压缩前象素位率/压缩后象素位率

?压缩前的总位数/压缩后的总位数

8??8?8?8/31?16.5(3-40) 31/64上述公式(3-38)所示的31位编码值,按顺序传输到解码器。进行解码。解码过程是编码过程的逆过程。解码器对接收到码流进行识别。我们知道(解码器和编码器具有相同的

码表),根据码流的格式,首先进入的码流的前几位代表DC差分值,根据DC差分值码表3.6,发现只有输入码的前三位011可识别,代表对应位长(2),即应取011后面的2位11代表DC差分值的幅值。查表3.10得幅值为3。即DC差分值 =DCi-DCi?1DCi= DCi?1 + 3。编码时我们假定DCi?1=12,因此DCi=15。这样我们已从公式(3-38)所示的码流中识别出前五位。从码流的第六位开始后面若干位代表亮度系数。根据表3.8,查得只有码流中11011能对应符号1为(1,2),这表示有一个零,零后位长为2,所以取后面2位,为01,再查表3.10,其01码对应幅值为-2,由此得第二数组为0,-2,以此类推,可得全部亮度系数。和图3.19的数据完全相同。由此也可看出熵编码是无损编码。

下一步是去量化,即量化表乘熵解码后所得的图3.20数据,得图3.21的数据,再经过二维离散余弦逆变换IDCT和电平移动(+128),则可得到解码后的子图象,如图3.22。

图3.21 去量化后的DCT系数

240-24-14000000-12-1300000-1000000000000000000000000000000000000000000000000144148155160163163160158146150156161163164161159149152157164164164162161152154158161162162162161154156158161162162162162156156157159160160161161156156156157158158159159图3.22 解码后图象数据

比较解码后图象3.21与原图象3.16可见,最大差值为5,即最大误差为3.6%,此误差人眼很难察觉,故此压缩和去压缩都是成功的。

JPEG标准中以DCT为基础的编码过程,实际上是在消除图象中的相关性,或者说消除图象中的冗余度,这种冗余度包括下列三种。

第一种是编码冗余度。例如,DCT变换,哈夫曼编码,是消除编码冗余度。

第二种是象素间冗余度。例如,直流系数用差分编码就是消除相邻子图象间的灰度(或亮度)冗余度。

第三种是心理视觉冗余度。例如,用量化过程,就是利用人眼对各种空间频率,包括亮度、色度、纵、横方向的高频、低频的敏感程度不同,从而降低和消除一部分数据,达到数据压缩的目的,或降低传输位率,同时又不损害心理视觉对图象的主观评价。这就是充分利用心理视觉冗余度对图象数据进行压缩。

②步骤:

彩色空间变换,DCT,量化,熵编码 框图:

具体见PPt chap3-3 原理部分是: 21~31

例子部分:35~39

51. 请列举你所知道的算术编码的应用。

①图像数据压缩标准如JPEG,JBIG。

②基于抗差错算术编码的不等差错保护图像传输方法。 ③利用算术编码实现数据加密。

52. 图像压缩中为什么要用Z行扫描?

量化后的系数要重新编排,目的是为了增加连续的“0” 系数的个数,就是“0”的游程长度,方法是按照Z字形的式样编排。这样就把一个8×8的矩阵变成一个1×64的矢量,频率较低的系数放在矢量的顶部。

53. 简述MPEG和JPEG的主要差别。

答:MPEG视频压缩技术是针对运动图象的数据压缩技术。为了提高压缩比,帧内图象数据和帧间图象数据压缩技术必须同时使用。

MPEG通过帧运动补偿有效地压缩了数据的比特数,它采用了三种图象,帧内图、预测图和双向预测图。有效地减少了冗余信息。对于MPEG来说,帧间数据压缩、运动补偿和双向预测,这是和JPEG主要不同的地方。而JPEG和MPEG相同的地方均采用了DCT帧内图象数据压缩编码。 在JPEG压缩算法中,针对静态图象对DCT系数采用等宽量化,而是MPEG中视频信号包含有静止画面(帧内图)和运动信息(帧间预测图)等不同的内容,量化器的设计不能采用等宽量化需要作特殊考虑。从两方面设计,一是量化器综合行程编码能使大部分数据得到压缩;另一方面是通过量化器、编码器使之输出一个与信道传输速率匹配的比特流。

54.H.264标准的关键技术

光驱重复写入的操作,如果原先的资料不要,可以像软盘一样,进行格式化之后,再刻录新的资料。这两种形式光盘,都可以在一般光驱上读取。

③CD-ROM光驱只能够读取光盘的资料,并不能将资料写入光盘。可录CD-R(compact disc recordable) 盘,它允许用户把自己创作的影视节目或者多媒体文件写到盘上。

55. 相对于CD-DA 而言,DVD 采用了那些措施可以提高光盘容量。进一步提高光盘容量还可以采用哪些措施?

1、缩短光道之间的间距,缩小记录信息凸凹坑的长度。 2、采用波长更短的激光源。

3、提高接收盘片反射光的能力,即提高光学读出头的分辨率。 4、加大盘的数据记录区域。

5、使用盘片的两个面来记录数据,以及在一个面上制作好几个记录层。 6、采用修改的数据编码和调制算法 (以下不是)

减小激光波长、加大数值孔径、减小光道间距、修改信号调制方式、加大盘片表面的利用率、减小每个扇区字节数

进一步提高:多波长、多级)

② 光存储的研究方向主要是沿着三维体存储(多波长、多偏振态光波和光波干涉)、二维超分辨存储(通过改变光学系统和存储介质的结构来获得小于衍射极限的记录标记的尺寸)和多值存储(多阶调制)这三个方面进行的

③(1)常规的CD播放机和CD-ROM驱动器采用波长为780 nm的不可见红外光来读出盘上的信息。为了把光道距离和信息记录凹凸坑的长度和宽度做得更小,DVD刻录机和播放机就需要采用波长更短的激光源650nm

(2)DVD采用了更好的调制方式和错误校验方式,纠错码的数据传输率从25%降为13%(3)增加盘的数据记录面积

56. 关于CD的黄皮书和红皮书存在那些重要区别。(PPT,①) ①

1.Yellow Book在Red Book的基础上增加了两种类型的光道,加上Red Book的CD-DA光道之后,CD-ROM(Compact Disc-Read Only Memory )共三种类型的光道: .CD-DA光道,用于存储声音数据。

CD-ROM Mode 1,用于存储计算机数据。

CD-ROM Mode 2,用于存储声音数据、静态图像或电视图像数据。(没有错误检测和错误校正码) 2.黄皮书和红皮书相比,它们的主要差别是红皮书中2352字节的用户数据作了重新定义,解决了把CD 用作计算机存储器中的两个问题,一个是计算机的寻址问 题,另一个是误码率的问题,CD-ROM标准使用了一部分 用户数据当作错误校正码,也就是增加了一层错误检测和 错误校正,使CD盘的误码率下降到10^-12以下。 (以下不是) ②红皮书

红皮书定义CD-DA(Digital Audio)规格,CD-DA简称为数字音乐光盘。这是PHILIPS与SONY公司在1980年制定的,尔后所有其它规格的光盘片均以此为基础而发展。

最初数字音乐光盘片播放时间可达60分钟,后来经过改良演进为74分钟为最后标准。

Audio CD是将音乐以44.1KHz取样频率单位,而每个取样单位转换数字讯号都有一个16 bit范围的值,将模拟转换为数字数据,此二进制代码还要经过8到14编码(EFM Modulator)才完成数字化动作,再将0与1讯号转换成为CD上的pit(讯号坑)与land(讯号面),最后放在螺旋状的轨道(track)上。

CD-Audio光盘片的主要功能只是提供播放音乐,而且是循序播放,每首歌都是从头开始播到尾,因此红皮书的规格在当时是很单纯完整的,其最主要的目的就是提供一个标准的播放规格,所有的CD光盘片可以在所有的CD音响上来播放音乐。 黄皮书

黄皮书定义CD-ROM(Compact Disc-Read Only Memory)的规格,CD-ROM简称为只读式光盘。Philips与Sony在1983年发表了黄皮书。黄皮书是以红皮书为基础,存在CD片上的数据可分为两种,一种为正确性要求较低的音乐或图形数据,可容许一些Byte的错误,另一种是正确性要求非常严格的计算机数字或文字数据是不允许有错误的位数据。

黄皮书定义了2种不同型态的数据结构:Mode-1与Mode-2,在CD-ROM扇区(Sector)的表头区(Header field)内,含有指示本区内数据为Mode-1或Mode-2的Byte。Mode-1代表CD-ROM数据含有错误修正码(288Bytes),每个扇区则存放2048Bytes的数据。Mode-2的数据则取消错误修正码,将那些空间省下来,因此每个扇区可以多存放288Bytes,总共有2336Byte,因此Mode-2较适合存放图形、声音或影音数据。

换算成计算机数据单位Byte,则换算公式如下:

Mode-1:(650MBytes)=74分钟X60秒X75sectorX2048Bytes=681984000Bytes Mode-2:(742MBytes)=74分钟X60秒X75sectorX2336Bytes=777888000Bytes

你可以指定在CD上的每一个数据轨为Mode-1 or Mode-2,但是其内的扇区只能有一种格式来存放数据。大部分的CD-ROM计算机用光盘片,包括程序、计算机游戏、百科全书或共享软件等,都是采用Mode-1方式存放数据。其它的光盘片,如Photo CD、CD-I及Video CD等,则是采用Mode-2方式来存放。

57. 简述在VCD、DVD、EVD、HD-DVD和BlueDVD系统中的信源编码和信道编码。

通道编码:

8到14比特调制编码(eight to fourteen modulation,EFM)。这种编码的含义就是把一个8个比特(即1个字节)的数据用14比特来表示,把“0”的游程长度最短限制在2个,而最长限制在10,光盘上的信号就能够可靠读出。故将8bit数据映射到14bit的通道码。此外,当通道码合并时为了满足游程长度的要求,在通道码之间再增加了3bit来确保读出信号的可靠性。(在DVD中,把3位合并位改成2位,这样,一个字节就转换成16位,提高了DVD的存储容量)

第5章

58. 简述搜索引擎体系结构。(③)

①Crawler, Index, User Interface

②搜索引擎按照功能可以分为如下几部分: 1. 巡视软件(robot/spider/crawler) 作用:自动从网上抓取信息。 2. 页面存储器

作用:将抓取回来的信息存储起来,也就是数据库。 3. 分析索引器

作用:对抓取回来的信息进行分析,建立索引。 4. 查询器

作用:根据用户的提问在索引库中进行查询,进行文档与提问相关性评价,并对将输出的结果进行排序。

在查询之前,查询器需要首先对用户输入的数据进行特征化表示,抽取其中的主题概念。 5. 用户接口

作用:提供用户与搜索引擎之间的界面,帮助用户更高效、更方便地使用搜索引擎查找信息。 具体而言,用户接口又分为三部分:(1)接受用户输入的提问;(2)将查询结果返回给用户;(3)提供用户相关反馈机制。

③搜索引擎的核心组成:

Crawler(收集以及分类从互联网上的信息) Index(索引)

User interface(用户接口) 简要的工作流程如下图:

59. 简述常见链接分析算法及其基本思想。(②)

②HITS:描述了权威网页和中心网页之间的一种依赖关系:一个好的中心网页应该指向很多好的权威性网页,而一个好的权威性网页应该被很多好的中心性网页所指向。 PageRank:利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化。

③HITS算法:HITS –Hypertext Induced Topic Selection

描述了权威网页和中心网页之间的一种依赖关系:一个好的中心网页应该指向很多好的权威性网页,而一个好的权威性网页应该被很多好的中心性网页所指向,它包含两个主要参数:?

a(v) -the authority of v, 主要描述有多少重要的网页指向它 ?h(v) -the hubness of v,主要描述它指向多少重要的网页 计算方法是:a(v)=Σw∈pa[v] h(w)

h(v)=Σw∈ch[v] a(w)

PageRank算法:

?利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重

要性,以此来帮助实现排序算法的优化.如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/C(T),其中PR(T)为T的PageRank值,C(T)为T的出链数,则A的PageRank值为一系列类似于T的页面重要性得分值的累加。

60. 简述基于内容的图像检索的技术难题和基本方法。

基于内容的图像检索存在两大技术难题: ? 1.维数灾难(dimension disaster) ?特征维数太大,无法大量计算 ? 2.语义鸿沟(semantic gap)

?内容特征相似的图像可能完全不相关 ?低层特征和图像意义没有必然联系

基本方法:根据图像的视觉特征的相似度进行查询,图像的特征包括颜色特征、纹理特征、形状特征等

减小语义鸿沟的方法:

1. 基于区域的表示图像分割

采用变长特征向量,对于每个区域的特征向量单独处理 2.相关反馈

用户和系统交互,用户反馈对于搜索结果的意见,系统通过反馈信息学习改进搜索算法。

第6章

61. 多媒体通信对网络的性能要求主要体现在哪几个方面?简述之。(P221) 在书上,五点

62. 多媒体数据流的基本特征是什么?(P219) ①1.比特率可变性

多媒体传输按其特点分为恒定比特率和可变比特率两种在恒定比特率传输中,信源必须以恒定速率产生输出,网络必须按恒定比特率来传输这些数据。 2.时间依赖性

连续媒体的传输必须是实时的,端到端的等待时间应当控制在一个很短的时间段内。 3.信道对称性

在端到端的传输系统中,传输信道是双向的,分为上行信道和下行信道。上行信道和下行信道的通信量可能是对称的也可能不对称。

63. 支持多媒体通信的现有网络有哪些?各种网络各有什么特点(概括是①,展开②)

①1.电话交换网(PSTN) PSTN是为话音通信而设计的,频带宽度窄是其一个明显的特征,因此在PSTN上进行多媒体通信,需要使用话带速率高的调制解调器,目前话带调制解调器的速率已提高到了33.6~56kbps,并在实验室完成了可在PSTN上提供质量较好的多媒体可视电话(H.324终端)业务。

2.数字数据网(DDN)

DDN(数字数据网)提供固定或半永久连接的电路交换型业务,速率为n?64kbps(n=1~31),其特点是时延低、带宽比较宽、传输信道对用户完全“透明”。从技术上讲,可用于开放实时多媒体通信业务,如高质量的电视会议,但是,从经济上来讲,DDN的通信费较高,一般用户难以接受。

3.X.25分组交换网

4.以太网(Ethernet LAN)

5.快速以太网(100Base-T网络)

6.等时以太网(Isochronous Ethernet) 7.令牌环(Token Ring)

8. 光纤分布式数据接口FDDI 和FDDI-II 9.分布式阵列双总线DQDB 10.帧中继网(FR)

除上述网络外,还有ISDN网,ATM网和基于IP的网络等,它们可在不同的应用层次上提供多媒体通信服务。

最适合多媒体通信的网络是未来的宽带综合业务数字网--B-ISDN。B-ISDN能够传送多种媒体,特别是吞吐量大、突发性强的图像与视频信息。

②1.电话交换网(PSTN):PSTN是为话音通信而设计的,频带宽度窄是其一个明显的特征 2.数字数据网(DDN):其优点是时延低、带宽比较宽、传输信道对用户完全“透明”, 但是,从经济上来讲,DDN的通信费较高,一般用户难以接受

3.X.25分组交换网:网络具有动态路由功能和先进的误码检错功能,适应性强,可靠性强,线路利用率高,经济性能好,X.25注重在相对低速和不可靠的链路上实现可靠的信息支付。但分组交换网的时延较大,速率低,带宽和端到端时延不固定,另外,X.25服务不支持多站点传输方式,因此,X.25基本上不能支持多媒体通信业务。

4.以太网(Ethernet LAN):它可以提供基本够用的带宽,并提供多播功能,实现有限站点的多媒体服务。但从普通意义上来说,由于它不能保证延迟范围,所以对于分布式多媒体通信来说,以太网不是一种好的选择。

5.快速以太网(100Base-T网络):可以为多媒体信息的传输提供足够的带宽,但它不能提供延迟保障。因此,100Base-T对于多媒体来说仍然不是一种好的解决方案。

6.等时以太网(Isochronous Ethernet):是一种共享介质技术,它相对限制带宽但不支持多站点传送。它提供真正的等时传输,即提供最优的延迟性能。它的类似于ISDN的信道结构是为音频或H.261 码流视频传输设计的,但对MPEG 码流来说其带宽容量不足。

7.令牌环(Token Ring):令牌环除有16 M 带宽(高于一般的以太网10M )外,还提供多播功能以及对实时数据赋予优先级的MAC 级的优先级控制。利用优先级控制和带宽管理方法,令牌环网络可以对有限数目的多媒体流提供足够的带宽,并提供一定的延迟保证。令牌环网是组建较小规模和有限目标的的多媒体通信系统时的可选方案之一。 8.光纤分布式数据接口FDDI 和FDDI-II

FDDI具有很强的管理和容错能力。由于高带宽和具有多播功能,以及对同步通信的支持和有效的带宽管理, FDDI可以较好地支持多媒体通信。 FDDI-II是从FDDI衍生出来的,基于轮转时隙环协议的网络。它增加了电路交换能力,扩充了FDDI的应用领域,其误码率极低,网络以8kHz帧速率传送的预分配时隙来提供等时能力,动态分配带宽,能同时提供同步和异步数据服务,FDDI-II被设计用来支持恒定比特率通信方式,可把延迟控制在ms范围内,对于有限数目的站点来说,它的带宽是足够的,并且它还能够支持多站点传输。因此,它是多媒体通信的组成部分,可以满足许多基于宽带高速多媒体通信的要求。 9.分布式阵列双总线DQDB

作为城市网的子网,在较大范围内提供综合服务,如语音、图形、图像和数据传输等业务。DQDB可同时支持电路交换和分组交换,但当前基于DQDB的城域网SMDS或CBDS 服务方式缺少这些优点,还缺少对多媒体服务的特别支持。它们仅局限于异步通信类和少数静态CBR信道应用。 10.帧中继网(FR)

帧中继技术是把不同长度的用户数据均包封在较大的帧中继的帧内,加上寻址和控制信息后在网上传输。帧中继可以提供高吞吐量的信息传送,但是其端到端传输时的速率不是固定的,因而不大适合传送实时性要求很高的多媒体通信业务。但可用于传送非实时多媒体通信业务。 11.ISDN网

(1)支持多个通道。 (2)基本速率2B+D。

(3)基群速率23B+D(美国、日本)或30B+D(欧洲、中国)。I

(4)可以与其它网接口。

从以上特性看出:ISDN虽可支持多种业务,但带宽有限,服务内容有限,对多媒体通信来讲,仍不是理想网络,很难满足复杂的多媒体通信要求。

12.ATM网

具有ISDN的优点之外:

(1) 采用异步传送方式(ATM)实现网络的综合化 (2) 用户可使用的最高通信速率为150Mbps~ 60OMbps (3) 二利用多种连接形式提供丰富多彩的通信业务

ATM是一种快速的分组交换模式,采用了连接接纳控制(CAC)和使用参数控制(UPC)来实现ATM网络中的数据流量的管理和传输。其传输量远远大于传统网络,满足了多媒体通信对网络带宽的要求

ATM网络支持业务和媒体的综合传输。对不同业务、不同媒体在使用网络资源时,根据媒体本身具有的物理恃性提供最大的灵活性。

ATM网络能提供多种编码速率和多种带宽的传输服务,比较好地解决了业务的持续时间、突发性和速率三者之间的关系。

ATM网络的带宽资源体现为时隙,传输采用动态时隙,其时隙不再固定分配给某一呼叫,而是动态地分配给当前的所有呼叫,不造成过度占用带宽而浪费资源,也不造成资源不够而丢失数据。 13.基于IP网络

对于语音信号的传输,IP技术采用了先进的数字信号处理方法,能够在同一条线路上传输比采用模拟技术时更多的呼叫,可以实现信道的统计复用。高效地利用了网络资源,提高了网络的利用效率,但是由于现在的IP网络本质上是一个无连接的,没有QoS保证的网络,所以在网络拥塞时,延迟过大。

对于视频信号的传输,首先是带宽问题。其次是时延问题。

64. 何为ATM?为何说ATM 结合了分组交换和线路交换的优点?

①ATM(Asynchronous Transfer Mode)表示异步转移模式,即信息分组是异步传送的。该模式又是一种快速分组交换方式,“转移”包含传输和交换。在ATM中,信息转送的基本单元称为信元(cell)。ATM网将所发送的信息首先分解成一定长度的信息块,并在各数据块前装配地址、丢失优先级等控制信息(称为信元头),形成信元以统计时分复用的方式传输,当各终端的信息比特流在链路控制中形成为完整的信元后,就按先到先服务的原则,将信元及时插入信道中的空闲时隙内,插入的位臵无周期性,因此,这种传送方式是异步传送。

分组交换是采用虚电路或数据报方式进行报文件传输,参与信息传输的各个终端不独占信道,信道的带宽可以根据各终端信息传输的需要进行而动态分配,电路交换是指利用固定速率的信道在用户终端建立连接,连接建立成功后,无论用户终端是否有数据发送,在连接期间该信道始终被该终端占用。ATM异步传输模式(Asynchronous Transfer Mode)技术继承了电路交换方式中速率的独立性和高速分组交换方式对任意速率的适应性,取长补短,以实现高速传送综合业务信息的能力。ATM是在分组交换技术基础上发展而成的一种新的复用与交换机制,具有很高的带宽、远距离传输、延迟低、独立带宽及带宽动态配置等优点,所以说ATM异步转移模式结合了电路交换和分组交换的优点。

65. ISDN的主要特征有哪些?比较ISDN与B-ISDN 的差异。 ①ISDN的主要特性: (1)支持多个通道。 (2)基本速率2B+D。

(3)基群速率23B+D(美国、日本)或30B+D(欧洲、中国)。I (4)可以与其它网接口。

从以上特性看出:ISDN虽可支持多种业务,但带宽有限,服务内容有限,对多媒体通信来讲,仍不是理想网络,很难满足复杂的多媒体通信要求。 B-ISDN的主要特点。

(1) 采用异步传送方式(ATM)实现网络的综合化

(2) 用户可使用的最高通信速率为150Mbps~ 60OMbps,B-ISDN用户-网络接口(UNI)的通信能力是N-ISDN的100倍以上,通过一个宽带UNI可以提供包括HDTV的高速图像业务。

(3) 二利用多种连接形式提供丰富多彩的通信业务 差异:

ISDN是以数字化语音业务与普通数据业务的综合传输为出发点。ISDN概念的主要特征是在同一个网络中支持范围广泛的声音、图像和数据的应用。ISDN业务综合的关键是使用有限的连接种类和多用途-网络接口提供各种服务。

宽带ISDN(B-ISDN)强调在宽带条件下为实时动态视频、音频和普通数据提供不同服务质量的综合信息服务,支持交换与非交换连接,支持电路方式和分组方式的业务。

66. 支持IP网实时多媒体信息传送的协议有哪些? ①1.RTP/RTCP

RTP(Real Time Transport Protocol,实时传输协议):RTP是为支持实时多媒体通信而设计的传输层协议,它是一种应用级的协议,提供端到端实时音频和视频的传送服务,可以用于媒体点播以及交互式通信等方面。

RTCP(Real Time Transport Control Protocol,实时传输控制协议):用来控制RTP,监控数据传输,以保证实时业务的服务质量。RTCP 负责监视迟滞和通信带宽,若可用的带宽一旦变窄立即将该信息通知给发送端,发送端根据此信息,变更符号化方式和解析度,继续进行多媒体通信。 2.RSVP

RSVP(ResourceReservationProtocol,资源预留协议),是一种由接收端发起的资源预留协议,被设计成与网际层无关,RSVP在现有的网络上实现带宽预留,为实时性视频和音频业务保留带宽,并设臵队列管理方法,它装在终端和路由器中,用以确保端到端的传输带宽。 3.H.323协议

H.323是针对分组交换网络的多媒体通信标准,它属于ITU多媒体通信协议系列H.32X,提供若干分组网络的语音、视频、数据和控制等协议。 4.IP多播协议协议

多播发送方只是发送一个信息包而不是多个,所有目的地同时收到同一信息包,更同步、及时,能减少网络上传输的信息包的总量,网络成本降低,网络传送能力极大增加,它Internet群管理协议(IGMP)以及IETF的RFC11112等。 5.NHRP

NHRP(NextHopResolveProtocol下一步进解析协议)允许数据通道上的中间路由器的数据包转发功能被旁路掉。

67. 说出三个有新意的基于互联网的多媒体应用。并给出你认为它们有新意的理由。

①(PDF-ch6-2-P11~12归纳)多媒体应用:(1)影视点播:用户在任何时候可以点播服务器上的任何节目,留给用户充分的选择权,更好的服务用户,而不像传统电视那样,用户只能被动接受。(2)因特网电话:传统电话的语音业务是在传统的线路交换电话网络上传输,因特网电话的语音业务则是在遍布全球的因特网上传输,这样不仅可以近距离通信,还可以长途通信,

费用远远低于传统电话。(3)分组实时电视会议:允许处于不同地理位置的用户在因特网上聚集在一起讨论开会,可以大大降低开会的费用和时间。

②(1)现场声音和电视广播或者预录制内容的广播.

在因特网上广播,用户可以接收世界上任何一个角落里发出的声音和电视广播。这种广播可使用单目标广播( unicast )传输,也可使用更有效的多目标广播(multicast)传输。 (2) 声音点播(audio on demand)

客户请求传送经过压缩并存放在服务机上的声音文件,用户启动播放器几秒钟之后就开始播放,一边播放一边从服务机上接收文件,而不是在整个文件下载之后开始播放。 (3) 影视点播(video on demand)

客户请求传送经过压缩并存放在服务机上的视频文件,用户启动播放器几秒钟之后就开始播放,一边播放一边从服务机上接收文件,而不是在整个文件下载之后开始播放。

(4) 因特网电话(Internet telephony) 在因特网上进行通话,就像人们在传统的线路交换电话网络上相互通信一样,可以近距离通信,也可以长途通信,而费用却非常低。

(5) 分组实时电视会议(group real-time video conferencing) 与因特网电话类似,但可允许许多人参加。在会议期间,你可为你所想看到的人打开一个窗口。 ③

68. 多媒体通信服务质量(QoS)的评价参数有哪些,简述它们的基本概念。 我们的ppt上:

1. 2. 3. 4. 5.

可用带宽

网络的两个节点之间特定业务流的平均速率 时延

数据包在网络的两个节点之间传送的平均往返时间 丢包率

在网络传输过程中丢失报文的百分比 时延抖动 时延的变化 误包率

网络传输中报文出现错误的百分比

①(PDF-ch6-2-P10~11)

(1)峰值速率:传输速率的最大值 (2)平均速率:传输速率的平均值

(3)突发容错,用于通信业务量进入网络的控制

(4)表现比率:定义为实际表现速率和正常表现速率之比,反映的是某段时间内,正常分组数与实际分组数的比值,此值小于1时,便出现延迟;

(5)对象利用率:指实际表现速率与对象可交付速率之比,反映的是实际表现分组数与交付的分组数的比值,当利用率小于1时,为维持两对象之间的同步,可能丢失部分分组,当利用率大于或等于1时,所有交付对象都可被表现出来;

(6)时滞或扭曲:时滞是指经过N个同步点之后,两个对象在表现时间上的差异,反映了在某段时间内分组的平均延迟,若不为0,就表示存在延迟;扭曲是指经过N个同步点之后,对象播放时间上差异的平均值。

(7)抖动:是指两个对象在表现时间上的瞬时差异。 (8)最大延迟:反映传输延迟的最大值

(9)BER(Bit Error Rate)可接受的位错率:表示比特位出错率的接受范围

(10)PER(Packet Error Rate)可接受的分组错率:表示分组出错率的接受范围 (11)CLR(Cell Loss Rate)信元丢失率:表示传输过程中信元丢失的概率。

69. 分别列出H.323 和H.324 可视电话标准系列设计的重要标准,并分别说出这些标准的用途。(参考看书上P249,以下是去年的答案)

①(教材P293归纳)传统的会议系统采用音频来进行语音交流,或者采用视频增加了图像处理,或者就是简单的纯数据交流,它方式比较单一,功能有限,与会者只能进行片面的交流。而多媒体会议系统,利用全面的信息流来交换与会者的思想。这些信息流为实时音频和视频、同步或异步的多媒体数据。不仅可以传输多媒体数据,还提供了各种方式的共享空间和交流,有很强的交互性,是真正的属于与会者的会议。

70. 简述多媒体会议系统与传统的会议系统的区别? P243,答多媒体会议系统的特征

71. 简述H.323电视会议系统结构,H.323定义了哪几种形式的多媒体会议?

①(PDF-ch7-P4~5)H.323是一个局域网上并且不保证服务质量的多媒体通信标准,包括以下组成部分:(1)H.323终端:它是局域网上的客户使用设备,提供实时的双向通信,必须支持H.245标准;(2)H.323网关:它是一个可选择部件,提供了许多服务,但最基本的是对在H.323会议终端与其他类型终端之间传输的数字信号进行转换;(3)H.323会务器:是最重要的部件,是它管辖区域里的所有呼叫的中心控制点,并且为注册的端点提供呼叫控制服务,执行两个最重要的呼叫控制功能(地址转换和网络管理功能);(4)H.323多点控制单元:支持在3个或3个以上的端点之间召开电视会议。 (PDF-ch7-P5)会议形式包括:(1)集中式电视会议;(2)分散式电视会议;(3)声像集散混合式多点电视会议;(4)会议集散混合式多点电视会议。

72. 多媒体会议系统的基本组成与一般结构是什么?网关和会务器的定义和功能如何?(书上有结构图)

①(教材P293)多媒体会议系统主要由终端设备、传输信道和多点控制单元等组成。 网关:(PDF-ch7-P2)网关是一台功能强大的计算机或者工作站,它负担线路交换网络(如电话网络)和信息包交换网络(如因特网)之间进行实时的双向通信,提供异种网络之间的连通性,它是传统线路交换网络和现代IP网络之间的桥梁。(PPT-ch7-P3)网关基本功能:转换协议、转换信息格式和传输信息。 会务器:(PDF-ch7-P3)会务器是用于连接IP网络上的H.323电视会议客户,是电视会议的关键部件之一,它提供授权和验证、保存和维护呼叫记录、执行地址转换而不需要记忆IP地址、监视网络、管理带宽以限制同时呼叫的数目从而保证电视会议的质量以及提供与现存系统的接口。基本功能:地址转换、准入控制、带宽控制和区域管理,还提供许多选择功能。

综合类

73. 视频信号传输的时候,哪些系统采用了基带传输方式,哪些采用了频带传输方式?

传统的电视系统如PAL,NSTC等模拟电视系统,电话系统还有局域网系统是采用基带传输。而对于数字电视等数字格式以及现在网络上的视频传输以及远程的网络传输都是采用频带传输。

74. 总结音频编码技术发展过程中主要思路的变迁。

⑴基于音频数据的统计特性进行编码

基于音频数据的统计特性进行编码,其典型技术是波形编码。不利用声音的任何知识,数据

本文来源:https://www.bwwdw.com/article/gbs6.html

Top