1、多媒体中的音频处理技术
多媒体涉及到多方面的音频处理技术,如:音频采集、语音编码/解码、文一-语转换、音乐合成、语音识别与理解、音频数据传输、音频一-视频同步、音频效果与编辑等。其中数字音频是个关键的概念,它指的是一个用来表示声音强弱的数据序列,它是由模拟声音经抽样(即每隔一个时间间隔在模拟声音波形上取一个幅度值)量化和编码(即把声音数据写成计算机的数据格式)后得到的。计算机数字CD、数字磁带(DAT)中存储的都是数字声音。模拟一-数字转换器把模拟声音变成数字声音;数字一-模拟转换器可以恢复出模拟来的声音。
一般来讲,实现计算机语音输出有两种方法:一是录音/重放,二是文一-语转换。第二种方法是基于声音合成技术的一种声音产生技术,它可用于语音合成和音乐合成。而第一种方法是最简单的音乐合成方法,曾相继产生了应用调频(FM)音乐合成技术和波形表(wavetable)音乐合成技术。
2、乐器数字接口MIDI的概念
现在我们用的最多的音频名词之一MIDI(musical instrument digital interface)是作为“乐器数字接口”的缩写出现的,并用它来泛指数字音乐的国际标准。由于它定义了计算机音乐程序、合成器及其他电子设备交换信息和电子信号的方式,所以可以解决不同电子乐器之间不兼容的问题。另外,标准的多媒体PC平台能够通过内部合成器或连接到计算机MIDI端口的外部合成器播放MIDI文件,利用MIDI文件演奏音乐,所需的存储量最少。
至于MIDI文件,是指存放MIDI信息的标准文件格式。MIDI文件中包含音符、定时和多达16个通道的演奏定义。文件包括每个通道的演奏音符信息:键通道号、音长、音量和力度(击键时,键达到最低位置的速度)。由于MDDI文件是一系列指令,而不是波形,它需要的磁盘空间非常少;并且现装载MIDI文件比波形文件容易的多。这样,在设计多媒体节目时,我们可以指定什么时候播放音乐,将有很大的灵活性。在以下几种情况下,使用MIDI文件比使用波形音频更合适:需要播放长时间高质量音乐,如想在硬盘上存储的音乐大于4分钟,而硬盘又没有足够的存储容量;需要以音乐作背景音响效果,同时从CD-ROM中装载其它数据,如图像、文字的显示;需要以音乐作背景音响效果,同时播放波形音频或实现文一语转换,以实现音乐和语音的同时输出。
3、常见的声音文件格式
再接下来我们介绍七种目前最为流行的多媒体声音文件效果让你认识认识:
WAVE,扩展名为WAV:该格式记录声音的波形,故只要采样率高、采样字节长、机器速度快,利用该格式记录的声音文件能够和原声基本一致,质量非常高,但这样做的代价就是文件太大。
MOD,扩展名MOD、ST3、XT、S3M、FAR、669等:该格式的文件里存放乐谱和乐曲使用的各种音色样本,具有回放效果明确,音色种类无限等优点。但它也有一些致命弱点,以至于现在已经逐渐淘汰,目前只有MOD迷及一些游戏程序中尚在使用。
MPEG-3,扩展名MP3:现在最流行的声音文件格式,因其压缩率大,在网络可视电话通信方面应用广泛,但和CD唱片相比,音质不能令人非常满意。
Real Audio,扩展名RA:这种格式真可谓是网络的灵魂,强大的压缩量和极小的失真使其在众多格式中脱颖而出。和MP3相同,它也是为了解决网络传输带宽资源而设计的,因此主要目标是压缩比和容错性,其次才是音质。
Creative Musical Format,扩展名CMF:Creative公司的专用音乐格式,和MIDI差不多,只是音色、效果上有些特色,专用于FM声卡,但其兼容性也很差。
CD Audio音乐CD,扩展名CDA:唱片采用的格式,又叫“红皮书”格式,记录的是波形流,绝对的纯正、HIFI。但缺点是无法编辑,文件长度太大。
MIDI,扩展名MID:目前最成熟的音乐格式,实际上已经成为一种产业标准,其科学性、兼容性、复杂程度等各方面当然远远超过本文前面介绍的所有标准(除交响乐CD、Unplug CD外,其它CD往往都是利用MIDI制作出来的),它的General MIDI就是最常见的通行标准。作为音乐工业的数据通信标准,MIDI能指挥各音乐设备的运转,而且具有统一的标准格式,能够模仿原始乐器的各种演奏技巧甚至无法演奏的效果,而且文件的长度非常小。
总之,如果有专业的音源设备,那么要听同一首曲子的HIFI程度依次是:
原声乐器演奏 > MIDI > CD唱片 > MOD > 所谓声卡上的MIDI > CMF,而MP3及RA要看它的节目源是采用MIDI、CD还是MOD了。
另外,在多媒体材料中,存储声音信息的文件格式也是需要认识的,共有:WAV文件、VOC文件、MIDI文件、RMI文件、PCM文件以及AIF文件等若干种。
WAV文件:Microsoft公司的音频文件格式,它来源于对声音模拟波形的采样。用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点,以不同的量化位数(8位或16位)把这些采样点的值转换成二进制数,然后存入磁盘,这就产生了声音的WAV文件,即波形文件。Microsoft Sound System软件Sound Finder可以转换AIF SND和VOD文件到WAV格式。
VOC文件:Creative公司波形音频文件格式,也是声霸卡(sound blaster)使用的音频文件格式。每个VOC文件由文件头块(header block)和音频数据块(data block)组成。文件头包含一个标识版本号和一个指向数据块起始的指针。数据块分成各种类型的子块。如声音数据静音标识ASCII码文件重复的结果重复以及终止标志,扩展块等。
MIDI文件:Musical Instrument Digital Interface(乐器数字接口)的缩写。它是由世界上主要电子乐器制造厂商建立起来的一个通信标准,以规定计算机音乐程序 电子合成器和其它电子设备之间交换信息与控制信号的方法。MIDI文件中包含音符定时和多达16个通道的乐器定义,每个音符包括键通道号持续时间音量和力度等信息。所以MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程中的指令。
RMI文件:Microsoft公司的MIDI文件格式,它可以包括图片标记和文本。
PCM文件:模拟音频信号经模数转换(A/D变换)直接形成的二进制序列,该文件没有附加的文件头和文件结束标志。在声霸卡提供的软件中,可以利用VOC-HDR程序,为PCM格式的音频文件加上文件头,而形成VOC格式。Windows的Convert工具可以把PCM音频格式的文件转换成Microsoft的WAV格式的文件。
AIF文件:Apple计算机的音频文件格式。Windows的Convert工具同样可以把AIF格式的文件换成Microsoft的WAV格式的文件。
DSP: 即Digital Signal Processing 数字188金宝慱图片 .DSP技术在音调控制,失真效果器,Wah-wah踏板等模拟电子领域有广泛的应用。同时,DSP在模拟均衡和混响等多种效果上也能大显身手 。通过电脑CPU或专门的DSP芯片都可以处理DSP 动作,不同的是,专门的DSP芯片处理要比电脑CPU处理更优化,速度更快 。
采样:把模拟音频转成数字音频的过程,就称作采样,所用到的主要设备便是模拟/数字转换器(Analog to Digital Converter,即ADC。与之对应的是数/模转换器,即DAC)。采样的过程实际上是将通常的模拟音频信号的电信号转换成二进制码0和1,这些0和1便构成了数字音频文件。采样的频率越大则音质越有保证.由于采样率一定要高于录制的最高频率的两倍才不会产生失真,而人类的听力范围是20Hz-20kHz,所以采样频率至少得是20k×2=40kHz以保证不产生低频失真,这也是CD音质采用44.1kHz(稍高于40kHz是为了留有余地)的原因。
信噪比:以dB计算的信号最大保真输出与不可避免的电子噪音的比率。该值越大越好。低于75dB这个指标,噪音在寂静时有可能被发现。AWE64 Gold声卡的信噪比是80dB,较为合理。SBLIVE更是宣称超过120dB的顶级信噪比。总的说来,由于电脑里的高频干扰太大,所以声卡的信噪比往往不令人满意。但SBLIVE!提供了一个数字输出口SPDIF,可绕过输出时的模拟部分,极大地减少了噪音和失真,同时又极大地提高了动态范围和清晰度。
FM: Synthesis Frequency Modulation调配合成技术。FM发声器的原理是先对音色本质进行研究计算之后再通过人工方式“模拟”(或合成)其频率,使用调变波去调变载波,最终获得不同的音色表现。该方法很难制出逼真的真实乐器音色,听上去有很强的人工合成的痕迹。
GM:即通用MIDI标准系统第一级(General MIDI system Level1),制定于1991年。在GS标准基础上,规定了MIDI设备的最大同时发音数不得少于24个、鼓镲等打击乐器作为一组单独排列、128种乐器音色有统一的排列方式等。GM的音色排列方式基本上沿袭了GS标准.它一推出便得到了全球MIDI厂商的一致支持,实现了MIDI设备间的交流。
XG:YAMAHA于1994年提出了自己的音源标准——XG。XG在兼容GM的基础上做了大幅度的扩展,能够进行“音色编辑”和自由发展不同层次的器材.具有强大的可扩充性。同过其“库方式”可选择共480种音色。
SMPTE(The Society of Motion Picture and Television Engineers)。它是目前在影音工业中得到广泛应用的一个时间码概念.该码用于设备间驱动的时间同步,计数方式 ,主要参数格式是:Hours: Minutes : Second : Frames.其中SMPTE 24 Film Sync: 以每秒24帧的速度播放,通常用于电影工业;SMPTE 30 Non-Drop: 该标准适用于音频领域。
音频压缩(Audio Compression).是指降低信号动态以滤除噪声和避免动态过大的失真。通过不同的计算方式、忽略人耳不易察觉的频段、或通过制造听觉上的错觉,从而大幅度降低音频数据的数量,却令音质基本不变甚至更好。
标准的MIDI插头:一般的MIDI设备背后都有3个5针插头,分别是MIDI IN接受MIDI信息;MIDI OUT发送该设备自身的MIDI信息;MIDI THRU转接输出MIDI IN接受到的MIDI信息。
合唱(Chorus):最常用的音响效果之一。原理是将信号的调制延迟部分做copy,然后再与原信号合成。这种效果可产生多个相同声音组合的感觉。MIDI应用时,与Reverb等效果适当配合和渗透,作出意想不到的效果。
另外还有: 放大器(Amplifier),俗称“功放”,用以增强电平信号。 Hz:同一频率每秒振动次数的单位. quantize: 量化。其作用是对音符或音频以某个精确度进行“对位”。
半双工(half-duplex):计算机技术上可以在 两个方向上进行信息传输。但在同一时刻只可单向进行。 EQ(Equalize)均衡效果器。其中Paragraphic EQ是参数图形均衡器。Graphic EQ是图示均衡器。用滑动控制器作为参数调整的多段可变均衡器。滑动控制器下的标识与其频率响应所对应。每一频段的中心频率与带宽是固定的。