Testovanie QoS (Quality of Service) je jednou z kľúčových úloh v moderných telekomunikačných sieťach a význam týchto testovaní rastie so zvyšujúcou sa komplikovanosťou a komplexnosťou telekomunikačných sietí, kde prenosový reťazec zahŕňa stále viac prenosových technológií (tzv. konvergencia sietí) [1]. Na hodnotenie kvality reči po prenose telekomunikačnou sieťou, resp. po spracovaní rečovým kódekom, sa používajú dve základné hodnotenia, a to objektívne a subjektívne. Takýto parameter sa stáva jedným z mála obecne merateľných, pre porovnanie odlišných prenosových zariadení, ktorý je vo svojej podstate najbližší z pohľadu jednotlivých koncových užívateľov. [1]
Prenosový reťazec v súčasných tel. sieťach môže pozostávať z kombinácie rôznych typov sietí (PSTN, GSM, VoIP), ako aj rôznych typov kódovania. V nasledujúcich riadkoch stručne popíšeme faktory ovplyvňujúce kvalitu prenosu reči v jednotlivých častiach prenosového reťazca.
Klasické siete: V sieti PSTN vplýva na kvalitu prenosu reči hlavne kvalita telefónneho prístroja, hlasitosť telefónu, akustické echo generované medzi slúchadlom a mikrofónom a tiež interferencie medzi jednotlivými linkami. Parametre, ktorými môžeme charakterizovať takúto prevádzku, sú: hlasitosť, oneskorenie, ozvena, šum a presluchy. Väčšinu týchto parametrov môžeme popísať tradičným meraním SNR, nelineárnym skreslením atd.
Digitálna kompresia rečových signálov: Kvalita prenosu reči digitalizovaného signálu je primárne funkcia dostupnej bitovej rýchlosti. Moderné komprimačné metódy umožňujú prenos hovoru s prenosovou rýchlosťou 8 kb/s a nižšou. Takúto bitovú rýchlosť v porovnaní so širokopásmovými audiokódekmi možno dosiahnuť zameraním sa na modelovanie ľudského vokálného traktu. Obr. 1 ukazuje niekoľko závislostí výstupnej kvality prenosu reči základných kódovacích techník od bitovej rýchlosti. Dig. kompresiu rečových signálov môžeme rozdeliť do troch základných skupín [2]:
Obr. 1 Kvalita prenosu reči pre rôzne kódovacie techniky.
Mobilné prenosy: Obmedzenou šírkou pásma v moderných komunikačných systémoch sa kódovanie reči stáva kľúčovým parametrom. Zakódované dáta sa posielajú cez rádiové frekvencie a sú vystavované citlivým prenosovým linkám, ktoré sú náchylné na chyby. Tieto chyby spôsobujú zložitosť, resp. nemožnosť rekonštruovať rečový signál, nakoľko dáta prenášané linkami obsahujú len veľmi málo redundancie. Pôsobením adaptívneho kódovania reči a prenosu, chyby v mobilných prenosových systémoch môžu pôsobiť veľmi rušivo. Rušenie je dosť rozdielne v porovnaní s tradičným analógovým rušením, a preto tento vplyv nemôže byt popísaný tradičným meraním. Typické chyby vyskytujúce sa pri mobilných prenosoch sú: impulzný šum, krátkodobé výpadky, orezávanie signálu a nelineárne skreslenie použitím stratových kódekov.
Paketovo orientovaný prenos: Prenos hlasových služieb internetovým protokolom (VoIP) je dnes aktuálna téma. Kvalita prenosu reči cez IP sa stretáva s problémami ako stratovosť paketov, prehodenie paketov po prechode cez vyrovnávaciu pamäť, oneskorenie paketov, echo, atd. Pre VoIP sú typicky využívané nasledujúce kódeky: G.711 (64 kb/s), G.723 (5,4 a 6,3 kb/s), G.728 (8 kb/s), ako aj GSM Full-Rate.
Ohodnotenie všetkých faktorov, ktoré spôsobujú degradáciu rečového signálu, je len prvým krokom, nakoľko nasleduje nevyhnutný krok, ktorý má za úlohu váhovať vplyv jednotlivých faktorov na výsledné ohodnotenie kvality. Výsledkom tohto váhovania je jeden index MOS (Mean Opinion Score), ktorý podľa doporučenia ITU-T má pätstupňovú stupnicu (Excellent -5, Good – 4, Fair – 3, Poor -2, Bad-1) [3].
Meracie metódy určujúce kvalitu môžeme rozdeliť na dve základné skupiny:
Subjektívne meranie – kvalita degradovanej rečovej vzorky sa vyhodnocuje štatisticky pomocou ohodnotenia dostatočné rozsiahlej skupiny osôb, ktoré odpovedajú na dotazník uvedený v odporúčaní ITU-T P.82 a vyjadrujú sa k danej rečovej vzorke. Toto meranie je časovo a finančné veľmi náročné, ale výsledná hodnota je skutočná hodnota kvality prenosu reči MOS-LQS (Mean Opinion Score – Listening Quality Subjective). Pri nahrávaní musia byť splnené špecifické požiadavky podľa ITU-T Rec. P.800, ako sú: špecifická nahrávacia miestnosť (štúdio), kvalita nahrávacieho zariadenia, vlastnosti mikrofónu, vzdialenosť mikrofónu od hovoriaceho, použitie protiveterného krytu, hladina šumu pri nahrávaní, vety majú byť jednoduché a nahovorené plynulo, ale nie expresívne, ďalej sa kladie dôraz na hlasitosť nahrávky, vzorky musia byť nahovorené mužmi aj ženami, a je potrebné zohľadniť aj dĺžku nahrávania a unavenosť hovoriacich atď. Taktiež pri posluhu musia byť splnené požiadavky ako: špecifická posluchová miestnosť (s rovnakými vlastnosťami ako pri nahrávaní), vlastnosti reproduktorov, poslucháči musia byť vybraní náhodne z tel. užívateľov, nesmú byť znalí problematiky, nerobili takýto test najmenej 6 mesiacov a nepočuli tieto nahovorené vety atď.
Objektívne meranie – kvalita degradovanej vzorky sa vyhodnocuje štatisticky z matematických modelov, ktoré viac alebo menej modelujú ľudský sluchový aparát. Tieto merania nie sú tak časovo a finančné náročné, ale výsledná kvalita prenosu reči je len odhadom MOS-LQO (Mean Opinion Score – Listening Quality Objective) a záleží na presnosti matematického modelu. Tieto metódy rozoberieme ďalej v tomto texte.
Pozn.: Pri návrhu tel. sieti zohráva dôležitú úlohu estimácia hodnôt kvality prenosu reči MOS-LQE (Mean Opinion Score – Listening Quality Estimated). Príkladom takejto metódy je doporučenie ITU-T Rec. G.107 z roku 2000 (Pozn.: v roku 2003 reevidovaný) tzv. E-model popísaný v článku: Hodnocení kvality telefonního přenosu pomocí E-modelu.
Kvalitu prenosu reči môžeme testovať dvoma diametrálne odlišnými spôsobmi [1]:
Nasledujúca bloková schéma Obr. 2 určuje vzájomný vzťah medzi jednotlivými typmi meraní. Pričom doporučenie ITU-T Rec. P.834 určuje metodológiu získania faktora zhoršenia Ie z objektívnych meraní a doporučenie ITU-T Rec. P.833 zo subjektívnych meraní. Ďalej doplnok I k doporučeniu ITU-T Rec. G.113 z roku 2002 eviduje databázu faktorov zhoršenia Ie a odolnosti kódeku proti strate paketov Bpl pre rôzne typy kódekov. Prevod prenosového činiteľa R na hodnotu MOS je určený prevodovou krivkou určenou experimentálne.
Obr. 2 Vzájomný vzťah medzi jednotlivými hodnoteniami MOS [4].
Návrh objektívnych metód merania založenej na ľudskom vnímaní začal v 80-tych rokoch a medzi najlepšie algoritmy, ktoré boli navrhnuté patria PAQM, PSQM, NMR, PERCEVAL, DIV, OASE, POM [9]. S výnimkou PSQM (Perceptual Speech Quality Measure) všetky tieto algoritmy boli navrhované pre odhad kvality širokopásmových kódekoch, a preto boli určené skôr pre televízne a rozhlasové vysielanie. V roku 1996 bol štandardizovaný algoritmus PSQM ako odporúčanie ITU-T Rec. P.861 pre meranie kvality prenosu reči. Tento algoritmus najlepšie koreloval so subjektívnymi testami. S postupným vývojom rečového kódovania, a to hlavne pre hlasové prenosy cez IP, museli byt vyvinuté nové algoritmy testovania kvality prenosu reči, nakoľko PSQM nepokrýval celú oblasť rušenia. Testy robené pod dohľadom ITU ukazovali, že najlepšie algoritmy boli PSQM99 a PAMS, ale tieto algoritmy neboli natoľko dobré, aby sa štandard reevidoval. V roku 2000 bol štandardizovaný algoritmus PESQ (Perceptual Estimation of Speech Quality) ako ITU-T Rec. P.862, ktorý bol v podstate algoritmus PSQM99 s aplikovanou kompenzáciou oneskorenia. Všetky relevantné meracie algoritmy môžeme popísať blokovou schémou (obr. 3). Jednotlivé algoritmy sú podstatne rozličné v napodobňovaní modelu ľudského vnímania, ale sú podobné v ich základnej štruktúre, ktorá pozostáva z dvoch vstupov, kde prvý je referenčná rečová vzorka a druhý je testovaný signál. V prvom kroku je modelované vonkajšie ucho, tzv. vnemový model (perceptual model). Implementovanie tohto kroku v jednotlivých algoritmoch je značné rozdielne a vo všeobecnosti môžeme povedať, že pre širokopásmové audiosignály je táto časť algoritmu dôležitejšia ako pre meranie kvality prenosu rečových signálov. V nasledujúcom kroku algoritmus modeluje akustické skreslenie v testovanom signáli a porovnáva ho s výstupom z vnemového modelu. Informácie získané takýmto procesom sú nazývané MOVs (Model Output Variables) a sú vstupom pre detailnejšiu analýzu signálu. Výsledné vyjadrenie kvality pozostáva z jedného čísla, ktoré reprezentuje akustické skreslenie testovaného signálu. Na dosiahnutie toho je potrebné simulovať kognitívnu časť ľudského vnímania reči. Rozsah implementácie tohto kroku je od algoritmického popisu (napr. PESQ) až po popis umelými neurónovými sieťami (napr. PEAQ).
Obr. 3 Všeobecná štruktúra objektívnych metód merania kvality.
PSQM (Perceptual Speech Quality Measure) [5], [9].
Algoritmus na výpočet kvality prenosu rečového signálu na základe modelu ľudského vnemu bol vyvinutý
Beerendsom v roku 1993. Vývojová skupina KPN Research prezentovala adaptovanú verziu všeobecnejšieho
merania akustického vnemu (PAQM) optimalizovanú pre telefónne rečové signály. To spôsobilo pozorovanie, že
psychoakustický efekt maskovania sa zdá byť iný, ak porovnávame vnem reči a vnem hudby. Jednou z príčin je,
že ľudský mozog si môže pripomínať referenčné rečové zvuky častejšie z denného života, v porovnaní s
hudobnými zvukmi. Na obrázku obr. 4 môžeme vidieť blokový diagram základného modelu PSQM algoritmu. Vo
vnútri algoritmu PSQM sú fyzikálne signály vstupnej reči a kódovanej reči mapované do psychoakustickej
reprezentácie tak, že odpovedajú vnútorným reprezentáciám rečových signálov (reprezentované vo vnútri
ľudskej hlavy). Ako je vidieť z obr. 4, kvalita kódovanej reči sa rozhoduje na základe diferencie
vnútorných reprezentácií. Táto diferencia je použitá pre výpočet šumového rušenia ako funkcie čašu a
frekvencie. V PSQM priemerné šumové rušenie je priamo závislé od kvality kódovanej reči. Okrem modelovania
vnemu, metóda PSQM využíva tiež kognitívny model, čo spravidla vedie k vysokej korelácii medzi
subjektívnymi a objektívnymi meraniami.
PSQM+
Štandardizovaná verzia PSQM definovaná v P.861 má tri nevýhody [9]:
PESQ (Perceptual Estimation of Speech Quality) [6],[9]
V súvislosti s nástupom VoIP ITU vytvorilo pracovnú skupinu na revidovanie štandardu P.861 s požiadavkou
vyrovnania sa s novými rušeniami v moderných tel. sieťach. Merací algoritmus v týchto sieťach sa musel
vysporiadať s väčším rušením ako v kódekoch GSM, ale predovšetkým s tým, že oneskorenie medzi referenčnou a
testovanou vzorkou nie je vždy konštantné. Prvým priblížením k prekonaniu týchto problémov bol vývoj PSQM+.
Tento algoritmus dobre ohodnocoval veľké rušenie zapríčinené napr. výpadkom paketov, ale stále mal problém
s kompenzáciou rôzneho oneskorenia. V algoritme PSQM+ je implementovaná jednoduchšia funkcia na sledovanie
oneskorenia pracujúca v reálnom čase, ale tá pri niektorých signáloch zlyháva. V novom doporučení ITU-T
Rec. P.862 (PESQ) je tento problém eliminovaný. Kombinuje vynikajúci psychoakustický a kognitívny model
PSQM+ s algoritmom časového zarovnania, ktorý dokonale pracuje so signálmi s rôznym oneskorením. No jeden z
nedostatkov PESQ je to, že nie je použiteľný pre aplikácie pracujúce v reálnom čase. To je dôvod, prečo
algoritmus PESQ úplne nenahradil PSQM+.
Z PSQM a PESQ teraz sú dva štandardy, ktoré pokrývajú problematiku merania kvality prenosu reči. Obr. 4 uvádza prehľad štruktúry PESQ algoritmu a taktiež ukazuje nové bloky, ktoré boli pridané ku algoritmu PSQM. Referenčná a degradovaná rečová vzorka sú individuálne úrovňovo zarovnávané a filtrované. Tieto signály vstupujú do bloku časového zarovnávania, kde sa kompenzujú malé časové posuny, zapríčinené oneskorením a časovou nestabilitou v systémoch VoIP. Časové reprezentácie oboch vstupných signálov sú transformované do frekvenčnej oblasti. Ďalej sú rečové vzorky rozdelené do blokov, ktoré sú vstupom do FFT použitím Hannového okna. Ďalej sa (lineárna) frekvenčná stupnica prevedie na frekvenčnú stupnicu udávanú v barkoch, založenú na kritických frekvenčných pásmach, ktoré korešpondujú so šírkami pásem, tzv. kochleárnej banky filtrov. Obe signály, referenčný a degradovaný, sú potom filtrované s prenosovými charakteristikami prijímacieho zariadenia (telefónu). Následne je pridaný Hothov šum (Hoth noise) na simulovanie šumu pozadia typického pre kancelárie s cieľom vyjadriť maskovací efekt v reálnom šumovom prostredí a určenie maskovacieho prahu. Potom nasleduje úprava intenzity, ktorá vedie k vyjadreniu komprimovanej hlasitosti ako funkcie výšky tónu a času, a pomocou tejto funkcie sa odvodí odhad počuteľných chýb.
Obr. 4 Bloková schéma algoritmu PESQ (PSQM).
Štandardy na kódovanie rečových signálov prešli dlhodobým dynamickým rozvojom a možno ich rozdeliť na dve hlavné skupiny, a to [7]:
ITU štandardy sú určené na prenos rečových signálov v telekomunikačných sieťach, pričom prvý štandard G.711 bol finalizovaný v roku 1992 a bol určený pre siete PSTN. V súčasnosti sa počet ITU štandardov v súvislosti s rozvojom telekomunikačných sietí značné zvýšil. Štandardy pre mobilné komunikácie vznikli z dôvodu značného rozšírenia mobilných sietí a potreby realizovať prenos rečových signálov v podmienkach týchto sietí. (Pozn.: k jednotlivým kódekom boli experimentálne určené hodnoty parametra Ie vid. tabuľka: Parametr Ie pro různé typy kodeku a přenosové rychlosti )
ITU štandardy:
G.711
V tomto štandarde sa pre rečový signál so šírkou pásma 3,1 kHz používa vzorkovania frekvencia 8 kHz a
kvantovanie vzorky na 8 bitov. Potrebná prenosová rýchlosť je 64 kb/s. Tento štandard používa metódu PCM, a
rečový signál sa kóduje pomocou A resp. µ zákona.
G.722
V tomto štandarde sa predpokladá prenos rečového signálu so šírkou pásma 7 kHz. Kodér G.722 používa
dvojpásmové subpásmové SBC kódovanie s využitím ADPCM. Na rozdelenie rečového signálu do dvoch pásem sa
používa zrkadlový QMF filter s 24 odbočkami. Vyššie pásmo využíva ADPCM kodér s 2 bitovým kvantizátorom.
Dolné pásmo využíva ADPCM kodér s 4, 5, resp. 6 bitovým adaptívnym kvantizátorom. To umožňuje realizáciu
troch režimov kódovania s prenosovými rýchlosťami 48, 56 a 64 kb/s. Použitý QMF filter spôsobuje
oneskorenie iba 1,5 ms. Kodér podla G.722 sa vyznačuje relatívne malou zložitosťou a v jeho realizácii sa
predpokladalo použitie DSP čipov prvej generácie.
G.726, G.727 / ADPCM
Štandard G.726 vznikol zlúčením starších štandardov G.721 a G.723 v roku 1990. Štandardy G.726 resp. G.727
pracujú na princípe metódy ADPCM. Používajú 2-, 3-, 4-, resp. 5-bitové lineárne kvantizátory, čo umožňuje
dosiahnuť prenosové rýchlosti 16, 24, 32 resp. 40 kb/s. Štandard G.726 poskytuje pri prenosovej rýchlosti
32 kb/s veľmi kvalitný rekonštruovaný rečový signál, pri nízkom oneskorení kódovania.
G.728 / LD-CELP
Kodér na báze tohto štandardu používa metódu LD-CELP a umožňuje dosiahnuť prenosovú rýchlosť 16 kb/s. Je
určený najmä pre videotelefóniu s nízkou prenosovou rýchlosťou, resp. pre videokonferenčné systémy.
Všeobecne sa kodér na báze štandardu G.728 považuje za kodér s vysokou kvalitou. V kombinácii s kodérom na
báze G.711 sa dosahuje kvality 3,5 QDU. Dvojnásobné kódovanie poskytuje kvalitu 7 QDU.
G.729 / CS-ACELP
Tento štandard bol vytvorený prednostne pre aplikáciu mobilných sietí. Kodér na báze G.729 sa vyznačuje
nízkou prenosovou rýchlosťou 8 kb/s. Veľkosť rámca sa stanovila na 10 ms, čo umožnilo dosiahnuť kompromis
medzi kvalitou rekonštruovaného rečového signálu a výpočtovou zložitosťou kódovacieho algoritmu.
Oneskorenie v dôsledku prekrytia rámcov (lookahead) je 5 ms, celkové oneskorenie 25 ms. Kódovací algoritmus
je modifikáciou algoritmu CELP a označuje sa ako CS-ACELP (Conjugate Structure Algebraic Codebook
Excitation Linear Prediction). Ide o modifikáciu metódy CELP, ktorá optimalizuje vyhľadávanie budiacich
sekvencií pre kodér [7].
G.723.1 / MP-MLQ
Tento štandard je určený pre multimediálne aplikácie a obsahuje dva rečové kodéry. Jeden pracuje s
prenosovou rýchlosťou 5,3 kb/s, druhý s prenosovou rýchlosťou 6,4 kb/s. Rozdiely spočívajú v rôznych
kódových knihách s rôznymi budiacimi postupnosťami. Kódovací algoritmus sa označuje ako MPEG-MLQ. Veľkosť
rámca je 30 ms, oneskorenie v dôsledku prekrytia rámca je 7,5 ms a celkové oneskorenie kodéra je 67,5 ms
[7].
Štandardy pre mobilné komunikácie:
GSM RPE-LTP
Tento štandard bol vytvorený pre mobilné systémy GSM a používa zjednodušený princíp metódy RPE (Regular
Pulse Excitation) v LPC kódovaní s dlhodobou predikciou, ktorá sa označuje ako RPE-LTP. Kodér rečových
signálov pracuje s prenosovou rýchlosťou 13 kb/s. V kódovaní sa vypočítavá 8 LPC koeficientov, krátkodobou
predikciou každých 20 ms (160 vzoriek). Dlhodobá predikcia, ktorou sa získa jeden koeficient, sa vykonáva
každých 5 ms, teda štyrikrát častejšie ako krátkodobá predikcia. Koeficient dlhodobej predikcie sa kóduje 2
bitmi. Metóda RPE je založená na určenie budiacej postupnosti prechodom predikčného signálu cez blok
krátkodobej a dlhodobej predikcie, za ktorým nasleduje FIR filter a pod vzorkovanie faktorom 3. V rámci o
dĺžke 20ms sa získajú 4 posunuté budiace postupnosti, z ktorých sa vyberá optimálna [7].
TIA VSELP
Štandard TIA (Telecommunications Industry Association) bol spracovaný pod označením IS 54 pre mobilné
systémy na báze TDMA v USA. Kodér rečových signálov používa modifikáciu metódy CELP označovanú ako VSELP
(Vector Sum Excitation Lincal Prediction) a umožňuje prenosovú rýchlosť približne 8 kb/s. Kodér a dekodér
obsahujú dve kódové knihy, ktoré obsahujú kódové slová ako kombináciu ortogonálnej bázy. Koeficienty
krátkodobej predikcie sa počítajú každých 20 ms a ich počet je 10. Dlhodobou predikciou sa vypočíta jeden
LPC koeficient [7].
PDC VSELP
Tento štandard PDC (Personal Digital Cellular) je určený pre mobilné siete v Japonsku. Kodér používa metódu
VSELP a pracuje s prenosovou rýchlosťou 6,7 kb/s. Má rovnakú zložitosť ako TIA VSELP, ale dosahuje o niečo
menšiu kvalitu rekonštruovaného rečového signálu. Zásadným rozdielom medzi uvedenými štandardami je to, že
PDC VSELP používa iba jednu kódovú knihu s budiacimi postupnosťami [7].
TIA QCELP
Štandard TIA bol spracovaný pod označením IS-96 pre mobilné systémy na báze CDMA, čo je výhodou tohto
štandardu. Kodér, ktorý pracuje s modifikáciou CELP metódy v kombinácii s princípom CDMA, poskytuje štyri
možné prenosové rýchlosti približne 1, 2, 4, a 8 kb/s Modifikovaná CELP metóda Q CELP (Qualcomm CELP)
používa 10 LPC koeficientov krátkodobej predikcie a jeden koeficient dlhodobej predikcie [7].
Hodnotenie kvality prenosu reči nie je jednoduchým problémom, nakoľko je potrebné pochopiť a popísať fenomén ľudského sluchového „prístroja“. Tento problém hraničí s neuroanatómiou (prenos neurových vzruchov do mozgu) a interpretáciou reči v mozgu (kognitívny model). Len dokonalé pochopenie tohto systému dovedie matematický model k správnemu hodnoteniu kvality prenosu reči a taktiež prispeje k efektívnejšiemu kódovaniu rečových signálov.
Vzniklo v rámci projektu: Specifikace kvalitativních kritérií a optimalizace prostředků pro vysokorychlostní přístupové sítě, NPV 1ET300750402.
[1] HOLUB, J. – ŠMÍD, R. – KOLOMAZNÍK, J. Hodnocení hlasových přenosů v telekomunikačních sítích,
Sdělovací technika, červen 2001.
[2] SOCHATZI, K. Monitorování kvality hlasových služeb v prostředí IP, Sdělovací technika, prosinec
2004.
[3] ITU-T P.800 – Recommendation P.800 of the International Telecommunication Union, Methods for
subjective determination of transmission quality, ITU-T, 1996.
[4] ITU-T P.800.1 – Recommendation P.800.1 of the International Telecommunication Union. Mean Opinion
Score (MOS) terminology, ITU-T, 2003.
[5] ITU-T P.861 – Recommendation P.861 of the International Telecommunication Union, Objective quality
measurement of telephone band (300-3400 Hz) speech codecs, ITU-T, 1996.
[6] ITU-T P.862 – Recommendation P.862 of the International Telecommunication Union, Perceptual
evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of
narrow-band telephone networks and speech codecs, ITU-T, 2001.
[7] LEVICKÝ, D.: Multimediálne telekomunikácie, Košice: elfa, s.r.o., 2002, 240 s., ISBN 80-89066-58-5.
[8] Český telekomunikační úřad: Síťový plán přenosových parametrů veřejných telefonních sítí,
SP/2/09.2005, Praha, 2005.
[9] OPTICOM GmbH, State of art voice quality testing – White paper, Erlangen, Germany, 2000,
www.opticom.com.