Zpracování multimédií
Syntéza řeči

Pod syntézou řeči rozumíme vytváření řeči, která je co nejpodobnější lidské, za pomoci stroje, který je označován též jako syntetizátor.

Existuje více typů syntetizátorů, avšak cílem každého z nich je v zásadě to samé: reprodukovat zadaný text v co nejsrozumitelnější a nejpřirozenější formě.

Existují čtyři základní přístupy:

Na obrázku je blokový diagram všeobecného syntetizátoru. Samozřejmě, tento diagram je značně zjednodušený pro naše potřeby a některé elementy (jako například zpětné vazby nacházející se v některých učících se syntezátorů) jsou vynechány. Avšak v podstatě každý syntetizátor se skládá z těchto částí:

Blokové schéma všeobecného syntetizátoru

Pro dosažení co nejpřirozenější syntézy řeči musí syntetizátory plnit komplexní úlohy jako předzpracování a následné zpracování (postprocessing). Pro co nejdokonalejší podání řeči by tyto systémy měli být adaptivní a schopné se učit. Takový systém by se skládal ze čtyř základních modulů: fonetický překlad slov, určení slovního druhu (týká se především germánských a slovanských jazyků používajících skloňování), fonetického překladu zkratek a modulu modifikace prozodie.

Modulární architektura syntetizátoru

V následujícím příkladu se zaměříme na difonovou syntézu.

Příklad difonóvé syntézy řeči

Následující příklad popisuje využití difonového syntetizátoru. Hlavní výhodou tohoto řešení je přirozeně znějící hlas a malá databáze. Slovenský jazyk má jen 1550 difon, a právě to dělá následující řešení velmi praktickým (zvláště v porovnání s jinými druhy syntéz, kde je velikost databáze mnohem větší, jako např. při korpusové syntéze).

Difóna je hned po fonémě jedna ze základních jednotek v řeči. Fonéma je nejmenší komplexní jednotka zvukového systému jazyka. Jednu difónu tvoří dvě po sobě následující fonémy. Hranice difóny jsou v polovině těchto foném, takže její délka v časové oblasti není dvojnásobná oproti fonémám, ale přibližně stejná. Výhodou difón oproti fonémám je to, že lepší sledují přechodovou změnu zvuku mezi jednotlivými hláskami a mají hranice v jejich středu, kde jsou časové průběhy nejstabilnější.

Obecně je počet difón v řeči rovný počtu druhé mocniny foném. Tím dostaneme všechny kombinace. Ve skutečnosti je ale počet difón menší, neboť ne všechny kombinace dokážeme vyslovit, resp. se v jazyce nenacházejí. Reálný počet difón zjistíme jen důkladným studiem jazyka. Difónová databáze obsahuje reálné nahrávky řeči, které jsou rozděleny na menší části – difóny. Je více možností, jak vytvořit a nahrát databázi, například výběr takových slov, aby v nich byly obsaženy všechny difóny ze slovníku. Slova ve slovníku nemusí mít žádný význam anebo souvislost, důraz je kladen na co nejmenší počet nahrávek.

Návrh řečového syntetizátoru je na obrázku. Princip syntézy je tam znázorněn velmi zjednodušeně.

Návrh řečového syntetizátoru

Vstupní text se musí zesyntetizovat na řeč. Nejprve se musí text přepsat do SAMPA abecedy. Proto se v prvém kroku syntézy všechny znaky přepíší do SAMPY. V druhém kroku je přepis v SAMPE přepsán podle pravidel výslovnosti pro konkrétní jazyk (v našem případě slovenský jazyk). Potom se pro odpovídající difóny vyberou nahrávky z databáze a pospojují se. Výstupem je zesyntetizovaný text.

Uvádíme několik příkladů využití syntézy v praxi: osobní řečoví asistenti, asistenti v mobilních telefonech pro nevidomé, dopravní grafikon a navigační systém, internetové multimodální služby, aplikace pro dokumentaci nehod, služby manažování času anebo inventář. V posledních letech se staly velmi populární syntézy ve slovnících přímo na internetu (online), anebo čtečky knih s implementovanou syntézou textu, zvláště pro anglický jazyk.