Ohjelmavalinta: Festival

Projektissä päädyttiin etsimään ratkaisua, miten saataisiin paranneltua Festival-ohjelman suomenkielistä ääntämistä. eSpeakin tuottaman puheen lähtökohtainen taso oli selkeästi heikkolaatuisempi Suopuheeseen verrattuna. Valintavaiheessa kävi ilmi projektin haastavuus ja vaikka Festivalin muokkaus on haastavaa, päädyimme siihen ratkaisuun, että se on muista vaihtoehdoista kuitenkin meille se ainoa, joka voisi olla jollain tavalla toteutettavissa. Festivaliin on tarjolla eri kielille paranneltuja versioita äänistä, joita mahdollisesti voidaan hyödyntää projektissamme.

Python3 Visual Studiossa jäi toteuttamatta siksi, koska se toimii englanninkielisellä ääntämiskirjastolla (CMU Pronouncing Dictionary). Ääntämiskirjasto on avoimenlähdekoodin tietokanta, jonka on kehittänyt Puhe Ryhmä Carnegie Mellon Yliopistolla äänentunnistamisprojektia varten. Siihen olisi pitänyt itse tehdä uusi ääntämiskirjasto jokaiselle suomen kielen sanalle ja uusi äänitietokanta, lisäksi ohjelma käytti Google Text-to-Speechiä toimiakseen ja se toimi vain englanniksi, niin luontevan kuuloinen suomenkielinen versio siitä olisi ollut liian vaikea toteuttaa.

eSpeakissä oli vähän samankaltaisia ongelmia kuin Python3 toteutuksessa. Luontevan äänen saaminen olisi hyvin vaikea toteuttaa, koska eSpeak ei käytä äänitieto kantaa vaan luo äänet täysin digitaalisesti. eSpeakiin tosin on mahdollista saada Mbrola projektin ääniä, jotka ovat toteutettu difonisynteesin avulla. Mutta myös Suopuhe on toteutettu difonisynteesillä ja siitä löytyi enemmän referenssejä ja apuja netistä, niin sekin on osa syy, miksi lopulta päädyimme valitsemaan Festivalin.

Lähteitä:

Mbrola projekti

http://www.tcts.fpms.ac.be/synthesis/mbrola/mbrcopybin.html

Diphone

https://www.cs.cmu.edu/~awb/papers/ICSLP2000_diphone/node2.html

Suopuhe

http://www.ling.helsinki.fi/suopuhe/

Festival

http://festvox.org/festival/downloads.html

https://en.wikipedia.org/wiki/MIT_License

eSpeak

http://espeak.sourceforge.net/

https://en.wikipedia.org/wiki/ESpeakNG

https://sourceforge.net/p/espeak/discussion/538921/thread/7be4e8b2/

https://en.wikipedia.org/wiki/RISC_OS

Python3 ja Visual Studio

http://arcompware.com/python-basic-text-to-speech-engine/

http://www.speech.cs.cmu.edu/cgi-bin/cmudict

Leave a comment