Ääninäytteitä

Ääninäytteitä nykyisestä vaiheesta… kaipaa vielä säätöä…

https://drive.google.com/file/d/1fc7evHQ3zYQ-6qS_Uxs4YR63Q80xXZQK/view?usp=sharing

https://drive.google.com/file/d/1whQdU_8pjNTVsYTVElDaNwm_0EMPcodq/view?usp=sharing

https://drive.google.com/file/d/1OgcbHSbuOFnz15iLMWXyYAOiDHTclEpU/view?usp=sharing

Advertisements

Ääntämisen parantelua, osa 4

Koitettu saada Å toimimaan. Lisätty sääntölistaan Å-kirjain, lisätty poikkeuksiin Å-kirjain ja laitettu kirjaimen lausuminen ooksi. Kun lausumisen muutti, niin ohjelma osasi yksittäistä å:ta lausua “oo” (“ruotsalainen o” sijaan), mutta kun sen laittaa sanaan, esim. “Ståhlberg”, tulee sanaksi edelleen “St-tuntematonmerkki-hl-berg”. Koitettu lisätä lex.scm-tiedostoon Å-lausuminen “ruotsalainen oo ja oo”, mutta sekään ei herätä mitään muutoksia ohjelmassa. Koitettu lisätä Å myös diphone-tiedostoon säännöksi (å Å, Å å – å: Å:, Å: å:) mutta ei toimi edelleenkään.

list å

Onnistuttu vihdoin lisäämään hitautta 1.0 -> 1.1 – HURRAA! Tämä lisäys onnistuis diphonetiedostosta, aiemmin oltiin tehty se duraatiotiedostoon. Lauseet hidastuivat ja niistä saa paremmin selvää. Tämä tosin kyllä hajotti aiemmin tehtyjä muutoksia, joten piti palata korjailemaan niitä.

Mm. Piti palata hienosäätämään uu lyhyemmäksi, ee lyhyemmäksi, kk pidemmäksi.

Jostain syystä tupla L kuulostaa kovin omituiselta hidastuksen jälkeen, eikä sen painotuksen lisääminen muuttanut mitään… Y myös hajosi kokonaan ja kuulosti aivan ihmeelliseltä, joten se piti laittaa todella lyhyeksi niin, että se kuulostaa lauseessa hyvältä, mutta yksittäisenä ei.
Muutettu kirjan Z (ohjelma äänsi bee) –> “tseta”. Osaa lausua sanat Zebra, Zorro ja Zodiak ongelmitta.

 

Yritetty saada robottimaisuutta pois äänestä, sen poistaminen on kyllä mahdotonta, mutta sävelkorkeuksien säätö on ehkä(?) hieman parantanut sujuvuutta. Pitää vielä ns. “puhtailla korvilla” kuunella lopputuloksia myöhemmin ja tehdä muutoksia.

Ääntämisen parantelua, osa 3

Konsonanttien painotuksen lisääminen on tällä viikolla ja edellisellä aiheuttanut huomattavan paljon päänvaivaa. Onnistumisia on toki ollut, mutta niiden mukana on tullut myös jonkin verran ongelmia. Korjailtiin mm. TT, SS ja NN. TT ja SS ei havaittu mitään ongelmia toistaiseksi, vaan niiden parannus sujui hyvin, eikä ne rikkonut mitään missään muualla. NN puolestaan oli aluksi erittäin lupaava, käytimme esimerkki sanoina “yllätyskäänne, huomenna”.

Sanat kuulostivat yksittäisinä hyvältä, ja yllätyskäänne kokonaisessa lauseessa kuulosti hyvältä. Samoin muut sanat, joihin oltiin tehty jo muutoksia. Mutta huomattiin myöhemmin, että tämä korjaus oli rikkonut kokonaan sanat “huomenna, kiinni, känni, jäänne” yms. Jotkut sanat eivät toimineet ollenkaan ja joistakin n-kirjain jäi pois kokonaan, joten meidän piti laittaa NN takaisin alkuarvoon.

Muutettiin myös kaksois i:tä, esimerkki lause oli “nin se menee –> niin se menee”.

Pidemmissä lauseissa ohjelma ei kyllä yhtään hauko henkeä, vaan kaikki tulee yhtenä pötkönä. Tähän ei ole keksitty mitään muuta ratkaisua, kuin pilkkujen lisääminen ja pilkun duraation pidennys. Jotenkin pitäisi jostain lisätä myös välilyönnin pituus…

Toisella koneella toimiva Festival hajosi, eikä suostu enää lausumaan ääkkösiä, poistettiin ohjelma purgella koneelta ja asennettiin uudestaan, mutta tällä hetkellä se lausuu ääkköisä vain jos itse Festival ohjelman avaa komentotulkissa, muttei komentotulkissa sano-komennolla.

Koitettiin myös hidastaa lauseita vielä enemmän, mutta ohjelma hajosi siitäkin ihan täysin ja jouduttiin tässäkin palaamaan muutama viikko taaksepäin – käyttämään siis vanhempaa asetus-tiedostoa.

Tämänhetkinen vaihe:

Ääntämisen parantelua, osa 2 – hidasta, pidennä

Lauseiden hidastaminen

Tällä viikolla kokeiltiin lauseiden hidastamista, koska iso ongelma nykyisessä ohjelmassa on sanojen liian nopea lausuminen. Varsinkin pitkissä lauseissa, ohjelma lausuu sanat niin nopeesti peräkkäin, ettei lauseesta saa mitään selvää. Yksittäisten sanojen tai kirjainten pidentäminen paransi huomattavasti lyhyiden lauseiden ääntämistä.

Screenshot_2018-11-04_19-33-05.png

Tänään oli tarkoitus selvittää, voiko sanojen välisiä taukoja pidentää hieman.

Nostettiin duration arvoa 0.5 korkeammaksi (alkuarvo 1.0). Hitaammaksi ei saa, ilman, että ääkkösten ääntäminen menee hajalle. Tämä käy myös ilmi dokumentissa alkuperäisten tekijöiden koodimerkinnöissä.

Testissä lause: “Seriffi ilmoittaa haluavansa ulos, mikä merkitsee rangaistusta, puhdistustehtävää. Holston lähetetään ulos tappavaan ulkomaailmaan ja hänen täytyy puhdistaa ulkoa kuvaa välittävien kameroiden linssit.”

Ääkkösten lyhentäminen sanojen lopussa

Viime kerralla pidenettiin peräkkäisiä vokaaleja, tällä viikolla vuorossa oli ääkkösten lyhentäminen sanojen lopussa. Ohjelma lausuu esimerkiksi sanat Pasila, Mäkkylä ja Töölö tavalla “Pasilaa, Mäkyylää, Töölöö”.

Pidennetään…

Mäkkylässä oli y-kirjain myös kummallisen kuuloinen, niin lyhennettiin sitä siinä samalla -0.10. Mäkkylästä siirryttiin vielä seuraavaan ongelmaan, eli kaksois konsonantint, jotka toimivat vain kunnolla, jos niitä laittaa kolme peräkkäin. Myös tietyit kirjaimet eivät painotu kunnolla. Tässä tilanteessa kirjain M.

Pidennettiin kirjain M ja kaksois K.

Ongelmia

Ratkottuja ongelmia rupee olemaan jo mukava lista takana, mutta aina tilalle ilmenee jotain uutta. Kun muuntaa yksittäisiä asioita, ne kuulostavat paremmilta juuri sillä hetkellä kyseisessä sanassa tai lauseessa. Kun siiryy eteenpäin työstämään toista sanaa tai lausetta, huomaa, ettei edellä tehdyt muutokset kuulostakkaan enää niin hyvältä. Siitä joutuu menemään takaisin yrittämään uudelleen. Tällainen ongelma on etenkin ollut yksittäisen ä:n kanssa, joka yllämainitussa esimerkissä “Mäkkylä”, on tuottanut melko paljon päänvaivaa. Kun sana itsessään vihdoin kuulosti hyvältä, huomattiin, että muut ä:hän loppuvat sanat kuulostivat liian lyhkäsiltä. Esimerkiksi “käräjillä” kuulosti sanalta “käräjill-äh”. Piti mennä pidentämään ä:tä, niin että se ei kuulosta tyhmältä muissa sanoissa, eikä myöskään sanassa “Mäkkylä”.

Korjattiin myös m-kirjaimen painotus tietyissä sanoissa. Tämä ongelma esiintyy varsin monessa sanassa, missä on vahvat kaksois konsonantit. Ongelma ilmeny myös kirjaimessa S. Esimerkiksi sanan “hitto” ohjelma lausuu “hito”, ja “kissa – kisa”. Sk-sanoissa taas ohjelma lausuu “sk – sh”. Eli Jaska on “Jashka”.

Ohjelma ei toistaiseksi tunnista ruotsalaista å:ta. Se tunnistaa kirjaimen yksittäisenä kirjaimena, mutta ei sanassa eikä lauseessa. Eli nimi Åberg tai Svartå muuttuu ohjelmassa “tuntematonmerkki-berg, Svart-tuntematonmerkki”. Koitetaan saada tämäkin muunneltua, kunhan keksimme miten.

Tallenteiden teko

Aikaavievää on virheiden etsimisen lisäksi tallenteiden teko. Välillä tulee tehtyä tallenne kun muutokset on jo tehty, sitten pitää backtrackaa ja tehdä alkuperäinen tallenne. Mutta alla on todistusaineistoa jonkin verran muunnoksista, siitä voi hämmästellä niitä jos tahtoo.

Mäkkylä

Pasila

“Seriffi ilmoittaa haluavansa ulos, mikä merkitsee rangaistusta, puhdistustehtävää. Holston lähetetään ulos tappavaan ulkomaailmaan ja hänen täytyy puhdistaa ulkoa kuvaa välittävien kameroiden linssit.”

https://1drv.ms/u/s!AtKwItQ_si8GlSIz-_FceAE9wiSu

https://1drv.ms/u/s!AtKwItQ_si8GlSN56IYiBehe2Bid

Pidemmät näytteet pitää ladata koneelle, jos niitä haluaa kuunella…

Festival muutoksen askeleita

Tällä viikolla, ollaan vihdoin saatu pientä muutosta tehtyä. Olemme tarkastelleen Festival CMU Arctic projektia ja siitä pompanneet takaisin Suopuheeseen ja vertailleet niitä toisiinsa. Niissä löytyi yhtäläisyyksiä, mutta Arctic projekti perustuu 541:een ääninäytteeseen, kun taas Suopuhe 134:ään. Lisäksi Arcticin ääntämissäännöt ovat tehty eritavalla.

Screenshot_2018-10-21_17-49-28.png

Kokeiltiin muunnella Festivalin ääntämisaikoja ja onnistuttiin siinä ihan hyvin. Keskityttiin aluksi ihan pieniin muunnoksiin, että saataisiin luontevamman kuuloisempia yksittäisiä sanoja. Käytiin läpi lauseita ja poimittiin sieltä sanoja, jotka tarvitsivat parannusta. Koko prosessi tapahtui komentotulkissa. Tähän mennessä ollaan raavittu päätä ja hierottu silmiä eikä oikein päästy perille, missään asiassa, mutta nyt heräsi vihdoin hieman onnistumisen tunnetta. Tästä pieni pala kerrallaan päästään vihdoin etenemään.

Screenshot_2018-10-21_18-32-44.png

Alla on esimerkkejä alkuperäisestä äänestä ja muunnellusta äänestä:

“Joo.”

 

“Uutuussarja.”

 

“Mitä sä teet?”

 

“Jossain päin maailmaa, minua odottaa suuri ihme.”

 

Lähteitä:

Apuja äänitiedostojen ymmärtämiseen:

http://festvox.org/bsv/x1902.html

 

 

eSpeak säännöt ja Festival Arctic CMU asennus

Tällä viikolla ollaan tarkkailtu eSpeakin rakennetta hieman ja eSpeakin ääntämissääntöjä. Ääntämissääntö-tiedostoa voi muokata, ja sieltä pystyy hienosäätämään, miten ohjelma ääntää eri kirjaimia, mutta itse äänenlaatua ei voi muokata mitenkään. Otettiin eSpeak takaisin käyttöön, siinä toivossa, että siinä pystyisi käyttämään Mbrola-projektin ääniä. Ne kuulosti eSpeakissä hieman paremmalta, mutta silti todella robottimaisia, kun taas Festivalissa ne kuulosti ihan hyvältä.

Hylättiin jo toistamiseen eSpeak ja lähdettiin selvittämään, miten Festivalia voisi parannella. Löydettiin Festivaliin parempia ääniä toisesta projektista nimeltä Festival Arctic CMU, joka on Carnegie Mellon yliopiston toteuttama.

Seuraavaksi, koitetaan jos sitä voisi muunnella mitenkään tai jos siellä olisi jotain apua Suopuheen muuntamiseen.

Ohjelmavalinta: Festival

Projektissä päädyttiin etsimään ratkaisua, miten saataisiin paranneltua Festival-ohjelman suomenkielistä ääntämistä. eSpeakin tuottaman puheen lähtökohtainen taso oli selkeästi heikkolaatuisempi Suopuheeseen verrattuna. Valintavaiheessa kävi ilmi projektin haastavuus ja vaikka Festivalin muokkaus on haastavaa, päädyimme siihen ratkaisuun, että se on muista vaihtoehdoista kuitenkin meille se ainoa, joka voisi olla jollain tavalla toteutettavissa. Festivaliin on tarjolla eri kielille paranneltuja versioita äänistä, joita mahdollisesti voidaan hyödyntää projektissamme.

Python3 Visual Studiossa jäi toteuttamatta siksi, koska se toimii englanninkielisellä ääntämiskirjastolla (CMU Pronouncing Dictionary). Ääntämiskirjasto on avoimenlähdekoodin tietokanta, jonka on kehittänyt Puhe Ryhmä Carnegie Mellon Yliopistolla äänentunnistamisprojektia varten. Siihen olisi pitänyt itse tehdä uusi ääntämiskirjasto jokaiselle suomen kielen sanalle ja uusi äänitietokanta, lisäksi ohjelma käytti Google Text-to-Speechiä toimiakseen ja se toimi vain englanniksi, niin luontevan kuuloinen suomenkielinen versio siitä olisi ollut liian vaikea toteuttaa.

eSpeakissä oli vähän samankaltaisia ongelmia kuin Python3 toteutuksessa. Luontevan äänen saaminen olisi hyvin vaikea toteuttaa, koska eSpeak ei käytä äänitieto kantaa vaan luo äänet täysin digitaalisesti. eSpeakiin tosin on mahdollista saada Mbrola projektin ääniä, jotka ovat toteutettu difonisynteesin avulla. Mutta myös Suopuhe on toteutettu difonisynteesillä ja siitä löytyi enemmän referenssejä ja apuja netistä, niin sekin on osa syy, miksi lopulta päädyimme valitsemaan Festivalin.

Lähteitä:

Mbrola projekti

http://www.tcts.fpms.ac.be/synthesis/mbrola/mbrcopybin.html

Diphone

https://www.cs.cmu.edu/~awb/papers/ICSLP2000_diphone/node2.html

Suopuhe

http://www.ling.helsinki.fi/suopuhe/

Festival

http://festvox.org/festival/downloads.html

https://en.wikipedia.org/wiki/MIT_License

eSpeak

http://espeak.sourceforge.net/

https://en.wikipedia.org/wiki/ESpeakNG

https://sourceforge.net/p/espeak/discussion/538921/thread/7be4e8b2/

https://en.wikipedia.org/wiki/RISC_OS

Python3 ja Visual Studio

http://arcompware.com/python-basic-text-to-speech-engine/

http://www.speech.cs.cmu.edu/cgi-bin/cmudict