СИНДИ
го зборува вашиот дијалект

Повеќе

1. Собирање на пишани ресурси

Во овој чекор беше потребно да се собере голем корпус од текст на четири различни дијалекти од македонскиот јазик. Текстот треба да биде генериран од различни раскажувачи, со цел добивање на целосна слика за дадениот дијалект. За таа цел добивме голема поддршка од МАНУ и обезбедивме скоро еднаква должина на текстови објавени како три збирки: „Така се зборува во Охрид“, „Така се зборува во Гостивар“ и „Така се зборува во Велес“. Четвртиот извор опфаќа поширока географска област и покрива неколку дијалекти од источниот дел на Македонија, вклучувајќи раскази од Кочани, Виница, Тиквешкиот регион, Радовишки регион, Струмички регион, итн.

2. Препроцесирање на текстуалните податоци

Податочните множества поминаа низ процес на претпроцесирање, кој подразбира дигитализација на текст кој може да се обработува, чистење на податочните множества од непотребни информации за намената креирање на синтетизатор текст-во-говор, и препроцесирање за вчитување во софтвер креиран за помагање на креирањето на аудио фајловите од страна на читачите на текстот.

3. Претворање во говорна форма

За потребите на проектот беа најмени индивидуалци-читачи на кои дадениот дијалект им е „мајчин“ јазик. Времетраењето на секое податочно множество е околу 10 часа непрекинат говор.

4. Препроцесирање на собраниот аудио материјал

Во овој чекор ќе следи претпроцесирање на податочните множества за кои постои текст и соодветна аудио датотека. Претпроцесирањето е согласно принципите на Машинско учење и вклучуваат: стандардизација, нормализација, тримување, амплификација и филтрирање на шум.

5. Градење на интелигентни модели за синтеза на говор

Овој чекор е од исклучителна важност за крајниот продукт. Се гради методологија базирана на Длабоко учење низ која се пропуштаат подготвените податочни множества. Процесот на тренирање на паметните модели побарува многу пресметувачки ресурси и времето за завршување на процесот се мери во часови/денови.

6. Тестирање и валидација на моделите

Финално, сите модели поминуваат низ процесот на евалуација и валидација, преку кои се увидува точноста на интелигентните модели. Откако ќе се увиди дека моделите се „зрели“ за употреба, за секој дијалект ќе се изгради јавно достапен сервис кој ќе може да се пристапи преку веб прелистувач.

Статистика

Резултати од досегашното истражување, прибирање на материјали и изградени модели

0 различни наречја на дијалекти
0 процесирани реченици од текстови
0 процесирани текстови
0 процесирани аудио фајлови
Поддржувачи и партнери