Қазақ тілін цифрландыруға бейімдеу А.Байтұрсынұлы атындағы Тіл білімі институтында өткен ғасырдың 70-жылдары қолға алынды. Осы кезеңде Қолданбалы лингвистика бөлімінде қазақ сөздіктерінің автоматтандырылған базасы жасалды. Араға жылдар салып жанданған ұлттық корпус қазіргі таңда 100 млн-нан астам қазақ сөзімен толықты. Жасанды интеллект дәуірінде үлкен тілдік модельдер осы ұлттық корпустағы сапалы әрі жүйелі дереккөзді пайдаланады. Ғалымдар еңбегінің нәтижесінде көрсеткіш келер жылы 200 млн-ға дейін ұлғаяды (qazcorpus.kz). Біз бүгін институт директоры, филология ғылымдарының кандидаты Анар Фазылжанмен қазақ тілінің бай қорын жасанды жадқа енгізу туралы әңгімелестік.


– Анар Мұратқызы, әлем жасанды интеллект дәуіріне қадам басып жатыр. Алдымызда цифрлық мемлекетке айналу міндеті тұр. Институт ғалымдары осы үдеден шығуда көпте­ген жобаны іске асырып жатыр. Осы орайда «qazcorpus.kz» базасын толық­тыру маман­дарға жаңа міндет жүктеді. Корпус мазмұнын байыту жұмыстары қай кезден жүзеге аса бас­тады?

– Кейінгі жылдары Мемлекет басшы­сының тапсырмасымен ғылымға бөліне­тін қаржы көлемі артып, Ғылым және жоғары білім министрлігінің қолдауы күшейді. Нәтижесінде, іргелі зерттеулер іске аса бастады. 2020 жылы ғылыми-теориялық негізін профессор Асқар Жұбанов қалаған қазақ тілінің ұлттық корпусын жетілдіру жұмыстары басталды. Алғашында корпус бес стиль бойын­ша жиналған ақылды қазақ мәтіндер базасы болып қалыптасты. Профессор Асқар Жұбанов өткен ғасыр соңында қолданбалы лингвистика саласында компьютерлік лингвистика, статолингвистика, тілді формалды модельдеу, түркі тілдері статистикасы бойынша зерттеу жүргізді. Қазақ мәтіндерін автоматты танудың алғашқы ғылыми негіздеріне арналған еңбектерін жариялады. Мате­матик, лингвостатистиканың негізін қала­ған ғалым Қалдыбай Бектаевтың бастамасымен жиілік сөздіктер құрастыруға қатысты. 1996 жылы қазақ мәтінін автоматты танудың ғылыми негіздерінен диссертация қорғады. Монография жазды. Қазақ сөздіктерінің автоматты жүйесін жасап, бір сөз арқылы алуан түрлі сөздікте берілетін ақпаратты бір терезеден алу қажеттігін ұсынды. Осылайша, ғалымның бастамасымен ұлттық корпустың негізі қаланды. Шетелдер лингвистикасында тілді автоматты тану бойынша мәселе көтеріліп жатқанда, бізде инженерлік, мате­матикалық лингвистика дамы­ды. Оның бас­тауында филология ғылым­дарының докторы, профессор Қалдыбай Бектаев тұрды. Қазақ тілінің ұлттық корпусы жобасына үлкен ресурс қажет еді, алайда ғылымның тоқыраған кезі­мен тұспа-тұс келгендіктен, біраз жыл­ға кешеуілдеді. Осылайша, түркі тіл­дері ішіндегі лингвостатистикалық зерт­теулерді, мәтінді автоматты танудың ғылы­ми негіздерін бірінші болып жасаған қазақ тіл білімінің ғалымдары ауқымды ұлттық тілдік корпусты да алғашқы болып әзірледі.

– Ұлттық корпуста қазақ ауыз әде­биеті үлгілерінен бастап, тілдің қазіргі қол­данысына қатысты деректер қолжетімді. Қанша ішкорпус түзілді?

– Корпус қазақ тілінің қорын цифр­лап сақтайтын база болса, үлкен миссиясы – зерттеуші үшін эмпирикалық тілдік база, тілтанушының микроскопы деуге болады. Бұл ғалымдар үшін ақи­қаттан алшақтамауға мүмкіндік береді. Қазір «qazcorpus.kz» 19 ішкорпустан тұрады. Онда әрбір тілдік бірлік талданып көрсететіледі. Мысалы, фразеологизмдер ішкорпусынан қандай да бір сөзді іздегенде сол сөзден жасалған қазақ тіліндегі фразеологиялық, идиомалық тұрақты тіркестердің тізімін, мағынасын көрсетіп берсе, мақал-мәтелдер ішкі корпусында сол сөзден құралған мақал-мәтел тізімі мен мағынасы шығады. Институт цифрлы кеңістіктегі қазақ мәтіндерінің ақылды базасы аз болғандықтан, корпус­та, аннотацияларды ғалымдарға пайдалы болсын деумен бірге, халық игілігіне жарамды, түсінуіне оңай етіп жасауға тырысты. Қазіргі кезде ғалымдар алдында тілімізді әрі тілтанымдық сапалы ғылыми контентті виртуалды кеңістік­ке көшіру міндеті тұр. Егер түпнұсқа мәтіндерді, қолжазба деректерді цифр­ландырып, тілтанымдық талдауымен бірге электрондық базаға салу кешеуілдесе, онда тіліміздің цифрлық дәуірдегі өміршеңдігі күрт төмендеп кетеді.

– Корпус базасын толықтыруда тіл ғалым­дары қандай да бір ереже, талап­тарға сүйене ме?

– Әрине. Біріншіден, тілдік контент репрезентативтілігіне назар аударады. Тіл қоғамдық өмірдің қай саласында қолданылса, сол салаға қатысты мәтіндер корпусы әзірленуге тиіс. Сөйлеу стилі өз алдына, корпуста педагогикалық, эконо­микалық, саяси, ғылыми, т.б. дискурстағы барлық кітаби стиль жанрларындағы мәтіндер болуға тиіс. Сонда ғана ол ұлттық сипатқа ие болады. Екінші бір талабы – теңгерімділігі. Қазақ тілі қай салада көбірек қолданылса, корпустың жүйесінде сол сала мәтіндері көп жинақталады. Ең көп қолданылатыны – публицистикалық дискурс мәтіндері. Мұның өзі дәстүрлі және виртуалды кеңістіктегі публицистика болып бөлінеді.

– Диалектілік ішкорпуста қазақ тілі­нің аймақтық ерекшелігі көрсетілген екен. Бұл ерекшелікті қандай белгі­леріне қарап ажыратамыз?

– Ата-бабамыз ұлан-ғайыр жерімізде шығысы мен батысы, солтүстігі мен оңтүс­тігінде бір тілде сөйледі. Мұндай жағдайда диалект болмайды. Түркілік тамырын, тазалығын сақтап қалған монолитті тіл – қазақ тілі. Көптеген империя құрған ұлттың әдеби тілінің негізі – жазба тіл. Мысалы, Қытай оңтүстігі мен солтүстігі, батысы мен шығысы тұрғын­дарының ауызша сөз арқылы түсінісуі қиын. Оларды біріктіріп тұрған – жазба тілі. Орыс әдеби тілінің негізі – Мәскеу диалектісіне сүйенген жазба тіл. Түркия түріктері әдеби тілінің негізі – Ыстанбұл диалектісіне сүйенген жазба тіл. Қазақ әдеби тілінің негізі – жалпыхалықтық ауызша тіл. Бұл бізді ұлт етіп қалыптастырған, үлкен империялар құрған тарихи этно-мә­дени қауымдастық ішкі азаматтық инс­титуттарының ұлттық бірегейлікке жұмыс істегенін айғақтайды. Сол себепті Ұлттық корпустағы диалектілік ішкорпус атауы шартты атау, дұрысы – говорлық болу керек. Қазіргі кезде кездесетін азын-аулақ лексикалық бірліктер сол аумаққа көршілес отырған субстрат тілдің әсері ғана, ішкорпуста солар туралы деректер беріледі.

– Тарихи ішкорпустағы мәлімет қай ғасырдан басталады?

– Бұл корпус ХІ–ХХ ғасырдағы ескі қазақ жазба тіліндегі тарихи мұрамыздан бастау алады. Ескі кітаби жазба тіліндегі мәтіндер берілді. Бұл тіл барлық түркі тілдерінің жазба коммуникациясына XIX–XX ғасырға дейін қызмет етті. Ескі кітаби қазақ жазба тілін, кейбір ғалымдар атап жүргендей, шағатай тілі дей алмайтынымыздың бір себебі осы. Қазіргі таңда институтта қадим, жадид, ескі қазақ жазба тіліндегі әртүрлі қолжазбаларды танитын мамандар бар. Алайда көне түркі руна жазуын оқи алатын маман даярлау кенжелеп қалды. Бұл Орхон ескерткіштері цифрлық базасын жасауда қиындық туғызып отыр. Түрколог ғалым Ғұбайдолла Айдаровтан кейін ішінара болмаса, іргелі зерттеулер азайып кетті. Осыны жолға қою үшін докторанттарға көне түркі тілі мен жазуы бойынша зерттеу тақырыптары берілмек.

– Әдебиеттің ерте қалыптасқан саласы поэзия десек, оның тарихы, құрылымы корпуста қалай көрініс тапты?

– Корпуста поэзиялық 2 ішкорпус бар. Оның бірі – тарихи поэтикалық ішкорпус, жыр жанрында жазылған поэзиялық ескі шығармалардан тұрады. Ал заманауи поэзия ішкорпусында қазіргі заманғы ақындар өлеңінің просодикалық құрылысы, ырғағы, тармағы, бунағы талданып көрсетілді. Поэзия – халықтың эмоционалдық интеллектісін көрсететін өте нәзік көркемдік жанр. Қазақ тіл иелмені поэзиядан қол үзіп, қазақ сөзінің сұлу да сырлы әуезін, әуені мен сазын түсінуден қалып барады. Мұнда өлең мәтіндер қазақ орфоэпиясы нормасын сақтайтын, өлең ырғағын сезіне алатын мамандарға оқытылып, аудиосымен бірге жүктелді. Бұл 300 мың сөзқолданыстан тұратын қазақ өлеңдерінің электрондық базасы. Сонымен қатар ауызша мәтіндер ішкорпусында ауызша сұхбат, видеофильмдер жүктелді. Жарнама мәтіндер ішкорпусының да ерекше қызметі бар. Ең алғашқы жарнама «Қазақ» газетінде жарық көргені белгілі. Олардың авторы – Ахмет Байтұрсынұлы, демек тұңғыш қазақ копирайтері де Ахмет Байтұрсынұлы дей аламыз. Ішкорпуста төте жазудағы алғашқы қазақ жарнамасы кирилше берілді. Параллель корпус – қазақ-орыс тіліндегі теңескен мәтіндер қоры, мұнда орыс мәтіндері бірліктері орыс тілінің грамматикасы бойынша талданады. Сондай-ақ алты тілді параллель корпус бар. Базадағы контекст алты тілде берілді. Бұл тілдер Оксфордта оқытылады. Біз соларға да пайдалы ресурс жасадық.

– Көптеген қорда деректер қолжаз­­бада, арнайы картотекаларда сақ­талып келгені белгілі. Институт қорын­дағы қолжазба, карточкалар дерлік цифр­ланып болды ма?

– Қазақ сөзін тіркеуді алғаш 1930 жыл­­дары А.Байтұрсынұлы бастағаны белгілі. Ғалымның картотекалық қоры репрессия жылдарында жойылып кетті. Кейіннен қимақағазға сөз контексін жинау ісі 1940 жылдан бері институтта жүргізіле бастады. Қазіргі кезде 4,5 млн-нан астам қимақағаз қоры толығымен цифрланып, «tbikartoteka.kz» сайтында қолданушының игілігіне берілді. Бұл – қазақ тілінің ұлттық сөздік қоры. Онда әр сөздің қолданылған контексі, дереккөзі көрсетіледі. Тілтанымның тәртібі бойынша ешқандай шешім эмпирикалық базаға сүйенбей жасалмайды. Алдағы уақытта кез келген қол жазуды, қолжазбаны авто­матты түрде тірі мәтінге Word-қа ауыс­тыратын бағдарлама әзірлеуді қолға алмақпыз.

– Қазіргі таңда Тіл білімі инсти­туты­ның бастамасымен Оксфордта қазақ тілі оқытылады. Оқыту әдіс­те­ме­сі, кадр мәселесі қалай шешіліп жатыр?

– Кез келген бастама қолданыста жеті­леді, түрленеді. Бұл идеяны 2023 жылы Ғылым және жоғары білім министрі Саясат Нұрбек Оксфордқа іссапарында Оксфордтағы «Birsöz» бастамасының басшысы Лейла Наджафзадамен кездес­кенде қолға алуды ұйғарды. Кейін Лейла Наджафзада институтқа келіп, институт құрылымы, ұлттық корпуспен танысып, «Birsöz» бастамасы тіл үйретіп жүрген Оксфордтың Таяу Шығыс зерттеушілері үшін қазақ тілін ғылыми тұрғыдан оқыту мәселелерін талқылады. Сөйтіп, Ғылым және жоғары білім министрінің тікелей қолдауымен Ұлыбритания сыртқы істер министрі Д.Кэмеронның Астанаға ресми сапары аясында 4 жақты келісімге қол қойылды. Қазір жоба «Болашақ» бағдарламасымен бірлесіп іске асып жатыр. Алғаш болып Оксфордқа жеткен жас маман – PhD Меруерт Иманғазина. Дайындық жұмыстары аяқталғаннан кейін академик Зейнеп Базарбаеваның шәкірті, PhD Дидар Садық Оксфордта қазақ тілін оқытады. Содан кейін ағылшын тілін жетік білетін маманымыз Талшын Шоқаева жалғастырады. Қазіргі кезде оқыту әдістемесі, арнайы оқулық құрастырылып жатыр. Курсқа қатысуға ынталылар саны артып келеді.

– Шетелдердегі тілдік корпустар­дың тарихы, мазмұны, құрылымында айырмашылық бар ма?

– Қазақ тілінің ұлттық корпусы­на қарағанда тарихы әріге кететін корпус­тар бар. 2023 жылы Мажарстанның Лингвистикалық институтына бардық. Ол корпуста 1 млрд сөзқолданыстан тұра­тын мәтіндер болғанымен, дереккөздік аннотациясы мен тілтанымдық белгі­ле­німі біздің корпусқа қарағанда ық­шамдау екен. Британ ұлттық корпусы миллиардтаған сөзқолданысты құрайды. Бұл корпустың ауқымы да кең, аннотациялары да сана­луан. Бірақ барлық бөлігі бірдей қолжетімді емес. Ақылысы да бар. Бүгінде базасы 3 млрдқа жеткен орыс тілінің ұлттық корпусын жасау 2000 жылдары басталды. Орыс корпусының лингвистикалық аннотацияларының кәсібилік деңгейі өте жоғары. Түркия ұлттық корпусы да ауқымды. Салыстыра қарағанда, қазақ тілінің ұлттық корпусы өзіндік терең мазмұнға, ерекше құрылымға негізделген.

– Қазіргі тілдік модельдер беретін ақпарат сапасын жетілдіруде тілтану­шы ғалым­дардың рөлі қандай?

– «ChatGPT»-дің «ақылды» болуына Тіл білімі институтының қосқан үлесі зор. Мұнда ғалымдардың көзге көрін­бейтін қажырлы еңбегі жатыр. Ней­ро­жүйе кез келген дереккөздегі мәтін­ді қолданатынына дәлел қажет емес. Корпуста (qazcorpus.kz) таза тілтанымдық білім шоғырланған. Дегенмен «ChatGPT» әлі де көптеген тілдік бірліктің ұлттық мәдени-семантикалық мағынасын дәл көрсете алмайды. Бұл бағытта Ғылым және жоғары білім министрлігі іске қос­қан жасанды интеллект «Ai-Sana» бағдар­ламасының, Назарбаев университеті «ISSAI» орталығы жасаған «Kaz-LLM» моделінің ерекшелігін атауға болады. Жақында министрлігіміздің қолдауымен ғылыми зерттеу бағдарламасы аясында әл-Фараби атындағы ҚазҰУ бас мекеме болып, Ахмет Байтұрсынұлы атын­дағы Тіл білімі институты, «Тіл-Қазы­на» ұлт­тық ғылыми-практикалық орта­лығы, Ақпа­раттық және есептеу технологиялары институты, «ISSAI» және «Softcraft» компаниясымен бірлесіп, қазақ тілін және технологиялық үрдісті қол­дау үшін үлкен тілдік модель (LLM) әзір­ледік. Қазіргі кезде ұлттық, ғылыми білім­нің цифрланбай жатқан тұстары бар. Тіл­танымдық цифрлық ресурсы бар тілдер­дің жасанды интеллектідегі сапасы да жо­ғары екенін тәжірибеден көріп отырмыз.

– Шетелдік орталықтармен бірлес­кен жобалар туралы да айтып өтсеңіз?

– Қазіргі кезде Мәскеудің Жоғары экономика мектебімен ортақ жоба әзірлеуді қолға алдық. Институтта психолингвис­тика бөлімі ашылды. Оның барысында айтрекерлік зерттеулерді жүргіземіз. Құрылғы әлемдік психолингвистикада өзекті. Бұрын ақпаратты қабылдауда аудиалды, визуалды жол тең дәрежеге ие болса, қазір визуалдылығы басым. Айтрекер­лік жүйе оқу барысында адамның көз қара­шығының қозғалысын тіркейді. Осы орайда қазақтілді графикалық кеңістіктің қаншалықты дұрыс жолға қойылғанын зерттемекпіз. Институтымызда заман талабына орай осындай игі іс жалғасын тауып жатыр. Оның барысында ғалым­дар цифрлық лингвотехнологияларды әзір­леу әдістемесін меңгеру үстінде. Бұл институттың кадрлық әлеуетін жаңа дең­гейге көтерді.

– Әңгімеңізге рахмет.

Әңгімелескен –

Эльвира СЕРІКҚЫЗЫ,

«Egemen Qazaqstan»

АЛМАТЫ