Қазақ тілін цифрландыруға бейімдеу А.Байтұрсынұлы атындағы Тіл білімі институтында өткен ғасырдың 70-жылдары қолға алынды. Осы кезеңде Қолданбалы лингвистика бөлімінде қазақ сөздіктерінің автоматтандырылған базасы жасалды. Араға жылдар салып жанданған ұлттық корпус қазіргі таңда 100 млн-нан астам қазақ сөзімен толықты. Жасанды интеллект дәуірінде үлкен тілдік модельдер осы ұлттық корпустағы сапалы әрі жүйелі дереккөзді пайдаланады. Ғалымдар еңбегінің нәтижесінде көрсеткіш келер жылы 200 млн-ға дейін ұлғаяды (qazcorpus.kz). Біз бүгін институт директоры, филология ғылымдарының кандидаты Анар Фазылжанмен қазақ тілінің бай қорын жасанды жадқа енгізу туралы әңгімелестік.
– Анар Мұратқызы, әлем жасанды интеллект дәуіріне қадам басып жатыр. Алдымызда цифрлық мемлекетке айналу міндеті тұр. Институт ғалымдары осы үдеден шығуда көптеген жобаны іске асырып жатыр. Осы орайда «qazcorpus.kz» базасын толықтыру мамандарға жаңа міндет жүктеді. Корпус мазмұнын байыту жұмыстары қай кезден жүзеге аса бастады?
– Кейінгі жылдары Мемлекет басшысының тапсырмасымен ғылымға бөлінетін қаржы көлемі артып, Ғылым және жоғары білім министрлігінің қолдауы күшейді. Нәтижесінде, іргелі зерттеулер іске аса бастады. 2020 жылы ғылыми-теориялық негізін профессор Асқар Жұбанов қалаған қазақ тілінің ұлттық корпусын жетілдіру жұмыстары басталды. Алғашында корпус бес стиль бойынша жиналған ақылды қазақ мәтіндер базасы болып қалыптасты. Профессор Асқар Жұбанов өткен ғасыр соңында қолданбалы лингвистика саласында компьютерлік лингвистика, статолингвистика, тілді формалды модельдеу, түркі тілдері статистикасы бойынша зерттеу жүргізді. Қазақ мәтіндерін автоматты танудың алғашқы ғылыми негіздеріне арналған еңбектерін жариялады. Математик, лингвостатистиканың негізін қалаған ғалым Қалдыбай Бектаевтың бастамасымен жиілік сөздіктер құрастыруға қатысты. 1996 жылы қазақ мәтінін автоматты танудың ғылыми негіздерінен диссертация қорғады. Монография жазды. Қазақ сөздіктерінің автоматты жүйесін жасап, бір сөз арқылы алуан түрлі сөздікте берілетін ақпаратты бір терезеден алу қажеттігін ұсынды. Осылайша, ғалымның бастамасымен ұлттық корпустың негізі қаланды. Шетелдер лингвистикасында тілді автоматты тану бойынша мәселе көтеріліп жатқанда, бізде инженерлік, математикалық лингвистика дамыды. Оның бастауында филология ғылымдарының докторы, профессор Қалдыбай Бектаев тұрды. Қазақ тілінің ұлттық корпусы жобасына үлкен ресурс қажет еді, алайда ғылымның тоқыраған кезімен тұспа-тұс келгендіктен, біраз жылға кешеуілдеді. Осылайша, түркі тілдері ішіндегі лингвостатистикалық зерттеулерді, мәтінді автоматты танудың ғылыми негіздерін бірінші болып жасаған қазақ тіл білімінің ғалымдары ауқымды ұлттық тілдік корпусты да алғашқы болып әзірледі.
– Ұлттық корпуста қазақ ауыз әдебиеті үлгілерінен бастап, тілдің қазіргі қолданысына қатысты деректер қолжетімді. Қанша ішкорпус түзілді?
– Корпус қазақ тілінің қорын цифрлап сақтайтын база болса, үлкен миссиясы – зерттеуші үшін эмпирикалық тілдік база, тілтанушының микроскопы деуге болады. Бұл ғалымдар үшін ақиқаттан алшақтамауға мүмкіндік береді. Қазір «qazcorpus.kz» 19 ішкорпустан тұрады. Онда әрбір тілдік бірлік талданып көрсететіледі. Мысалы, фразеологизмдер ішкорпусынан қандай да бір сөзді іздегенде сол сөзден жасалған қазақ тіліндегі фразеологиялық, идиомалық тұрақты тіркестердің тізімін, мағынасын көрсетіп берсе, мақал-мәтелдер ішкі корпусында сол сөзден құралған мақал-мәтел тізімі мен мағынасы шығады. Институт цифрлы кеңістіктегі қазақ мәтіндерінің ақылды базасы аз болғандықтан, корпуста, аннотацияларды ғалымдарға пайдалы болсын деумен бірге, халық игілігіне жарамды, түсінуіне оңай етіп жасауға тырысты. Қазіргі кезде ғалымдар алдында тілімізді әрі тілтанымдық сапалы ғылыми контентті виртуалды кеңістікке көшіру міндеті тұр. Егер түпнұсқа мәтіндерді, қолжазба деректерді цифрландырып, тілтанымдық талдауымен бірге электрондық базаға салу кешеуілдесе, онда тіліміздің цифрлық дәуірдегі өміршеңдігі күрт төмендеп кетеді.
– Корпус базасын толықтыруда тіл ғалымдары қандай да бір ереже, талаптарға сүйене ме?
– Әрине. Біріншіден, тілдік контент репрезентативтілігіне назар аударады. Тіл қоғамдық өмірдің қай саласында қолданылса, сол салаға қатысты мәтіндер корпусы әзірленуге тиіс. Сөйлеу стилі өз алдына, корпуста педагогикалық, экономикалық, саяси, ғылыми, т.б. дискурстағы барлық кітаби стиль жанрларындағы мәтіндер болуға тиіс. Сонда ғана ол ұлттық сипатқа ие болады. Екінші бір талабы – теңгерімділігі. Қазақ тілі қай салада көбірек қолданылса, корпустың жүйесінде сол сала мәтіндері көп жинақталады. Ең көп қолданылатыны – публицистикалық дискурс мәтіндері. Мұның өзі дәстүрлі және виртуалды кеңістіктегі публицистика болып бөлінеді.
– Диалектілік ішкорпуста қазақ тілінің аймақтық ерекшелігі көрсетілген екен. Бұл ерекшелікті қандай белгілеріне қарап ажыратамыз?
– Ата-бабамыз ұлан-ғайыр жерімізде шығысы мен батысы, солтүстігі мен оңтүстігінде бір тілде сөйледі. Мұндай жағдайда диалект болмайды. Түркілік тамырын, тазалығын сақтап қалған монолитті тіл – қазақ тілі. Көптеген империя құрған ұлттың әдеби тілінің негізі – жазба тіл. Мысалы, Қытай оңтүстігі мен солтүстігі, батысы мен шығысы тұрғындарының ауызша сөз арқылы түсінісуі қиын. Оларды біріктіріп тұрған – жазба тілі. Орыс әдеби тілінің негізі – Мәскеу диалектісіне сүйенген жазба тіл. Түркия түріктері әдеби тілінің негізі – Ыстанбұл диалектісіне сүйенген жазба тіл. Қазақ әдеби тілінің негізі – жалпыхалықтық ауызша тіл. Бұл бізді ұлт етіп қалыптастырған, үлкен империялар құрған тарихи этно-мәдени қауымдастық ішкі азаматтық институттарының ұлттық бірегейлікке жұмыс істегенін айғақтайды. Сол себепті Ұлттық корпустағы диалектілік ішкорпус атауы шартты атау, дұрысы – говорлық болу керек. Қазіргі кезде кездесетін азын-аулақ лексикалық бірліктер сол аумаққа көршілес отырған субстрат тілдің әсері ғана, ішкорпуста солар туралы деректер беріледі.
– Тарихи ішкорпустағы мәлімет қай ғасырдан басталады?
– Бұл корпус ХІ–ХХ ғасырдағы ескі қазақ жазба тіліндегі тарихи мұрамыздан бастау алады. Ескі кітаби жазба тіліндегі мәтіндер берілді. Бұл тіл барлық түркі тілдерінің жазба коммуникациясына XIX–XX ғасырға дейін қызмет етті. Ескі кітаби қазақ жазба тілін, кейбір ғалымдар атап жүргендей, шағатай тілі дей алмайтынымыздың бір себебі осы. Қазіргі таңда институтта қадим, жадид, ескі қазақ жазба тіліндегі әртүрлі қолжазбаларды танитын мамандар бар. Алайда көне түркі руна жазуын оқи алатын маман даярлау кенжелеп қалды. Бұл Орхон ескерткіштері цифрлық базасын жасауда қиындық туғызып отыр. Түрколог ғалым Ғұбайдолла Айдаровтан кейін ішінара болмаса, іргелі зерттеулер азайып кетті. Осыны жолға қою үшін докторанттарға көне түркі тілі мен жазуы бойынша зерттеу тақырыптары берілмек.
– Әдебиеттің ерте қалыптасқан саласы поэзия десек, оның тарихы, құрылымы корпуста қалай көрініс тапты?
– Корпуста поэзиялық 2 ішкорпус бар. Оның бірі – тарихи поэтикалық ішкорпус, жыр жанрында жазылған поэзиялық ескі шығармалардан тұрады. Ал заманауи поэзия ішкорпусында қазіргі заманғы ақындар өлеңінің просодикалық құрылысы, ырғағы, тармағы, бунағы талданып көрсетілді. Поэзия – халықтың эмоционалдық интеллектісін көрсететін өте нәзік көркемдік жанр. Қазақ тіл иелмені поэзиядан қол үзіп, қазақ сөзінің сұлу да сырлы әуезін, әуені мен сазын түсінуден қалып барады. Мұнда өлең мәтіндер қазақ орфоэпиясы нормасын сақтайтын, өлең ырғағын сезіне алатын мамандарға оқытылып, аудиосымен бірге жүктелді. Бұл 300 мың сөзқолданыстан тұратын қазақ өлеңдерінің электрондық базасы. Сонымен қатар ауызша мәтіндер ішкорпусында ауызша сұхбат, видеофильмдер жүктелді. Жарнама мәтіндер ішкорпусының да ерекше қызметі бар. Ең алғашқы жарнама «Қазақ» газетінде жарық көргені белгілі. Олардың авторы – Ахмет Байтұрсынұлы, демек тұңғыш қазақ копирайтері де Ахмет Байтұрсынұлы дей аламыз. Ішкорпуста төте жазудағы алғашқы қазақ жарнамасы кирилше берілді. Параллель корпус – қазақ-орыс тіліндегі теңескен мәтіндер қоры, мұнда орыс мәтіндері бірліктері орыс тілінің грамматикасы бойынша талданады. Сондай-ақ алты тілді параллель корпус бар. Базадағы контекст алты тілде берілді. Бұл тілдер Оксфордта оқытылады. Біз соларға да пайдалы ресурс жасадық.
– Көптеген қорда деректер қолжазбада, арнайы картотекаларда сақталып келгені белгілі. Институт қорындағы қолжазба, карточкалар дерлік цифрланып болды ма?
– Қазақ сөзін тіркеуді алғаш 1930 жылдары А.Байтұрсынұлы бастағаны белгілі. Ғалымның картотекалық қоры репрессия жылдарында жойылып кетті. Кейіннен қимақағазға сөз контексін жинау ісі 1940 жылдан бері институтта жүргізіле бастады. Қазіргі кезде 4,5 млн-нан астам қимақағаз қоры толығымен цифрланып, «tbikartoteka.kz» сайтында қолданушының игілігіне берілді. Бұл – қазақ тілінің ұлттық сөздік қоры. Онда әр сөздің қолданылған контексі, дереккөзі көрсетіледі. Тілтанымның тәртібі бойынша ешқандай шешім эмпирикалық базаға сүйенбей жасалмайды. Алдағы уақытта кез келген қол жазуды, қолжазбаны автоматты түрде тірі мәтінге Word-қа ауыстыратын бағдарлама әзірлеуді қолға алмақпыз.
– Қазіргі таңда Тіл білімі институтының бастамасымен Оксфордта қазақ тілі оқытылады. Оқыту әдістемесі, кадр мәселесі қалай шешіліп жатыр?
– Кез келген бастама қолданыста жетіледі, түрленеді. Бұл идеяны 2023 жылы Ғылым және жоғары білім министрі Саясат Нұрбек Оксфордқа іссапарында Оксфордтағы «Birsöz» бастамасының басшысы Лейла Наджафзадамен кездескенде қолға алуды ұйғарды. Кейін Лейла Наджафзада институтқа келіп, институт құрылымы, ұлттық корпуспен танысып, «Birsöz» бастамасы тіл үйретіп жүрген Оксфордтың Таяу Шығыс зерттеушілері үшін қазақ тілін ғылыми тұрғыдан оқыту мәселелерін талқылады. Сөйтіп, Ғылым және жоғары білім министрінің тікелей қолдауымен Ұлыбритания сыртқы істер министрі Д.Кэмеронның Астанаға ресми сапары аясында 4 жақты келісімге қол қойылды. Қазір жоба «Болашақ» бағдарламасымен бірлесіп іске асып жатыр. Алғаш болып Оксфордқа жеткен жас маман – PhD Меруерт Иманғазина. Дайындық жұмыстары аяқталғаннан кейін академик Зейнеп Базарбаеваның шәкірті, PhD Дидар Садық Оксфордта қазақ тілін оқытады. Содан кейін ағылшын тілін жетік білетін маманымыз Талшын Шоқаева жалғастырады. Қазіргі кезде оқыту әдістемесі, арнайы оқулық құрастырылып жатыр. Курсқа қатысуға ынталылар саны артып келеді.
– Шетелдердегі тілдік корпустардың тарихы, мазмұны, құрылымында айырмашылық бар ма?
– Қазақ тілінің ұлттық корпусына қарағанда тарихы әріге кететін корпустар бар. 2023 жылы Мажарстанның Лингвистикалық институтына бардық. Ол корпуста 1 млрд сөзқолданыстан тұратын мәтіндер болғанымен, дереккөздік аннотациясы мен тілтанымдық белгіленімі біздің корпусқа қарағанда ықшамдау екен. Британ ұлттық корпусы миллиардтаған сөзқолданысты құрайды. Бұл корпустың ауқымы да кең, аннотациялары да саналуан. Бірақ барлық бөлігі бірдей қолжетімді емес. Ақылысы да бар. Бүгінде базасы 3 млрдқа жеткен орыс тілінің ұлттық корпусын жасау 2000 жылдары басталды. Орыс корпусының лингвистикалық аннотацияларының кәсібилік деңгейі өте жоғары. Түркия ұлттық корпусы да ауқымды. Салыстыра қарағанда, қазақ тілінің ұлттық корпусы өзіндік терең мазмұнға, ерекше құрылымға негізделген.
– Қазіргі тілдік модельдер беретін ақпарат сапасын жетілдіруде тілтанушы ғалымдардың рөлі қандай?
– «ChatGPT»-дің «ақылды» болуына Тіл білімі институтының қосқан үлесі зор. Мұнда ғалымдардың көзге көрінбейтін қажырлы еңбегі жатыр. Нейрожүйе кез келген дереккөздегі мәтінді қолданатынына дәлел қажет емес. Корпуста (qazcorpus.kz) таза тілтанымдық білім шоғырланған. Дегенмен «ChatGPT» әлі де көптеген тілдік бірліктің ұлттық мәдени-семантикалық мағынасын дәл көрсете алмайды. Бұл бағытта Ғылым және жоғары білім министрлігі іске қосқан жасанды интеллект «Ai-Sana» бағдарламасының, Назарбаев университеті «ISSAI» орталығы жасаған «Kaz-LLM» моделінің ерекшелігін атауға болады. Жақында министрлігіміздің қолдауымен ғылыми зерттеу бағдарламасы аясында әл-Фараби атындағы ҚазҰУ бас мекеме болып, Ахмет Байтұрсынұлы атындағы Тіл білімі институты, «Тіл-Қазына» ұлттық ғылыми-практикалық орталығы, Ақпараттық және есептеу технологиялары институты, «ISSAI» және «Softcraft» компаниясымен бірлесіп, қазақ тілін және технологиялық үрдісті қолдау үшін үлкен тілдік модель (LLM) әзірледік. Қазіргі кезде ұлттық, ғылыми білімнің цифрланбай жатқан тұстары бар. Тілтанымдық цифрлық ресурсы бар тілдердің жасанды интеллектідегі сапасы да жоғары екенін тәжірибеден көріп отырмыз.
– Шетелдік орталықтармен бірлескен жобалар туралы да айтып өтсеңіз?
– Қазіргі кезде Мәскеудің Жоғары экономика мектебімен ортақ жоба әзірлеуді қолға алдық. Институтта психолингвистика бөлімі ашылды. Оның барысында айтрекерлік зерттеулерді жүргіземіз. Құрылғы әлемдік психолингвистикада өзекті. Бұрын ақпаратты қабылдауда аудиалды, визуалды жол тең дәрежеге ие болса, қазір визуалдылығы басым. Айтрекерлік жүйе оқу барысында адамның көз қарашығының қозғалысын тіркейді. Осы орайда қазақтілді графикалық кеңістіктің қаншалықты дұрыс жолға қойылғанын зерттемекпіз. Институтымызда заман талабына орай осындай игі іс жалғасын тауып жатыр. Оның барысында ғалымдар цифрлық лингвотехнологияларды әзірлеу әдістемесін меңгеру үстінде. Бұл институттың кадрлық әлеуетін жаңа деңгейге көтерді.
– Әңгімеңізге рахмет.
Әңгімелескен –
Эльвира СЕРІКҚЫЗЫ,
«Egemen Qazaqstan»
АЛМАТЫ