Qazaq24.com
Qazaq24.com
close
up
KZ
Menu

Депутат Зайытов просит амнистировать осужденных за распространение заведомо ложной информации Аналитический интернет журнал Власть

Обеспечить устойчивость финансовой системы и сдерживать инфляцию поручил Токаев Нацбанку Казахстана

Наркокурьер с 287 закладками задержан в Карагандинской области

Синоптики предупредили о дождях и грозах в Алматы

После жестоких пыток приёмных детей семья педагогов из Каркаралинска получила приговор

Осталось 20 дней, когда можно использовать одну из купюр тенге с голубями

63 пострадавших и один погибший: беспилотники атаковали аэропорт Кувейта

Хакеры под видом Minecraft заразили тысячи компьютеров

Бензин на 37 млрд тенге: в Казахстане раскрыли серьёзную схему вывоза топлива в Кыргызстан

Монумент Астана жулдызы отреставрируют в Астане

Курорт с натяжкой

Владельцев электромобилей в Казахстане предупредили о новых запретах

В Астане стартовал прием заявок на участие в конкурсе Еңбек жолы

Бектенов и Христодулидис приняли участие в бизнес форуме

Казахстанские боксеры сохранили лидерство в обновленном рейтинге World Boxing

Засуха прогнозируется в ряде регионов Казахстана в июне

Водитель отвлекся на задержание и врезался в такси в Алматы (ВИДЕО)

Любишь кататься придётся отмечаться

В LRT Астаны усилили меры безопасности и профилактики

Направленный на борьбу с экстремизмом и терроризмом законопроект принял сенат

ChatGPT на казахском: общество Қазақ тілі представило результаты работы с OpenAI

ChatGPT на казахском: общество Қазақ тілі представило результаты работы с OpenAI

Как передает Qazaq24.com со ссылкой на сайт Kazpravda.KZ.

Участники обсудили ход реализации совместного проекта по развитию казахского языка в цифровом пространстве и презентовали первые итоги работы. Вниманию экспертов представили текстовый корпус казахского языка (Kazakh Text Corpus) объемом более 10 миллиардов токенов, аудиокорпус (Speech Corpus) мощностью свыше 10 тысяч часов, а также набор AI Evaluation Benchmark Suite, предназначенный для оценки больших языковых моделей.

Этот масштабный проект реализуется в рамках соглашения между Международным обществом «Қазақ тілі» и OpenAI, подписанного 7 ноября 2025 года в Вашингтоне. Его главная цель – создание качественного цифрового контента и надежной базы данных для повышения качества работы больших языковых моделей на казахском языке. Сегодня эта инициатива стала одним из важнейших проектов, направленных на развитие цифровой экосистемы казахского языка.

В рамках проекта сформирован уникальный текстовый корпус казахского языка (Kazakh Text Corpus) объемом более 10 миллиардов токенов. Этот языковой ресурс создан на основе реальных источников, прошел глубокую очистку, классификацию, фильтрацию персональных и конфиденциальных данных, а также был дополнен необходимыми метаданными.

В корпус вошли тексты всех этапов исторического развития казахского языка, включая языковые традиции казахских диаспор за рубежом. Таким образом, авторам удалось создать глобальный цифровой ресурс, охватывающий все историческое и географическое пространство языка. Материалы охватывают сферы образования, науки, технологий, экономики, права, медицины, истории, этнографии, медиа и детского контента.

Параллельно система оптического распознавания текста (OCR) продемонстрировала высокую точность (99%) при обработке казахских текстов на кириллице. Эффективность системы структурного анализа документов (Layout Parsing), распознающей колонки и страницы со сложной версткой, также достигла 99%. Обе системы способны одновременно обрабатывать колоссальные массивы сгруппированных данных.

Для комплексного аудита больших языковых моделей на казахском языке была разработана специальная система AI Evaluation Benchmark Suite.

Она оценивает модели по ключевым направлениям, среди которых: понимание текста (Reading Comprehension), грамматика (Grammar), естественность казахского языка (Kazakh Language Naturalness), использование пословиц и устойчивых выражений (Proverbs & Idioms), академический перевод (Academic Translation), художественный перевод с казахского языка на английский (Literary Translation), перевод детской литературы (Kids Literature Translation), безопасность (Safety) и этнографические знания (Ethnography). На текущий момент полностью готовы семь из девяти направлений, а работа над блоками Safety и Ethnography находится на стадии завершения.

Данная система оценки была разработана на казахском языке, а не переведена с английского, с учетом языковых и культурных особенностей казахского языка. По ее первым результатам показатель понимания текста (Reading Comprehension) составил 76,89%, грамматики (Grammar) – 72,24%, использования пословиц и устойчивых выражений (Proverbs & Idioms) – 71,90%. При этом показатель естественности казахского языка (Kazakh Language Naturalness) пока составляет 23,08%. В сегменте перевода зафиксированы высокие результаты: академический перевод (Academic Translation) – 85,81%, художественный перевод (Literary Translation) – 86,46%, перевод детской литературы (Kids Literature Translation) – 89,22%.

На сегодняшний день для аудиокорпуса проекта собрано и очищено 10 810 часов аудиоматериалов. Из них 1000 часов – это датасет «золотого стандарта» (Gold Standard Dataset), который был транскрибирован вручную и прошел строгую экспертную проверку. Более 70% записей имеют частоту дискретизации от 44 кГц и выше, а сам фонд полностью состоит из образцов живой, естественной речи.

Сейчас точность моделей распознавания казахской речи (Speech-to-Text Models) превышает 92%. При этом зафиксированы случаи, когда ИИ-системы ошибочно принимают казахский язык за кыргызский, татарский или турецкий.

Международное общество «Қазақ тілі» разрабатывает оценочный бенчмарк Automatic Speech Recognition (ASR) для проверки способности языковых моделей воспринимать казахскую речь. Он позволяет проводить глубокую оценку точности распознавания слов (WER), точности распознавания символов (CER) и уровня охвата различных тематик.

В перспективе команда проекта намерена довести точность моделей транскрипции казахской речи до 99%.

В дальнейшем будет продолжена работа по повышению точности моделей распознавания казахской речи до 99%. В рамках данного партнерства созданы беспрецедентные по объему текстовые и аудиокорпуса на казахском языке, высокоточные инструменты цифровизации и комплексная инфраструктура для оценки качества больших языковых моделей. Эта работа качественно расширяет границы присутствия казахского языка в цифровом мире и уверенно выводит его в число конкурентоспособных языков эпохи искусственного интеллекта.

Справка: OpenAI, Inc. – американская технологическая компания, занимающаяся исследованиями и разработкой в области искусственного интеллекта.

Следите за обновлениями и свежими новостями на Qazaq24.com, где мы продолжаем следить за ситуацией и публиковать самую актуальную информацию.
seeПросмотров:48
embedИсточник:https://kazpravda.kz
archiveЭта новость заархивирована с источника 05 Июня 2026 12:08
0 Комментариев
Войдите, чтобы оставлять комментарии...
Будьте первыми, кто ответит на публикацию...
topСамые читаемые
Самые обсуждаемые события прямо сейчас

Депутат Зайытов просит амнистировать осужденных за распространение заведомо ложной информации Аналитический интернет журнал Власть

03 Июня 2026 16:49see418

Обеспечить устойчивость финансовой системы и сдерживать инфляцию поручил Токаев Нацбанку Казахстана

04 Июня 2026 20:23see210

Наркокурьер с 287 закладками задержан в Карагандинской области

03 Июня 2026 18:21see153

Синоптики предупредили о дождях и грозах в Алматы

03 Июня 2026 17:44see144

После жестоких пыток приёмных детей семья педагогов из Каркаралинска получила приговор

04 Июня 2026 18:00see144

Осталось 20 дней, когда можно использовать одну из купюр тенге с голубями

04 Июня 2026 21:11see144

63 пострадавших и один погибший: беспилотники атаковали аэропорт Кувейта

03 Июня 2026 23:52see143

Хакеры под видом Minecraft заразили тысячи компьютеров

04 Июня 2026 22:17see143

Бензин на 37 млрд тенге: в Казахстане раскрыли серьёзную схему вывоза топлива в Кыргызстан

04 Июня 2026 18:01see143

Монумент Астана жулдызы отреставрируют в Астане

03 Июня 2026 22:26see143

Курорт с натяжкой

03 Июня 2026 20:23see142

Владельцев электромобилей в Казахстане предупредили о новых запретах

03 Июня 2026 16:07see142

В Астане стартовал прием заявок на участие в конкурсе Еңбек жолы

04 Июня 2026 18:28see142

Бектенов и Христодулидис приняли участие в бизнес форуме

03 Июня 2026 19:26see142

Казахстанские боксеры сохранили лидерство в обновленном рейтинге World Boxing

03 Июня 2026 21:09see141

Засуха прогнозируется в ряде регионов Казахстана в июне

03 Июня 2026 20:46see141

Водитель отвлекся на задержание и врезался в такси в Алматы (ВИДЕО)

03 Июня 2026 20:55see140

Любишь кататься придётся отмечаться

03 Июня 2026 16:40see140

В LRT Астаны усилили меры безопасности и профилактики

04 Июня 2026 19:52see139

Направленный на борьбу с экстремизмом и терроризмом законопроект принял сенат

04 Июня 2026 15:23see138
newsПоследние новости
Самые свежие и актуальные события дня