Qazaq24.com
Qazaq24.com
close
up
KZ
Menu

Когда можно украшать елку в Казахстане: эксперты назвали даты на удачу и озвучили советы

Есть ли в Казахстане то, что ищут пользователи? Подробный разбор самых популярных вопросов 2025

Мерседес им не достанется

Почему жилье дорожает в Казахстане, объяснил эксперт

Акиматам Астаны, Алматы и других городов дадут право наказывать нарушителей

Питающийся радиацией гриб обнаружен в Чернобыле

Улицы Павлодара преобразили, подсветив более 700 деревьев

Айсултан Сеитов посвящает новый фильм своему дедушке

Завершена реконструкция автодороги Кызылорда Жезказган

Мясная ярмарка пройдёт в Астане в выходные

Казахстан и Корея расширяют рамки программы добровольного выезда

Динара УРАЗАЕВА: На позорные роли больше не соглашаюсь

Застройщика осудили за миллиардное мошенничество в Караганде: бизнесмен проиграл апелляцию

Как лечить ОРВИ и грипп у детей: столичный врач обратилась к родителям

Алматинцы приняли участие в массовом спортивном проекте

"Не переживайте". Аким ответил, есть ли будущее у Атырауской области без нефти

193 документа об оценке соответствия отклонено с начала года в РК

Спецоперацию по задержанию иностранцев провели на юге Казахстана (видео)

Вспышку африканской чумы свиней зафиксировали недалеко от Барселоны

11 новых скоплений древних рисунков обнаружены в Казахстане

Что такое механизм галлюцинаций и водяные знаки ИИ, или Как распознать сгенерированный нейросетью текст

Что такое механизм галлюцинаций и водяные знаки ИИ, или Как распознать сгенерированный нейросетью текст

Согласно информации сайта Informburo.KZ, сообщает Qazaq24.com.

Отличить текст, сгенерированный искусственным интеллектом от написанного человеком, сегодня кажется более простой задачей, чем было на старте массового распространения ИИ. У людей развилась насмотренность. Одни пользователи определяют сгенерированный текст по длинному тире ("–"), другие видят определённые паттерны в словах и предложениях. Однако есть больше неочевидных признаков, которые исследованы казахстанскими и зарубежными учёными.

Почему языковые модели избирают научный и полный канцеляризмов стиль, как его определять и почему нельзя наверняка определить автора текста.

Как обучают искусственный интеллект

Многие, доступные широкой публике модели ИИ, например, ChatGPT и Gemini, являются языковыми (LLM). Они обучены на текстах из общедоступных источников: научных статьях, учебных материалах, энциклопедиях, новостных ресурсах, книгах и сайтах. ИИ анализирует огромное количество предложений, фраз и диалогов, на основе чего учится продолжать мысль, объяснять информацию и давать ответы. Так модели способны вести связный диалог, формулировать идеи, объяснять сложные темы и решать задачи.

Однако для полноценного обучения недостаточно просто "скормить" языковой модели большой массив текстов. Как объяснил декан факультета информационных технологий КазНУ имени аль-Фараби, PhD и профессор Тимур Иманкулов, обучение машины происходит сложнее:

"Второй этап – это обучение с участием человека. Специалисты показывают модели правильные ответы, корректируют её поведение, дают примеры того, как нужно общаться с пользователем, как объяснять сложные вещи простым языком, как быть вежливой, корректной и полезной. Это похоже на развитие человека: сначала дают огромную библиотеку знаний, а затем – обучают культуре общения, этике, корректности, эмпатии".

В контексте этого обучения становится понятен механизм галлюцинаций ИИ. Профессор отметил, что это связано с тем, как ИИ генерирует ответ: система просчитывает, какое слово статистически наиболее логично поставить следующим в последовательности.

В некоторых случаях это приводит к выбору слишком "безопасных" и предсказуемых токенов (слов или частей слов), что может спровоцировать зацикливание и повторение одних и тех же фраз. Чтобы избежать такого смыслового ступора, в алгоритмы генерации добавляют специальные элементы вариативности (например, параметр температуры).

Кроме того, проблема создания ложной информации, несуществующих фактов или ссылок часто коренится в самой системе обучения и поощрения. ИИ обучался на том, что полнота ответа важнее, чем его фактическая достоверность или точность источников. Долгое время модели поощряли за то, что они умеют создавать полный и исчерпывающий ответ, а не за то, что они приводят исключительно верифицируемые данные.

Лингвистические признаки

Главный вывод всех исследований – тексты, созданные ИИ, имеют низкое лексическое разнообразие.

С одной стороны, ChatGPT генерирует контент, который использует более скудный набор уникальных слов по сравнению с текстами, написанными человеком. Ограниченный активный словарный запас искусственного интеллекта напрямую вытекает из вероятностного принципа генерации языка. ИИ намеренно избегает менее распространённых синонимов. Хотя они могли бы повысить лексическое разнообразие, их использование несёт риски создать смысловую ошибку. Это отчасти объясняет и злоупотребление эмодзи (смайликами) при генерации контента в разговорах или рекламных жанрах.

С другой стороны, результаты исследований говорят о том, что в сгенерированных текстах гораздо меньше тавтологии и прямых лексических повторов, нежели в написанных человеком. Учёные применяли метрику дисперсии (dispersion), которая измеряет интервалы между повторениями одного и того же слова или однокоренного.

Длина же слов в генеративном тексте остаётся спорным аспектом. В части работ исследователи пришли к выводам, что тексты ИИ состоят из более длинных слов, тогда как другие работы не выявили существенной разницы. Тем не менее, LLM не перенимают человеческую привычку использовать более короткое слово вместо длинного, например, "спс" вместо "спасибо".

В исследовании под названием "Лингвистические характеристики текста, сгенерированного ИИ: Обзор" (Linguistic Characteristics of AI-Generated Text: A Survey) учёные Лука Терчон и Кая Добровольц из Университета Любляны (Словения) и Института Йожефа Стефана, проанализировали и идентифицировали конкретные слова, которые характерны для сгенерированных текстов. А также обнаружили те, которых он избегает.

Чаще всего в текстах, созданных искусственным интеллектом, встречаются служебные слова, такие как модальный глагол can (может), союз and (и), а также предлоги by, with и for. Что касается контентных слов, то ИИ склонен к обобщающей или лексике с неопределёнными группами (others – другие, researchers – исследователи) или формальными описаниями (knowledgeable – осведомлённый, incredibly polite – невероятно вежливый).

Реже всего ИИ использует союзы, которые означают противопоставление или причинно-следственные связи (however – однако, but – но, because – потому что, if – если). Почти полностью отсутствуют личные местоимения первого лица (I – я, my – мой, us – нас/нам), а также глаголы, связанные с чувствами, эмоциями и прямым восприятием (say – говорить, feels like – чувствуется, look – смотреть, hear – слышать). Отдельно учёные отметили, что тексты большинства популярных ИИ практически лишены агрессивных или грубых выражений. Но есть и исключения, например, DeepSeek.

Грамматические и стилистические признаки

Последовательность слов в предложении также выступает косвенным маркером, когда ИИ строго придерживается порядка слов: Субъект – Глагол – Объект (SVO). Это особенно характерно для английского и испанского языков. Обычные авторы используют более разнообразную структуру, включая инверсии (обратный порядок слов). Главный маркер сгенерированного текста – это злоупотребление сложными синтаксическими конструкциями, в частности, причастными и деепричастными оборотами.

Статистика исследований показывает, что языковые модели используют причастные и деепричастные обороты (аналог в английском языке – Present Participial Clauses) в 2–5 раз чаще, чем человек. Объяснить, зачем машина избирает данный путь, достаточно просто: вместо того, чтобы написать два простых предложения, ИИ сжимает два действия в одно, чем уплотняет текст. Поэтому пользователь в сгенерированном тексте чаще наблюдает такие конструкции:

"Боксёр, опираясь на свою ловкость и уклоняясь от тяжёлых ударов, танцует вокруг ринга".

"The boxer, relying on his agility and dodging heavy blows, dances around the ring".

ИИ-тексты задействуют больше существительных и предлогов, но при этом меньше наречий и прилагательных. В англоязычных научных трудах это дали название – "феномен номинализации", когда ИИ преобразовывает глаголы или прилагательного в отглагольные существительные или отприлагательные существительные. Например, "любовь" вместо "любить", "счастье" вместо "быть счастливым", "повышение" вместо "повышать".

Номинализация в текстах ИИ часто выполняет ту же функцию, что и пассивный залог: она скрывает, кто именно совершает действие. Этот приём часто применяют в научных текстах, когда необходимо говорить о темах обобщённо и формально, однако для обычного читателя такие тексты тяжелее для восприятия.

Сложность обнаружения сгенерированных текстов

До того, как сгенерированные тексты стали массовым явлением, различные тексты проверяли на авторскую принадлежность и плагиат. Для этого в науке развилась отдельная область – стилометрия, которая занимается количественным анализом авторского стиля: частоты слов, длины предложений и использования определённых конструкций. Её также применяют для обнаружения следов генеративной модели.

Разработаны и специальные программы, которые пытаются выявить сгенерированные тексты, анализируя их структуру, стиль и предсказуемость слов. Однако, несмотря на все усилия, эти методы не являются точным инструментом для надёжного обнаружения:

"Иногда они ошибаются: текст человека принимают за ИИ и наоборот. Поэтому говорить о стопроцентной надёжности пока рано. Кроме того, существует идея невидимых водяных знаков, которые можно встроить в текст, чтобы потом подтвердить его происхождение. Однако сейчас это тоже не идеальный метод: стоит человеку немного переписать текст, сократить или перевести, и следы исчезают. Исследования продолжаются, но пока это лишь развивающееся направление," – объяснил Тимур Иманкулов.

Подавляющее большинство исследований сосредоточено на английском языке. Анализу русскоязычных текстов, а тем более казахского языка, уделяется крайне мало внимания. Именно поэтому для Казахстана сейчас важно не только использовать зарубежные технологии, но и развивать свои. 

"В КазНУ имени аль-Фараби проводят исследования в области искусственного интеллекта, и один из ключевых проектов – это развитие большой языковой модели KazLLM. Проще говоря, это наша версия крупной интеллектуальной системы, которая понимает особенности языка и культуры казахского народа, и будет полезна именно для наших задач: от образовательных сервисов до государственных цифровых решений и бизнеса," – добавил учёный.

Он также считает, что в вопросах новых технологий важно не наблюдать со стороны, а участвовать – строить свои решения, формировать свою экспертизу и вносить вклад в мировую научно-технологическую повестку.

Следите за обновлениями и свежими новостями на Qazaq24.com, где мы продолжаем следить за ситуацией и публиковать самую актуальную информацию.
seeПросмотров:54
embedИсточник:https://informburo.kz
archiveЭта новость заархивирована с источника 04 Декабря 2025 18:58
0 Комментариев
Войдите, чтобы оставлять комментарии...
Будьте первыми, кто ответит на публикацию...
topСамые читаемые
Самые обсуждаемые события прямо сейчас

Когда можно украшать елку в Казахстане: эксперты назвали даты на удачу и озвучили советы

03 Декабря 2025 07:23see407

Есть ли в Казахстане то, что ищут пользователи? Подробный разбор самых популярных вопросов 2025

03 Декабря 2025 22:57see338

Мерседес им не достанется

03 Декабря 2025 14:33see262

Почему жилье дорожает в Казахстане, объяснил эксперт

03 Декабря 2025 13:44see212

Акиматам Астаны, Алматы и других городов дадут право наказывать нарушителей

03 Декабря 2025 19:58see210

Питающийся радиацией гриб обнаружен в Чернобыле

02 Декабря 2025 22:18see203

Улицы Павлодара преобразили, подсветив более 700 деревьев

03 Декабря 2025 16:33see199

Айсултан Сеитов посвящает новый фильм своему дедушке

02 Декабря 2025 22:16see198

Завершена реконструкция автодороги Кызылорда Жезказган

03 Декабря 2025 03:16see195

Мясная ярмарка пройдёт в Астане в выходные

03 Декабря 2025 22:51see192

Казахстан и Корея расширяют рамки программы добровольного выезда

04 Декабря 2025 01:06see186

Динара УРАЗАЕВА: На позорные роли больше не соглашаюсь

03 Декабря 2025 16:05see182

Застройщика осудили за миллиардное мошенничество в Караганде: бизнесмен проиграл апелляцию

03 Декабря 2025 11:28see176

Как лечить ОРВИ и грипп у детей: столичный врач обратилась к родителям

03 Декабря 2025 19:42see173

Алматинцы приняли участие в массовом спортивном проекте

02 Декабря 2025 20:00see172

"Не переживайте". Аким ответил, есть ли будущее у Атырауской области без нефти

04 Декабря 2025 15:50see151

193 документа об оценке соответствия отклонено с начала года в РК

02 Декабря 2025 20:18see147

Спецоперацию по задержанию иностранцев провели на юге Казахстана (видео)

03 Декабря 2025 19:33see142

Вспышку африканской чумы свиней зафиксировали недалеко от Барселоны

02 Декабря 2025 19:37see138

11 новых скоплений древних рисунков обнаружены в Казахстане

02 Декабря 2025 22:50see137
newsПоследние новости
Самые свежие и актуальные события дня