О различении естественных языков для обучения ИИ

Сегодня мы размечаем тексты на разных языках и загружаем их в ИИ, предоставляя ему выстраивать гипотезы относительно их взаимосвязи и взаимосвязи слов в предложениях. Для подачи текста мы используем токенизатор. Но делаем ли мы это оптимально? Позволяем ли мы алгоритму брать из текста всю полноту информации?

Для ответа на этот вопрос, будет полезным рассмотреть письменность в её генезисе, с точки зрения фазового закона https://tss.ruslo.pro/fazovyj-zakon/.

В начале мы в письменности будем видеть «традиционный рисунок», т.е., схемы, которые мы будем читать в зависимости от того, куда смотрит голова, куда направлено копьё, как фигурки стоят вокруг зверя или костра. Бесконечное множество вариантов, но базовая морфологическая унификация, типа «как нарисовать мамонта» уже будет наличествовать. Это наскальная живопись. Её принято воспринимать как картины, но, на самом деле, это уже знаковый текст.

Символы возникнут только после того, как характер понятий превысит изобразительные возможности знакового метода. А точнее — когда начнётся обобщение явлений, отношений и появятся абстрактные понятия. Абстрактное понятие сложно нарисовать так, чтобы его узнали с первого взгляда, оно требует обучения концепциям. Тогда же возникнет и позиционная запись: поскольку абстракция не имеет головы и хвоста, место ей будут искать лишь на основе меры смысловой близости внутри сообщения.

Если знаки наскальной живописи читали и пересказывали, как сегодня инженер читает чертёж, то символы уже требуют своих названий, в т.ч. и те, которые изначально были знаками, поскольку подход должен сохраняться единым ко всему корпусу начертательных элементов. Появляется запись, которую можно читать и воспринимать не только упорядоченно, но и абстрактно-метафорически.

Ещё позже возникает потребность системно описывать сложную деятельность и её результаты. Такую деятельность достаточно естественно описывать сложением вместе действующих элементов и таким образом появляется слоговое письмо. Отдельные до этого периода слова, теперь становятся слогокорнями. Этому способу нет причины быть изобретёнными, пока хозяйственная деятельность не становится преобладающей в жизни людей и пока она удерживается в пределах устной родовой передачи. Т.е., до возникновения прибавочного продукта и торговли.

Появление букв и перемещение позиционного кодирования внутрь корней слов, появление морфологии связано с переходом на фонетическую запись. Требование «как записано, так должно быть и прочитано» возникает не раньше появления потребности в унификации, т.е., перехода к масштабному решению управленческих задач, охватывающему большие территории и народы, между которыми должна происходить не только письменная передача знаний и иной информации, но и точная письменная и устная передача приказов. Требуется такая форма сообщений, которая исключает интерпретацию.

Реальные современные системы письменности — смешанные. И по наличию в них элементов разных периодов генезиса письменности мы можем судить об их древности и характере прохождения этапов эволюции сознания их носителей.

Например, в китайском письме мы видим явные признаки самой первой, наскальной архаики. Она даже отдельно кристаллизована в китайской традиционной живописи (уставное изображение для всех элементов — человека, хижины, горы, бамбука и т.п.). К ней же восходит иероглифика, в которой ещё прослеживаются схожие изобразительные элементы. Китайский язык является слоговым, с ограниченным числом слогов. Перехода к фонетической записи не происходит. Гипотезно, культура китайской письменности, которая издревле укрепляется требованием от чиновников дословного знания уставных текстов, на фоне раннего перенаселения, заставила социум изобрести способ решения управленческих задач задолго до возникновения концепции фонетической записи. Однако сегодня это негативно сказывается на способности КНР к изобретению новых технических систем, которая крайне важна для прогресса. Из за выросшей сложности терминологии, слоговая запись более не даёт той гибкости, которая позволила бы из морфем восстановить значение слова и сегодняшний китаец вынужден запоминать значение каждого иероглифа в отдельности. 4000 иероглифов считается богатым словарным запасом, однако, этого слишком мало для описания сегодняшнего мира. Это похоже на эволюционный тупик языковой модели.

В европейских языках мы, напротив, практически не видим архаики. Это обновлённые языки, которые создавались искусственно при становлении отдельных территориальных государств и они сфокусировались, в основном, на фонетическом кодировании, согласно эпохе становления. Архаику в них максимально редуцировали.

В русском языке мы можем проследить очень пластичный генезис языка, который имеет богатую композиционную, слоговую, слогокорневую и фонетическую основу. И, хотя их форма давно приведена к фонетической записи, сам язык сохранил свойства всех фаз своей предполагаемой эволюции:

1. Гибкое словообразование, когда, подобно первобытным языкам, слово может не быть словарным, а сложиться всего лишь один раз, для обозначения конкретного явления и будет всеми понято корректно. Это подобно знаковой системе, когда мы можем понять по рисунку, на что смотрим. В сочетании со свободной композицией порядка слов, это формирует аналог наскальной схемы-рисунка. Иными словами, хотя мы уже не рисуем, но сохранили способность композиционной запаковки и расшифровки сообщения.

2. Возможность слогокорневой расшифровки «по Задорнову» практически любых слов, даже иностранных, но прижившихся в языке. Академические лингвисты отрицают значимость такой расшифровки, сетуя на её неоднозначность. Однако, для священных текстов слогового периода, которые родились в потребности человека описать мироздание в целом и своё в нём место, контекстная многозначность имеет очень важное значение, позволяющее обогащать и трактовать контекст, паковать в одно сообщение одновременно несколько ключей.

3. Развитая морфологическая система позволяет формировать слова, описательно обозначающие различные технически сложные явления.

4. Внедрение фонетического алфавита в русский язык также происходило при сохранении неразрывной связи с наследием языка. По этой причине, мы имеем его как связную систему понятий «Аз, Буки, Веди…», в которой каждая буква расшифровывается своим сакральным значением. Расшифровка слова по этим значениям часто достаточно точно дополняет его смысловой портрет.

Современная лингвистика, будучи узкопредметной наукой, сформулированной в период социальной и деятельностной унификации 18-20вв под влиянием западной фонетической школы, может относиться к описанной выше картине как угодно. Дело в том, что тема конвергенции наук возникла сравнительно недавно и именно она позволила обнаружить такие явления как фазовый генезис эволюционирующих процессов. Одновременно, кибернетические науки сообщают нам о возможности сложной многослойной запаковки информации в сообщениях, а биологические науки говорят нам о том, что любой слой сообщения, который может быть считан нашим подсознанием, будет считан и прорефлексирован. На этом эффекте, в частности, основано действие нейролингвистического программирования.

Гипотезно, в каждую фазу эволюции, русский язык пластично тарнсфрмировался, меняя форму предствления, но сохраняя неразрывность всех накопленных свойств и до сих пор представляет собой некое живое когнитивное тело. Неразрывность — в том смысле, что мы можем сконструировать слово только по одной системе правил, но если оно приживётся в языке, внезапно окажется, что и по остальным системам оно тоже читается, выдавая дополнительный смысловой ряд. Это значит, что наша письменность очень ровно эволюционировала, создавая для нас матрицу сознания, увязывающую все этапы его развития. Шикарный подарок предков.

Всё это определяет уникальность русского языка, необычную глубину и пригодность для употребления в любых сферах деятельности. А для целей обучения ИИ мы можем выдвинуть следующую гипотезу:

1. Следует провести эксперименты по обучению языковой модели, в первую очередь, только русскому языку, охватив диалектный и исторический корпус, а также связанные языки, такие как белорусский.

2. При построении токенизации необходимо делать одновременно буквенное, морфологическое, слогокорневое разложение, а также уделить внимание кодированию композиции. Обратить внимание на то, что слогокорневая токенизация, предположительно, допускает наложение трактовок. Иными словами, количество токенов, описывающее слово окажется больше, чем запись этого слова. Вероятно, для этой цели будет рацонально ввести дополнительные слои.

Для корректного построения слогокорневого токенизатора необходимо применить предварительный анализ нейросетью для поиска статистически характерных слогокорневых элементов.

3. Обучение следует проводить поэтапно, материалами нарастающей сложности. https://tss.ruslo.pro/4-faznoe-obuchenie-ii/. Иными словами, ранним корпусом должны быть сказки, а поздним — научные тексты.

4. Также видится целесообразным обратиться к специалистам по арабскому языку на предмет проверки на аналогичный генезис в связи с гипотезой Н.Н. Вашкевича о взаимодополнении русского и арабского языков. Возможно, из этого последует вывод о необходимости обучения ИИ либо на два корпуса, либо на два взаимосвязанных «полушария», что может быть более эффективным в виду различных стратегий мышления, диктуемых этими языками.

Результатом такого подхода будет являться языковая модель, сложность восприятия которой окажется глубже, чем у англоязычных конкурентов, более пригодная для общения в русскозычном сегменте и для анализа русскоязычного контента.

Добавить комментарий