В Казахстане разработали Правила формирования Национального корпуса казахского языка

В Казахстане разработали Правила формирования Национального корпуса казахского языка
Фото: Kaufdex

Министерство науки и высшего образования Казахстана разработало Правила формирования и ведения Национального корпуса казахского языка. Об этом сообщает Zakon.kz.

Правила устанавливают общие требования и процедуры для создания, пополнения, обработки, хранения и использования Национального корпуса казахского языка, который служит основой для научных, образовательных и практических исследований в области казахского языка и лингвистики.

Администратор Корпуса – Министерство науки и высшего образования РК. Работу по координации Корпуса ведет Институт языкознания имени А. Байтурсынова.

Все материалы Корпуса должны соответствовать научным стандартам качества, имеют метаданные и источниковедческую информацию, проходят проверку на грамматические и орфографические ошибки, а также редактируются и упорядочиваются в соответствии с единой системой кодирования и классификации.

Корпус отражает разнообразие языковых практик, включая различные жанры, типы текстов, диалекты и стили, а также учитывает региональные и исторические особенности.

Все собранные тексты систематизируются и аннотируются по жанру, стилю, времени, источнику, по лексическим и грамматическим уровням.

Функции Корпуса:

  1. Метаразметка предоставляет информацию, которая подробно описывает текст и его характеристики, включая автора, название, жанр, источник, дату создания, целевую аудиторию, стиль, размер, формат, структурные особенности.
  2. Цифровая структура Корпуса обеспечивает систематизацию текстов в цифровом формате, что позволяет использовать современные инструменты автоматизированного анализа.
  3. Многофункциональность Корпуса позволяет использовать его в различных областях, включая лингвистические исследования, лексикографию, обучение языкам, компьютерную лингвистику и нейролингвистическое программирование.
  4. Прикладные задачи Корпуса позволяют автоматизировать обработку текстов, улучшать качество языковых моделей, разрабатывать эффективные инструменты для анализа текста, создания приложений для обучения языкам, машинного перевода и разработки искусственного интеллекта.

Структура Корпуса:

  • Корпус состоит из отдельных подкорпусов, каждый из которых охватывает конкретные направления.
  • Все подкорпусы соответствуют техническим, функциональным и операционным характеристикам основного Корпуса, установленным Институтом с согласования Администратора, обеспечивая единообразие, совместимость и безошибочную интеграцию в процессе эксплуатации.
  • Все тексты в Корпусе хранятся в унифицированных форматах, также обеспечивается интеграция API.
  • Текстовые данные охватывают широкий спектр жанров и стилей, включая научные работы, художественные произведения, публицистику, деловую документацию, разговорную речь и цифровые тексты.
  • Лексическая информация включает сведения о словах, их формах, значениях, сочетаемости и метаданные, такие как частотность, стилистика, синонимы, антонимы, с классификацией по частям речи и тематическим областям.
  • Грамматическая информация включает описание синтаксиса, морфологии и словообразования с разбором структуры предложений, частей речи, синтаксических связей и морфологических характеристик.
  • Стилистическая информация включает описание особенностей текста, различие между стилями, анализ языка в различных жанрах и классификацию текстов по категориям, таким как формальные и неформальные стили, жанры и их характерные черты.
  • В Корпусе имеется кросс-языковая привязка, включающая параллельные тексты, которая позволяет проводить исследования в области машинного перевода, контрастивной лингвистики и изучения влияния языковых контактов.
  • Каждый текст снабжается метаданными, включая идентификационные данные, библиографические данные, жанрово-стилистические характеристики, лингвистические данные, контекстуальные данные, технические данные и аннотативные данные.
  • Медиафайлы, сопровождающие текстовые данные, служат для анализа различных аспектов языка в контексте мультимодальной информации.
  • Интерфейс обеспечивает удобное взаимодействие пользователя с Корпусом для поиска, анализа и аннотирования данных.
  • Поисковая система позволяет пользователям искать и извлекать данные из Корпуса на основе различных критериев.
  • Официальная платформа Корпуса позволяет отслеживать количество словоупотреблений в Корпусе в реальном времени.
  • Структура данных позволяет добавлять в Корпус новые категории и компоненты по мере необходимости.

Объяснение

Как пояснили в МНВО, корпус будет непрерывно обновляться за счет добавления новых материалов, отражающих изменения в языке и актуальные достижения в различных областях, также расширяется с учётом изменений в языке, новых тенденций, а также появления новых жанров, стилей и направлений, что гарантирует его актуальность и соответствие языковым инновациям.

Ожидается, что Корпус будет общедоступным и будет служить основой для разработки лексикографических и грамматических проектов, научных и образовательных материалов, а также для создания программных продуктов.

Документ размещен на сайте “Открытые НПА” для публичного обсуждения до 28 марта.

Ссылка на источник

Оставьте первый комментарий

Оставить комментарий

Ваша электронная почта не будет отображаться.


*