Главная
Новости
Строительство
Ремонт
Дизайн и интерьер




06.10.2022


05.10.2022


05.10.2022


04.10.2022


04.10.2022





Яндекс.Метрика

Машинный фонд русского языка

18.07.2022

Машинный фонд русского языка — проект создания большого представительного корпуса русского языка. Опыт МФРЯ используется при разработке, начиная с 2004 года, Национального корпуса русского языка.

Программа по созданию МФРЯ

Отдел Машинного фонда русского языка был создан в 1985 году по инициативе академика А. П. Ершова после состоявшейся в 1983 году специальной всесоюзной конференции Под руководством члена-корреспондента АН СССР Ю. Н. Караулова в Институте русского языка была разработана «Комплексная программа научных исследований и прикладных разработок по созданию Машинного фонда русского языка на 1996—2000 годы и информатизации исследований».

В создании Машинного фонда русского языка (1986—1990 гг.) принимали участие более 40 организаций-соисполнителей, среди них Московский, Ленинградский, Харьковский, Гродненский, Сыктывкарский и Саратовский университеты.

Под комплексной информатизацией научных исследований и прикладных разработок в русистике понималось:

  • Последовательное оснащение отделов Института русского языка и организаций-соисполнителей современными вычислительными машинами с перспективой объединения их в локальную сеть (не выполнено)
  • Последовательное накопление на машинных носителях и в базах данных главнейших источников, необходимых как для научного изучения русского языка, так и для осуществления прикладных разработок (выполнено частично)
  • Создание программных средств, необходимых как для подготовки научных трудов по филологии, так и для проведения прикладных разработок (разработаны 2 программы под MS-DOS и переведены в электронный вид несколько словарей);
  • Развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой — источником новых идей и данных для фундаментальной науки (программа не реализована).

Реализация программы (1985—1992)

За 8 лет работы отделом Машинного фонда русского языка (частично с участием соисполнителей) были осуществлены:

  • Разработка концепции и архитектуры Машинного фонда русского языка
  • Разработка концепции терминологического банка данных
  • Накопление значительного количества источников — накоплены на машинных носителях и частично в базах данных текстовые источники русской литературы XIX—XX вв., главнейшие словари русского языка, Краткая академическая грамматика, некоторые другие материалы справочного характера, созданы текстовые корпусы поэзии, художественной прозы, общественно-политических и технических текстов
  • Разработка двух программ под управлением MS-DOS:
— UNILEX-T для изготовления частотных словарей, словоуказателей (индексов слов к текстам) и конкордансов и работы с последними — UNILEX-D для создания словарных баз данных и работы с последними.
  • Разработка программно-источниковых пакетов (их разработка была остановлена), например:
Автоматический Синтаксический словарь русского языка Автоматический словарь синонимов русского языка Автоматический вариант Словаря русского языка С. И. Ожегова Автоматический словарь глагольного управления в русском языке.

Деятельность отдела МФ русского языка (1992—1998)

Полномасштабные испытания систем обработки лингвистических данных UNILEX путём участия в подготовке Орфографического словаря и Словаря поэзии XX в.

Ускоренное накопление новых источников на основе электронных изданий газет и сканирования произведений русского классической литературы. Полный архив источников Машинного фонда русского языка сейчас составляет более 100 млн словоупотреблений;

Работа над словарем языка Ф. М. Достоевского.

Накопление источников в целях широкого дистрибутивно-статистического исследования русской прозы последней трети XIX в. и газет конца XX в.

Накопление и анализ дистрибутивно-статистических данных, подготовка публикаций сводных данных.

Анализ деятельности по развитию МФ русского языка

Концепция развития МФ русского языка (1983 год)

  • создание компонентов лингвистического обеспечения задач информатики и
  • информатизация научных исследований в русистике.

Современные задачи создания МФРЯ

  • дистрибутивно-статистический анализ и накопления лингвистических ресурсов в интернете
  • накопление источников на сайтах Фонда
  • дальнейшее развитие функций Автоматической словарной картотеки Фонда
  • конструирование глобальной лингвостатистической обработки всех текстовых источников Фонда в интерактивном режиме.