Привет, Вы узнаете о том , что такое корпус текстов, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое
корпус текстов, речевой корпус, корпус , звуковой корпус , настоятельно рекомендую прочитать все из категории Обработка естественного языка.
В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не
корпус á ) — подобранная и обработанная по определенным правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке.
корпус текстов является предметом исследования корпусной лингвистики.
Основные свойства корпуса
Среди множества определений корпуса можно выделить его главные свойства:
- электронный — в современном понимании корпус должен быть в электронном виде
- репрезентативный — должен хорошо «представлять» объект, который моделирует
- размеченный — главное отличие корпуса от коллекции текстов
- прагматически ориентированный — должен быть создан под определенную задачу
Классификация корпусов
Классифицировать корпусы можно по различным признакам: цель создания корпуса, тип языковых данных, «литературность», жанр, динамичность, тип разметки, объем текстов и так далее. По критерию параллельности, например, корпусы можно разделить на одноязычные, двуязычные и многоязычные. Многоязычные и двуязычные делятся на два типа:
- параллельные — множество текстов и их переводов на один или несколько языков
- сопоставимые (псевдопараллельные) — оригинальные тексты на двух или нескольких языках
Разметка корпусов
Разметка заключается в приписывании текстам и их компонентам специальных тегов: лингвистических и внешних (экстралингвистических). Выделяют следующие лингвистические типы разметки: морфологическая, семантическая, синтаксическая, анафорическая, просодическая, дискурсная и т. д. К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей.
Ручная разметка (аннотирование) текстов — дорогостоящая и трудоемкая задача. На данный момент в открытом доступе представлены различные программные средства для разметки корпусов . Условно их можно разделить на обособленные (stand-alone) и веб-ориентированные (web-based). При этом акцент разработчиков в последние годы сместился в сторону веб-приложений. Данные системы обладают рядом преимуществ:
- возможность одновременной разметки одного документа несколькими людьми
- не требуют установки дополнительных программных средств, кроме браузера
- гибкое разграничение прав доступа
- отображение текущего прогресса процесса разметки
- возможность модификации размечаемого корпуса
Интернет как корпус
Современные технологии позволяют создавать «веб-корпусы», то есть корпусы, полученные путем обработки интернет-источников:
Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу (т. н. boilerplate), осуществляют трансформацию на текст, фильтрацию, нормализацию и дедупликацию полученных документов, которые затем можно обработать традиционными инструментами корпусной лингвистики (токенизация, мирфосинтаксическая и синтаксическая аннотация) и внедрить в поисковую корпусную систему. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов .
— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ
речевой корпус
Речевой корпус (
звуковой корпус ) — база данных аудиофайлов и транскрипций текстов, разновидность корпуса текстов. Об этом говорит сайт https://intellect.icu . В речевых технологиях[en] речевые корпуса используются, среди прочего, для создания акустических моделей[en] (которые затем могут использоваться в механизмах распознавания речи). В лингвистике речевые корпуса используются для исследований фонетики, диалектологии, конверсационного анализа и в других областях.
Существует два типа речевых корпусов:
1.Базы начитанных текстов, в том числе:
- тексты книг;
- тексты трансляций новостей;
- списки слов;
- последовательности чисел.
2.Базы аудиозаписей спонтанной речи — в том числе:
- диалоги — беседы между двумя или более людьми;
- устные рассказы (например, Buckeye Corpus );
- картографические пояснения — один человек объясняет маршрут на карте другим;
- задачи назначения — два человека пытаются найти общее время встречи, основанное на отдельных графиках.
Особый вид речевых корпусов — это базы данных текстов, наговоренных людьми, не являющимися носителями языка[en], которые содержат речь с иностранным акцентом.
Применение
Корпус — основное понятие и база данных корпусной лингвистики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики (например, извлечение ключевых слов), распознавания речи и машинного перевода, в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам.
Корпуса - это основная база знаний в корпусной лингвистике . Другие известные области применения включают:
- Языковые технологии , обработка естественного языка , компьютерная лингвистика
- Анализ и обработка различных типов корпусов также являются предметом большой работы в компьютерной лингвистике , распознавании речи и машинном переводе , где они часто используются для создания скрытых марковских моделей для части тегов речи и других целей. Корпуса и списки частот, полученные на их основе, полезны для обучения языкам . Корпуса можно рассматривать как тип вспомогательного средства для письма на иностранном языке, поскольку контекстуализированные грамматические знания, приобретенные пользователями, не являющимися родными языками, через знакомство с аутентичными текстами в корпусах, позволяют учащимся понять способ формирования предложений на целевом языке, обеспечивая эффективное письмо.
- Машинный перевод
- Многоязычные корпуса, специально отформатированные для параллельного сравнения, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов, содержащих тексты на двух языках. В корпусе переводов тексты на одном языке являются переводами текстов на другом языке. В сравнимом корпусе тексты одного вида и охватывают одно и то же содержание, но они не являются переводами друг друга. Чтобы использовать параллельный текст, предварительным условием анализа является некое выравнивание текста, определяющее эквивалентные текстовые сегменты (фразы или предложения). Машинный переводАлгоритмы перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус первого языка и корпус второго языка, который является поэлементным переводом корпуса первого языка.
- Филологии
- Корпуса текстов также используются при изучении исторических документов , например, при попытках расшифровать древние письменности или в библейских исследованиях . Некоторые археологические корпуса могут быть настолько короткими, что дают моментальный снимок во времени. Одним из самых коротких по времени корпусов могут быть тексты писем Амарны за 15–30 лет ( 1350 г. до н.э. ). Корпус древнего города, (например, « Кюльтепа тексты» из Турции), может пройти через серию корпусов, определенную дата их находку сайта.
Английский язык
- Американский национальный корпус
- Банк английского языка
- Британский национальный корпус
- Bergen Corpus of London Teenage Language (COLT)
- Brown Corpus , входящий в состав "Brown Family" корпусов, вместе с LOB , Frown и F-LOB
- Корпус современного американского английского (COCA) 425 миллионов слов, 1990–2011 гг. Свободный поиск в Интернете
- База данных Corpus Resource (CoRD), более 80 корпусов на английском языке.
- Корпус ГУМа , многослойный корпус Джорджтаунского университета с открытым исходным кодом, с очень большим количеством слоев аннотаций
- Корпус Ngram Google Книг
- Международный корпус английского языка
- Oxford English Corpus
- RE3D (набор данных оценки извлечения взаимосвязей и сущностей)
- Санта-Барбара Корпус разговорного американского английского
- Шотландский корпус текстов и речи
Европейские языки
- CETENFolha
- Корпус электронных текстов
- Corpus Inscriptionum Insularum Celticarum (CIIC), охватывающий примитивные ирландские надписи на огаме
- Корпус Google Книги Ngram
- Корпус грузинского языка
- Thesaurus Linguae Graecae (древнегреческий)
- Восточноармянский национальный корпус (ВАНК) 110 миллионов слов. Свободный поиск в Интернете.
- Корпус испанского текста от Molino de Ideas, содержащий 660 миллионов слов.
- CorALit: Корпус академических литовских академических текстов, опубликованных в 1999–2009 гг. (Около 9 миллионов слов). Составлено в Вильнюсском университете, Литва
- Справочный корпус современного португальского языка (CRPC)
- Турецкий национальный корпус
- CoRoLa - Справочный корпус современного румынского языка (Corpus Representzentativ al limbii române contemporane)
- TS Corpus - большой набор турецких корпусов. TS Corpus - это свободный и независимый проект, целью которого является создание турецких корпусов, инструментов НЛП и наборов лингвистических данных ...
Славянский
Восточнославянский
- Белорусский Н-корпус
- Русский Национальный Корпус
- Общий интернет-корпус русского языка
- Общий регионально аннотированный корпус украинского языка
- Корпус украинского языка
- Аранеум Руссикум
- Русский Корпус биографических текстов
- RuTweetCorp
- RusAge: Корпус для классификации текстов по возрасту
- Национальный корпус русского языка
- Генеральный интернет-корпус русского языка
- Русскоязычный корпус проекта Aranea
- Корпус биографических текстов
- RuTweetCorp
Южнославянский
- Болгарский национальный корпус
- Корпус хорватского языка
- Хорватский национальный корпус
- Словенский национальный корпус
Западнославянский
- Чешский национальный корпус [10]
- Национальный корпус польского языка
Немецкий
- German Reference Corpus (DeReKo) Более 4 миллиардов слов современного письменного немецкого языка.
- Свободный корпус немецких ошибок от людей с дислексией
Ближневосточные языки
- Corpus Inscriptionum Semiticarum
- Kanaanäische und Aramäische Inschriften
- Hamshahri Corpus ( персидский )
- Персидский в MULTEXT-EAST corpus (персидский) [11]
- Буквы Амарны (для аккадских , египетских, шумерограмм и т. Д.)
- TEP: Тегеранский англо-персидский параллельный корпус [12]
- TMC: Tehran Monolingual Corpus , Стандартный корпус для моделирования персидского языка [12]
- Persian Today Corpus: Самые частые слова сегодня Персидский, основан на корпусе из одного миллиона слов (на персидском: Vāže-hā-ye Porkārbord-e Fārsi-ye Emrūz ), Хамид Хассани , Тегеран, Иранский институт языка (ILI) , 2005, 322 с. ISBN 964-8699-32-1
- Kurdish-corpus.uok.ac.ir (курдский корпус Сорани диалект) Университет Курдистана, факультет английского языка и лингвистики
- Bijankhan Corpus A Contemporary Persian Corpus for NLP research, Тегеранский университет , 2012 г.
- Проект корпуса неоасирийских текстов
- Quranic Arabic Corpus (классический арабский язык)
- Электронный текстовый корпус шумерской литературы
- Открыть богато аннотированный корпус клинописи
- Текстовый корпус Asosoft [13]
Деванагари
- Корпус непальского текста (90+ миллионов бегущих слов / 6,5+ миллионов предложений)
Восточноазиатские языки
- Корпус японского языка Котоноха [14]
- LIVAC Synchronous Corpus (китайский)
Южноазиатские языки
- Набор данных SinMin [15] ( сингальский )
Вау!! 😲 Ты еще не читал? Это зря!
Исследование, описанное в статье про корпус текстов, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое корпус текстов, речевой корпус, корпус , звуковой корпус
и для чего все это нужно, а если не понял, или есть замечания,
то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории
Обработка естественного языка
Комментарии
Оставить комментарий
Обработка естественного языка
Термины: Обработка естественного языка