Компьютерная лингвистика сущность, задачи, направления, применение

Лекция

Привет, Вы узнаете о том , что такое Компьютерная лингвистика сущность, задачи, направления, применение, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое Компьютерная лингвистика сущность, задачи, направления, применение , настоятельно рекомендую прочитать все из категории Компьютерная лингвистика.

Компьютерная лингвистика (также: математи́ческая или вычисли́тельная лингви́стика, англ. computational linguistics) — научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.

Компьютерная лингвистика частично пересекается с обработкой естественных языков. Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.

Полем деятельности компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации.

Компью́терная лингви́стика— направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.

Если говорить обще, то полем деятельности является разработка алгоритмов и прикладных программ для обработки языковой информации.

Задачей компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации.

Математическая лингвистика является ветвью науки искусственного интеллекта. Ее история началась в Соединенных Штатах Америки в 1950-х годах. С изобретением транзистора и появлением нового поколения компьютеров, а также первых языков программирования, начались эксперименты с машинным переводом, особенно русских научных журналов. В 1960-х годах подобные исследования проводились и в СССР (например, статья о переводе с русского на армянский в сб. «Проблемы кибернетики» за 1964 год). Однако качество машинного перевода до сих пор сильно уступает качеству перевода, произведенного человеком. В 2021 году качество машинного перевода переводчика Гугл уже не столь сильно уступало качеству перевода, сделанного человеком .

С 15 по 21 мая 1958 года в I МГПИИЯ состоялась первая Всесоюзная конференция по машинному переводу. Оргкомитет возглавляли В. Ю. Розенцвейг и ответственный секретарь Оргкомитета Г. В. Чернов. Полностью программа конференции опубликована в сборнике «Машинный перевод и прикладная лингвистика», вып. 1, 1959 г. (он же «Бюллетень Объединения по машинному переводу № 8»). Как вспоминает В. Ю. Розенцвейг, опубликованный сборник тезисов конференции попал в США и произвел там большое впечатление.

В апреле 1959 года в Ленинграде состоялось I Всесоюзное совещание по математической лингвистике, созванное Ленинградским университетом и комитетом прикладной лингвистики. Главным организатором Совещания был Н. Д. Андреев. В Совещании приняли участие ряд видных математиков, в частности, С. Л. Соболев, Л. В. Канторович (впоследствии — Нобелевский лауреат) и А. А. Марков (последние двое выступали в прениях). В. Ю. Розенцвейг выступил в день открытия Совещания с программным докладом «Общая лингвистическая теория перевода и математическая лингвистика».

Направления компьютерной лингвистики

Обработка естественного языка (англ. natural language processing). Уровни обработки и анализа текста: синтаксический, морфологический, семантический.

К задачам и направлениям компьютерной лингвистики относят:

Корпусную лингвистику, создание и использование электронных корпусов текстов.
Создание электронных словарей, тезаурусов, онтологий. Например, Lingvo. Словари используют, например, для автоматического перевода, проверки орфографии.
Автоматический перевод текстов. Среди русских переводчиков популярным является Промт. Среди бесплатных известен переводчик Google Translate.
Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact extraction, text mining)
Автореферирование (англ. automatic text summarization). Эта функция включена, например, в Microsoft Word.
Построение систем управления знаниями. См. Экспертные системы.
Создание вопросно-ответных систем (англ. question answering systems).

Оптическое распознавание символов (англ. OCR). Например, с помощью программы FineReader
Автоматическое распознавание речи (англ. ASR).
Автоматический синтез речи.

Происхождение

Вычислительную лингвистику часто относят к области искусственного интеллекта , но она существовала до появления искусственного интеллекта. Компьютерная лингвистика зародилась в Соединенных Штатах в 1950-х годах с целью использования компьютеров для автоматического перевода текстов с иностранных языков, особенно русских научных журналов, на английский язык. Поскольку компьютеры могут производить арифметические (систематические) вычисления намного быстрее и точнее, чем люди, считалось, что это лишь короткий вопрос времени, прежде чем они смогут также начать обрабатывать язык. ^[10]Вычислительные и количественные методы также исторически использовались при попытках реконструкции более ранних форм современных языков и группировки современных языков в языковые семьи. Более ранние методы, такие как лексикостатистика и глоттохронология , оказались преждевременными и неточными. Однако недавние междисциплинарные исследования, которые заимствуют концепции из биологических исследований, особенно картирование генов , показали более сложные аналитические инструменты и более надежные результаты. ^[11]

Когда машинный перевод (также известный как механический перевод) не смог сразу дать точные переводы, автоматическая обработка человеческих языков была признана гораздо более сложной, чем первоначально предполагалось. Вычислительная лингвистика родилась как название новой области исследований, посвященной разработке алгоритмов и программного обеспечения для интеллектуальной обработки языковых данных. Сам термин «компьютерная лингвистика» был впервые введен Дэвидом Хейсом , одним из основателей Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL). ^[12]

Было замечено, что для перевода с одного языка на другой необходимо понимать грамматику обоих языков, включая как морфологию (грамматику словоформ), так и синтаксис (грамматику структуры предложения). Чтобы понять синтаксис, нужно было также понять семантику и лексику (или «словарь») и даже кое-что из прагматики использования языка. Таким образом, то, что началось как попытка перевода между языками, превратилось в целую дисциплину, посвященную пониманию того, как представлять и обрабатывать естественные языки с помощью компьютеров. ^[13]

В настоящее время исследования в области компьютерной лингвистики проводятся на кафедрах компьютерной лингвистики, ^[14] лабораториях компьютерной лингвистики, ^[15] кафедрах информатики , ^[16] и кафедрах лингвистики. ^[17]^[18] Некоторые исследования в области компьютерной лингвистики направлены на создание работающих систем обработки речи или текста, в то время как другие нацелены на создание системы, обеспечивающей взаимодействие человека и машины. Программы, предназначенные для общения человека с машиной, называются диалоговыми агентами . ^[19]

Подходы

Точно так же, как компьютерной лингвистикой могут заниматься специалисты в самых разных областях и в самых разных отделах, так и исследовательские области могут охватывать широкий спектр тем. В следующих разделах обсуждается часть литературы, доступной во всей области, разбитой на четыре основные области дискурса: лингвистика развития, структурная лингвистика, лингвистическое производство и лингвистическое понимание.

Подходы к развитию

Язык – это когнитивный навык, который развивается на протяжении всей жизни человека. Этот процесс развития был изучен с использованием нескольких методов, и вычислительный подход является одним из них. Об этом говорит сайт https://intellect.icu . Развитие человеческого языка накладывает некоторые ограничения, которые усложняют применение вычислительного метода для его понимания. Например, во время овладения языком человеческие дети в основном сталкиваются только с положительными данными. ^[20] Это означает, что в ходе языкового развития индивидуума предоставляется единственное свидетельство того, что является правильной формой, и никаких доказательств того, что неправильно. Этой информации недостаточно для простой процедуры проверки гипотезы о такой сложной информации, как язык ^{[21] .}и, таким образом, устанавливает определенные границы для вычислительного подхода к моделированию развития и овладения языком у человека.

Были предприняты попытки смоделировать процесс развития овладения языком у детей с вычислительной точки зрения, что привело как к статистическим грамматикам , так и к коннекционистским моделям . ^[22] Работа в этой области также была предложена в качестве метода объяснения эволюции языка на протяжении истории. Используя модели, было показано, что языки можно изучать с помощью комбинации простых входных данных, представленных постепенно по мере того, как у ребенка улучшается память и увеличивается продолжительность концентрации внимания. ^[23] Это одновременно представлялось причиной длительного периода развития человеческих детей. ^[23] Оба вывода были сделаны из-за силы искусственной нейронной сети . который создал проект.

Способность младенцев развивать речь также была смоделирована с использованием роботов ^[24] для проверки лингвистических теорий. Имея возможность учиться, как дети, модель была создана на основе модели доступности , в которой сопоставления между действиями, восприятием и эффектами были созданы и связаны с произнесенными словами. Важно отметить, что эти роботы смогли получить функционирующие сопоставления слов со значениями, не нуждаясь в грамматической структуре, что значительно упростило процесс обучения и пролило свет на информацию, которая способствует современному пониманию языкового развития. Важно отметить, что эта информация могла быть проверена только эмпирически с использованием вычислительного подхода.

Поскольку наше понимание языкового развития человека в течение жизни постоянно улучшается с использованием нейронных сетей и обучающихся роботизированных систем , важно также помнить, что сами языки меняются и развиваются с течением времени. Вычислительные подходы к пониманию этого явления дали очень интересную информацию. Используя уравнение Прайса и динамику урны Полиа , исследователи создали систему, которая не только предсказывает будущую языковую эволюцию, но и дает представление об истории эволюции современных языков. ^[25] Это усилие по моделированию достигло с помощью компьютерной лингвистики того, что в противном случае было бы невозможно.

Ясно, что понимание языкового развития у людей, а также на протяжении всего эволюционного времени фантастически улучшилось благодаря достижениям в области компьютерной лингвистики. Возможность моделировать и модифицировать системы по своему усмотрению предоставляет науке этический метод проверки гипотез, которые в противном случае были бы неразрешимы.

Структурные подходы

Для создания лучших вычислительных моделей языка крайне важно понимать структуру языка. С этой целью английский язык был тщательно изучен с использованием вычислительных подходов, чтобы лучше понять, как язык работает на структурном уровне. Одним из наиболее важных аспектов изучения лингвистической структуры является наличие больших лингвистических корпусов или выборок. Это дает компьютерным лингвистам необработанные данные, необходимые для запуска их моделей и лучшего понимания базовых структур, присутствующих в огромном количестве данных, содержащихся в любом отдельном языке. Одним из наиболее цитируемых английских лингвистических корпусов является Penn Treebank . ^[26]Полученный из самых разных источников, таких как компьютерные руководства IBM и расшифровки телефонных разговоров, этот корпус содержит более 4,5 миллионов слов американского английского. Этот корпус был в основном аннотирован с использованием тегов частей речи и синтаксических скобок, и в результате были получены существенные эмпирические наблюдения, связанные со структурой языка. ^[27]

Разработаны также теоретические подходы к структуре языков. Эти работы позволяют компьютерной лингвистике иметь основу для разработки гипотез, которые будут способствовать пониманию языка множеством способов. Один из оригинальных теоретических тезисов об интериоризации грамматики и структуры языка предлагал два типа моделей. ^[21] В этих моделях изученные правила или шаблоны усиливаются по мере того, как частота их встречается. ^[21] Работа также поставила вопрос для компьютерных лингвистов, на который нужно ответить: как младенец выучит специфическую и ненормальную грамматику ( нормальную форму Хомского ), не выучив чрезмерно обобщенную версию и не застряв? ^[21]Теоретические усилия, подобные этим, задают направление исследованиям на раннем этапе существования области исследования и имеют решающее значение для роста области.

Структурная информация о языках позволяет обнаруживать и осуществлять распознавание сходства между парами текстовых высказываний. ^[28] Например, недавно было доказано, что на основе структурной информации, присутствующей в паттернах человеческого дискурса, концептуальные графики повторения могут использоваться для моделирования и визуализации тенденций в данных и создания надежных мер сходства между естественными текстовыми высказываниями. ^[28] Этот метод является мощным инструментом для дальнейшего изучения структуры человеческого дискурса . Без вычислительного подхода к этому вопросу чрезвычайно сложная информация, представленная в дискурсивных данных, осталась бы недоступной для ученых.

Информация о структурных данных языка доступна как для английского , так и для других языков, например японского . ^[29] Используя вычислительные методы, были проанализированы корпуса японских предложений, и была обнаружена закономерность логарифмической нормальности по отношению к длине предложения. ^[29]Хотя точная причина этой логарифмической нормальности остается неизвестной, именно такого рода информацию и призвана раскрыть вычислительная лингвистика. Эта информация может привести к дальнейшим важным открытиям, касающимся базовой структуры японского языка, и может оказать любое влияние на понимание японского языка как языка. Вычислительная лингвистика позволяет быстро и без сомнений вносить очень интересные дополнения в базу научных знаний.

Без вычислительного подхода к структуре лингвистических данных большая часть информации, доступной сейчас, все еще была бы скрыта под огромным объемом данных в рамках любого отдельного языка. Вычислительная лингвистика позволяет ученым надежно и эффективно анализировать огромные объемы данных, создавая возможности для открытий, которых нет в большинстве других подходов.

Производственные подходы

Создание языка столь же сложно с точки зрения информации, которую оно предоставляет, и необходимых навыков, которыми должен обладать беглый производитель. Другими словами, понимание — это только половина проблемы общения. Другая половина — это то, как система производит язык, и компьютерная лингвистика сделала интересные открытия в этой области.

Компьютерная лингвистика сущность, задачи, направления, применение

Алан Тьюринг : ученый-компьютерщик и одноименный разработчик теста Тьюринга как метода измерения интеллекта машины.

В ныне известной статье, опубликованной в 1950 году , Алан Тьюринг предположил, что однажды машины смогут «думать». В качестве мысленного эксперимента для определения того, что может определить концепцию мышления у машин, он предложил «имитационный тест», в котором человек ведет два текстовых разговора, один с другим человеком, а другой с машиной, пытающейся ответить как человек. . Тьюринг предполагает, что если субъект не может отличить человека от машины, можно сделать вывод, что машина способна мыслить. ^[30] Сегодня этот тест известен как тест Тьюринга, и он остается влиятельной идеей в области искусственного интеллекта.

Джозеф Вайзенбаум : бывший профессор Массачусетского технологического института и ученый-компьютерщик, разработавший ELIZA , примитивную компьютерную программу, использующую обработку естественного языка .

Одним из самых ранних и самых известных примеров компьютерной программы, предназначенной для естественного общения с людьми, является программа ELIZA , разработанная Джозефом Вейценбаумом в Массачусетском технологическом институте в 1966 году. Программа подражала роджерианскому психотерапевту .при ответе на письменные заявления и вопросы пользователя. Казалось, что он способен понимать, что ему говорят, и разумно реагировать, но на самом деле он просто следовал процедуре сопоставления с образцом, основанной на понимании лишь нескольких ключевых слов в каждом предложении. Его ответы были сгенерированы путем рекомбинации неизвестных частей предложения вокруг правильно переведенных версий известных слов. Например, во фразе «Кажется, ты меня ненавидишь» ЭЛИЗА понимает «ты» и «я», что соответствует общему шаблону «ты [некоторые слова] меня», что позволяет ЭЛИЗА обновлять слова «ты» и «я». на «я» и «ты» и отвечая: «Почему ты думаешь, что я тебя ненавижу?». В этом примере ЭЛИЗА не понимает слова «ненависть».^[31]

Некоторые проекты все еще пытаются решить проблему, из-за которой компьютерная лингвистика впервые стала ее областью. Однако методы стали более совершенными, и, следовательно, результаты, полученные компьютерными лингвистами, стали более информативными. Для улучшения компьютерного перевода было проведено сравнение нескольких моделей, в том числе скрытых марковских моделей , методов сглаживания и их конкретных усовершенствований для применения к переводу глаголов. ^[32] Модель, которая, как было установлено, обеспечивает наиболее естественные переводы с немецкого и французского языков .слова были усовершенствованной моделью выравнивания с зависимостью первого порядка и моделью рождаемости. Они также предоставляют эффективные алгоритмы обучения для представленных моделей, которые могут дать другим ученым возможность улучшить свои результаты. Этот тип работы характерен для компьютерной лингвистики и имеет приложения, которые могут значительно улучшить понимание того, как язык создается и понимается компьютерами.

Также была проделана работа, направленная на то, чтобы компьютеры воспроизводили язык в более естественной манере. Используя лингвистический ввод от людей, были созданы алгоритмы, способные изменять стиль производства системы на основе такого фактора, как лингвистический ввод от человека, или более абстрактных факторов, таких как вежливость или любой из пяти основных аспектов личности . ^[33] В этой работе используется вычислительный подход с использованием моделей оценки параметров , чтобы классифицировать широкий спектр языковых стилей, которые мы наблюдаем у разных людей, и упростить его для работы компьютера таким же образом, что делает взаимодействие человека с компьютером гораздо более естественным.

Текстовый интерактивный подход

Многие из самых ранних и простейших моделей взаимодействия человека с компьютером, такие как ELIZA, например, предполагают ввод текста пользователем для получения ответа от компьютера. С помощью этого метода слова, введенные пользователем, заставляют компьютер распознавать определенные шаблоны и отвечать соответствующим образом посредством процесса, известного как обнаружение ключевых слов .

Речевой интерактивный подход

В новейших технологиях больше внимания уделяется интерактивным системам на основе речи. Эти системы, такие как Siri в операционной системе iOS , работают по тому же методу распознавания образов, что и текстовые системы, но в первых пользовательский ввод осуществляется посредством распознавания речи . Этот раздел лингвистики включает в себя обработку речи пользователя в виде звуковых волн и интерпретацию акустических и языковых паттернов для распознавания компьютером ввода. ^[34]

Подходы к пониманию

Большая часть внимания современной компьютерной лингвистики сосредоточена на понимании. С распространением Интернета и изобилием легкодоступной письменной речи возможность создать программу, способную понимать человеческий язык , открыла бы много широких и захватывающих возможностей, включая улучшенные поисковые системы, автоматизированное обслуживание клиентов и онлайн-обучение.

Ранние работы по пониманию включали применение байесовской статистики к задаче оптического распознавания символов, как показано Бледсо и Броуингом в 1959 году, когда большой словарь возможных букв был сгенерирован путем «обучения» из букв-примеров, а затем вероятности того, что любая из этих букв изученные примеры соответствовали новым входным данным, которые были объединены для принятия окончательного решения. ^[35] Другие попытки применить байесовскую статистику к языковому анализу включали работу Мостеллера и Уоллеса (1963), в которой анализ слов, использованных в «Записках федералиста» , использовался для попытки определить их авторство (приходя к выводу, что Мэдисон, скорее всего, является автором большинство статей). ^[36]

В 1971 году Терри Виноград разработал ранний механизм обработки естественного языка , способный интерпретировать естественно написанные команды в простой среде, управляемой правилами. Программа синтаксического анализа основного языка в этом проекте называлась SHRDLU и была способна вести несколько естественный диалог с пользователем, дающим ему команды, но только в рамках игрушечной среды, предназначенной для этой задачи. Эта среда состояла из блоков различной формы и цвета, и SHRDLU мог интерпретировать такие команды, как «Найди блок, который выше того, который ты держишь, и положи его в коробку». и задавать такие вопросы, как «Я не понимаю, какую пирамиду вы имеете в виду». в ответ на ввод пользователя. ^[37]Несмотря на то, что этот вид обработки естественного языка впечатляет, он оказался гораздо более сложным за пределами игрушечной среды. Точно так же проект НАСА под названием LUNAR был разработан, чтобы дать ответы на естественно написанные вопросы о геологическом анализе лунных пород, возвращенных миссиями «Аполлон». ^[38] Такого рода задачи называются ответами на вопросы .

Первоначальные попытки понять разговорный язык были основаны на работе, проделанной в 1960-х и 1970-х годах по моделированию сигналов, когда неизвестный сигнал анализируется для поиска закономерностей и прогнозирования на основе его истории. Первоначальный и несколько успешный подход к применению такого рода моделирования сигналов к языку был достигнут с использованием скрытых марковских моделей, подробно описанных Рабинером в 1989 г. ^[39] . Этот подход пытается определить вероятности для произвольного числа моделей, которые могут быть использованы. используется для генерации речи, а также для моделирования вероятностей различных слов, сгенерированных из каждой из этих возможных моделей. Подобные подходы использовались в ранних попытках распознавания речи , начиная с конца 70-х годов в IBM, с использованием вероятностей пар слово/часть речи.^[40]

Совсем недавно эти виды статистических подходов применялись к более сложным задачам, таким как идентификация темы с использованием оценки байесовских параметров для вывода вероятностей тем в текстовых документах. ^[41]

Применение

Прикладная компьютерная лингвистика во многом эквивалентна обработке естественного языка . Примеры приложений для конечных пользователей включают программное обеспечение для распознавания речи, такое как функция Apple Siri, инструменты проверки орфографии, программы синтеза речи , которые часто используются для демонстрации произношения или помощи инвалидам, а также программы машинного перевода и веб-сайты, такие как Google Translate. ^[42]

Вычислительная лингвистика также полезна в ситуациях, связанных с социальными сетями и Интернетом , например, для предоставления фильтров контента в чатах или при поиске на веб-сайте, ^[42] для группировки и организации контента посредством интеллектуального анализа данных в социальных сетях , ^[43] поиска документов и кластеризации. Например, если человек ищет «красный, большой, четырехколесный автомобиль», чтобы найти изображения красного грузовика, поисковая система все равно найдет нужную информацию, сопоставив такие слова, как «четырехколесный» с «автомобиль». ^[44]

Вычислительные подходы также важны для поддержки лингвистических исследований, например, в корпусной лингвистике или исторической лингвистике . Что касается изучения изменений во времени, то вычислительные методы могут способствовать моделированию и идентификации языковых семей (см. далее количественную сравнительную лингвистику или филогенетику ), а также моделированию изменений звучания ^[45] и значения. ^[46]

Крупные ассоциации и конференции

Ассоциация по компьютерной лингвистике (ACL): подразделяется на две ветви: Европейскую и Североамериканскую.
Международная конференция по компьютерной лингвистике «Диалог».
Международная конференция по компьютерной лингвистике и интеллектуальной обработке текста^[en] (CICLing).

Вау!! 😲 Ты еще не читал? Это зря!

Исследование, описанное в статье про Компьютерная лингвистика сущность, задачи, направления, применение, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое Компьютерная лингвистика сущность, задачи, направления, применение и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Компьютерная лингвистика

Ответы на вопросы для самопроверки пишите в комментариях, мы проверим, или же задавайте свой вопрос по данной теме.

Оставить комментарий

Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.

To reply

Comment

Для того, чтобы подтвердить, что вы не бот, ответьте:

Name

Email(not published)

Оценить

Лекции и учебник по "Компьютерная лингвистика"

Термины: Компьютерная лингвистика

Аналитические языки в лингвистике

Типология порядка слов

Формальные языки и формальные грамматики

Рекурсивный язык

Рекурсивно перечислимый язык

Регулярная грамматика

Семантическое поле и Семантический дифференциал

Семантическое ядро текста

Интенсионал и Экстенсионал

Компьютерная лингвистика сущность, задачи, направления, применение

Основные определения, связанные со строками.Строковые алгоритмы

Период и бордер для строк, их связь

Синтаксическая и морфологическая типология в лингвистике

Компьютерная лингвистика сущность, задачи, направления, применение

Направления компьютерной лингвистики

Происхождение

Подходы

Подходы к развитию

Структурные подходы

Производственные подходы

Текстовый интерактивный подход

Речевой интерактивный подход

Подходы к пониманию

Применение

Крупные ассоциации и конференции

Вау!! 😲 Ты еще не читал? Это зря!

Комментарии

Оставить комментарий

Лекции и учебник по "Компьютерная лингвистика"

Термины: Компьютерная лингвистика