Лекция
Привет, Вы узнаете о том , что такое стоп-слова, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое стоп-слова, шумовые слова, слова паразиты, слова с ослабленной смысловой нагрузкой , настоятельно рекомендую прочитать все из категории Обработка естественного языка.
стоп-слова , или шумовые слова , — в теории поиска информации по ключевым словам эти слова имею наименьшее значение и важность.
В противоположность- ключевые слова имеют наибольшее смысловое значение и вес.
В вычислении , стоп - слова есть слова , которые отфильтрованы до или после обработки естественного языка данных (текст). Хотя «стоп-слова» обычно относятся к наиболее распространенным словам в языке, не существует единого универсального списка стоп-слов, используемых всеми инструментами обработки естественного языка , и, действительно, не все инструменты даже используют такой список. Некоторые инструменты специально избегают удаления этих стоп-слов для поддержки фразового поиска .
Стоп-слова могут делиться на общие и зависимые.
К общим можно отнести артикли предлоги, суффиксы, причастия, междометия, цифры, частицы и т. п. Общие шумовые слова всегда исключаются из поискового запроса (за исключением поиска по строгому соответствию поисковой фразы), также они игнорируются при построении инвертированного индекса. Считается, что каждое из общих стоп-слов есть почти во всех документах коллекции.
Зависимые стоп-слова зависят от поисковой фразы. Идея заключается в том, чтобы по-разному учитывать отсутствие просто слов из запроса и зависимых стоп-слов из запроса в найденном документе.
Например, при поиске по запросу Пушкин Александр Сергеевич, есть смысл отобразить все документы содержащие:
Но вряд ли есть смысл отображать документы, содержащие только:
То есть в данном запросе шумовыми словами являются Александр и Сергеевич.
Зависимые стоп-слова отличаются тем, что в поисковом запросе их следует учитывать только при наличии в искомом документе значимых ключевых слов.
Ханс Петер Лун , один из пионеров в области поиска информации , придумал эту фразу и использовал концепцию. Фраза «стоп-слово», которой нет в презентации Луна 1959 года, и связанные с ней термины «стоп-лист» и «стоплист» появляются в литературе вскоре после этого.
При создании некоторых согласований использовалась предшествующая концепция . Например, первое согласование на иврите, Me'ir nativ, содержало одностраничный список неиндексированных слов с несущественными предлогами и союзами, которые похожи на современные стоп-слова.
Любая группа слов может быть выбрана в качестве стоп-слов для данной цели. Для некоторых поисковых систем , они являются одними из наиболее распространенных, короткие функциональные слова , такие как , является , на , который и на . В этом случае стоп-слова могут вызвать проблемы при поиске фраз, содержащих их, особенно в таких именах, как « Кто », « Тот » или « Возьми это ». Другие поисковые системы удаляют из запроса некоторые из наиболее распространенных слов, включая лексические слова , такие как «хочу», для повышения производительности.
Ханс Петер Лун , один из пионеров в области поиска информации , придумал эту фразу и использовал концепцию. Об этом говорит сайт https://intellect.icu . Фраза «стоп-слово», которой нет в презентации Луна 1959 года, и связанные с ней термины «стоп-лист» и «стоп-лист» появляются в литературе вскоре после этого.
При создании некоторых согласований использовалась предшествующая концепция . Например, первое согласование на иврите, Me'ir nativ, содержало одностраничный список неиндексированных слов с несущественными предлогами и союзами, которые похожи на современные стоп-слова.
В терминологии SEO стоп-слова - это наиболее распространенные слова, которые избегают большинство поисковых систем в целях экономии места и времени при обработке больших данных во время сканирования или индексации . Это помогает поисковым системам экономить место в своих базах данных.
этом, этот, эти, со, типа, это, их, каким, какая, какие, имеет, есть, быть, те, такие, таким, такая, так, то, в, без, ' .
как, до, из, к, на, является, по, о, от, перед, при, через, или, он, я, ты, б,
'ты, ты, ты, ты, ты, с, у, и, нет, за, над, для, об, под, про, лишь, том, оно, они, тем, если
a, an, and, are, as, at, be, but, by, for, if, in, into, is, it, no, not, of, on, or, such, that, the, their, then, there, these, they, this, to, was, will,with
Чтобы определить наименее важное слово для значения предложения и присвоить некоторое число каждому слову на основе его важности в предложении использую рзличные методики.
Под "важностью" понимают то, что если бы вы удалили это слово из предложения, оно бы имело мало эффекта для значения (низкая важность) или большой эффект для значения (высокая важность).
Примеэтом целосообразо использовать POS теггер. Она позволяет помечать предложения на их части речи (существительные, глаголы, прилагательные и т. д.) - POS Tag NLTK (http://www.nltk.org/book/ch05.html) . Затем вы можете написать свои собственные правила, чтобы извлечь только те части речи, которые вас интересуют. В лингвистике корпуса тегирование части речи ( POS-тегирование или PoS-тегирование или POST ), также называемое грамматическим тегированием или устранением неоднозначности категории слов , представляет собой процесс разметки слова в тексте (корпусе) как соответствующего определенной части. речи, основанной как на ее определении, так и на ее контексте, т. е. ее связи со смежными и связанными словами во фразе, предложении или абзаце. Упрощенная форма этого обычно преподается детям школьного возраста при распознавании слов как существительных, глаголов, прилагательных, наречий и т. Д.
Удаление стоп- слов-это еще один вариант
Извлечение ключевых слов можно выпольнить разными способами -
разделение
скрепления
распознавание именованных сущностей
Построение CFGs и разбор деревьев
Добыча Отношении
Слова-паразиты появляются из обычных слов в тексте из-за бессмысленного, частого и неуместного употребления.
Как правило, паразитами становятся слова с ослабленной смысловой нагрузкой. А именно: «Типа», «Как бы», «Это самое»,«Видите ли… «Значит», «Собственно», «Вот», «Понимаешь», э-э-э, «Как говорится», «Короче», «Прикинь», «Допустим», «Стало быть», «Ну»… мэ-э-э, Ну, как вам сказать…»,
Если слова используются по назначению, то они являются полезными и необходимыми. Много примеров «правильного» употребления слов можно встретить в художественной литературе, научно-популярных статьях, где слова несут смысловую нагрузку (передают эмоции, чувства, отражают особенность, отличительные черты описываемых объектов и явлений). Сравните:
Слова-паразиты чаще всего играют роль вводных слов, их можно опустить без потери смысла
Примеры слов, которые относят к словам-паразитам:
Иногда в тексте вместо слов паразитов используется их замена на «красноречивый» вариант, однако они тоже являтся словами с пониженой смвсловой нагрузкой ниже приведены примеры замен.
Прикинь — представь себе.
Ничего себе! Да ладно! — Ты не поверишь! Удивительно! Невероятно!
Таким образом — это означает, что...
Прикол — очень классно, хорошо придумано.
Не вопрос, без проблем — меня не затруднит.
Короче — в двух словах; если кратко, то...
На фиг! на хрен! — не нужно, нет необходимости в этом, обойдемся без этого;
На фиг? На хрена? — зачем? почему?
Типа того — очень похоже, согласен.
В принципе — согласен, за исключением..., считаю верным, но...
Следует опускать без замены слова и выражения: а-а-а, э-э-э, блин, ну, вот, как его, это самое, ешкин кот, ну это.
Исследование, описанное в статье про стоп-слова, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое стоп-слова, шумовые слова, слова паразиты, слова с ослабленной смысловой нагрузкой и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Обработка естественного языка
Комментарии
Оставить комментарий
Обработка естественного языка
Термины: Обработка естественного языка