Вам бонус- начислено 1 монета за дневную активность. Сейчас у вас 1 монета

Стоп-слова, (Шумовые слова) применяемые в поиске, слова с минимальным значением и важностью кратко

Лекция



Привет, Вы узнаете о том , что такое стоп-слова, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое стоп-слова, шумовые слова, слова паразиты, слова с ослабленной смысловой нагрузкой , настоятельно рекомендую прочитать все из категории Обработка естественного языка.

стоп-слова , или шумовые слова , — в теории поиска информации по ключевым словам эти слова имею наименьшее значение и важность.

В противоположность- ключевые слова имеют наибольшее смысловое значение и вес.

В вычислении , стоп - слова есть слова , которые отфильтрованы до или после обработки естественного языка данных (текст). Хотя «стоп-слова» обычно относятся к наиболее распространенным словам в языке, не существует единого универсального списка стоп-слов, используемых всеми инструментами обработки естественного языка , и, действительно, не все инструменты даже используют такой список. Некоторые инструменты специально избегают удаления этих стоп-слов для поддержки фразового поиска .

Виды стоп слов

Стоп-слова могут делиться на общие и зависимые.

К общим можно отнести артикли предлоги, суффиксы, причастия, междометия, цифры, частицы и т. п. Общие шумовые слова всегда исключаются из поискового запроса (за исключением поиска по строгому соответствию поисковой фразы), также они игнорируются при построении инвертированного индекса. Считается, что каждое из общих стоп-слов есть почти во всех документах коллекции.

Зависимые стоп-слова зависят от поисковой фразы. Идея заключается в том, чтобы по-разному учитывать отсутствие просто слов из запроса и зависимых стоп-слов из запроса в найденном документе.

Например, при поиске по запросу Пушкин Александр Сергеевич, есть смысл отобразить все документы содержащие:

  • Пушкин, Александр, Сергеевич
  • Пушкин, Александр
  • Пушкин, Сергеевич
  • Пушкин

Но вряд ли есть смысл отображать документы, содержащие только:

  • Александр, Сергеевич
  • Александр
  • Сергеевич

То есть в данном запросе шумовыми словами являются Александр и Сергеевич.

Зависимые стоп-слова отличаются тем, что в поисковом запросе их следует учитывать только при наличии в искомом документе значимых ключевых слов.

Ханс Петер Лун , один из пионеров в области поиска информации , придумал эту фразу и использовал концепцию. Фраза «стоп-слово», которой нет в презентации Луна 1959 года, и связанные с ней термины «стоп-лист» и «стоплист» появляются в литературе вскоре после этого.

При создании некоторых согласований использовалась предшествующая концепция . Например, первое согласование на иврите, Me'ir nativ, содержало одностраничный список неиндексированных слов с несущественными предлогами и союзами, которые похожи на современные стоп-слова.

Любая группа слов может быть выбрана в качестве стоп-слов для данной цели. Для некоторых поисковых систем , они являются одними из наиболее распространенных, короткие функциональные слова , такие как , является , на , который и на . В этом случае стоп-слова могут вызвать проблемы при поиске фраз, содержащих их, особенно в таких именах, как « Кто », « Тот » или « Возьми это ». Другие поисковые системы удаляют из запроса некоторые из наиболее распространенных слов, включая лексические слова , такие как «хочу», для повышения производительности.

Ханс Петер Лун , один из пионеров в области поиска информации , придумал эту фразу и использовал концепцию. Об этом говорит сайт https://intellect.icu . Фраза «стоп-слово», которой нет в презентации Луна 1959 года, и связанные с ней термины «стоп-лист» и «стоп-лист» появляются в литературе вскоре после этого.

При создании некоторых согласований использовалась предшествующая концепция . Например, первое согласование на иврите, Me'ir nativ, содержало одностраничный список неиндексированных слов с несущественными предлогами и союзами, которые похожи на современные стоп-слова.

В терминологии SEO стоп-слова - это наиболее распространенные слова, которые избегают большинство поисковых систем в целях экономии места и времени при обработке больших данных во время сканирования или индексации . Это помогает поисковым системам экономить место в своих базах данных.

Примеры в русском и английском стоп слов

этом, этот, эти, со, типа, это, их, каким, какая, какие, имеет, есть, быть, те, такие, таким, такая, так, то, в, без, ' .
как, до, из, к, на, является, по, о, от, перед, при, через, или, он, я, ты, б,
'ты, ты, ты, ты, ты, с, у, и, нет, за, над, для, об, под, про, лишь, том, оно, они, тем, если

a, an, and, are, as, at, be, but, by, for, if, in, into, is, it, no, not, of, on, or, such, that, the, their, then, there, these, they, this, to, was, will,with

Определение наименее важных (стоп-слов)и наиболее важных слов в предложении

Чтобы определить наименее важное слово для значения предложения и присвоить некоторое число каждому слову на основе его важности в предложении использую рзличные методики.

Под "важностью" понимают то, что если бы вы удалили это слово из предложения, оно бы имело мало эффекта для значения (низкая важность) или большой эффект для значения (высокая важность).

Примеэтом целосообразо использовать POS теггер. Она позволяет помечать предложения на их части речи (существительные, глаголы, прилагательные и т. д.) - POS Tag NLTK (http://www.nltk.org/book/ch05.html) . Затем вы можете написать свои собственные правила, чтобы извлечь только те части речи, которые вас интересуют. В лингвистике корпуса тегирование части речи ( POS-тегирование или PoS-тегирование или POST ), также называемое грамматическим тегированием или устранением неоднозначности категории слов , представляет собой процесс разметки слова в тексте (корпусе) как соответствующего определенной части. речи, основанной как на ее определении, так и на ее контексте, т. е. ее связи со смежными и связанными словами во фразе, предложении или абзаце. Упрощенная форма этого обычно преподается детям школьного возраста при распознавании слов как существительных, глаголов, прилагательных, наречий и т. Д.

Стоп-слова, (Шумовые слова) применяемые в  поиске, слова с минимальным значением и важностью

Удаление стоп- слов-это еще один вариант

Извлечение ключевых слов можно выпольнить разными способами -

  1. разделение

  2. скрепления

  3. распознавание именованных сущностей

  4. Построение CFGs и разбор деревьев

  5. Добыча Отношении

слова с ослабленной смысловой нагрузкой и слова паразиты

Слова-паразиты появляются из обычных слов в тексте из-за бессмысленного, частого и неуместного употребления.

Как правило, паразитами становятся слова с ослабленной смысловой нагрузкой. А именно: «Типа», «Как бы», «Это самое»,«Видите ли… «Значит», «Собственно», «Вот», «Понимаешь», э-э-э, «Как говорится», «Короче», «Прикинь», «Допустим», «Стало быть», «Ну»… мэ-э-э, Ну, как вам сказать…»,

Если слова используются по назначению, то они являются полезными и необходимыми. Много примеров «правильного» употребления слов можно встретить в художественной литературе, научно-популярных статьях, где слова несут смысловую нагрузку (передают эмоции, чувства, отражают особенность, отличительные черты описываемых объектов и явлений). Сравните:

  • Я, короче, пойду. — Сделай нитку короче.
  • Мы пришли, так сказать, с подарком. — Можно и так сказать.
  • Прикинь, я постригся! — Прикинь в уме. Сколько получится?

Слова-паразиты чаще всего играют роль вводных слов, их можно опустить без потери смысла

Примеры

Примеры слов, которые относят к словам-паразитам:

  1. как бы
  2. собственно говоря
  3. таким образом
  4. буквально
  5. прямо
  6. как говорится
  7. так далее
  8. скажем
  9. ведь
  10. как его
  11. в натуре
  12. так вот
  13. короче
  14. как сказать
  15. видишь
  16. слышишь
  17. типа
  18. на самом деле
  19. вообще
  20. в общем-то
  21. в общем
  22. в некотором роде
  23. на фиг
  24. на хрен
  25. в принципе
  26. итак
  27. типа того
  28. только
  29. вот
  30. в самом деле
  31. да
  32. нет
  33. все такое
  34. в целом
  35. то есть
  36. это
  37. это самое
  38. ешкин кот
  39. ну
  40. ну вот
  41. ну это
  42. прикинь
  43. прикол
  44. значит
  45. знаешь
  46. так сказать
  47. понимаешь
  48. допустим
  49. слушай
  50. например
  51. просто
  52. конкретно
  53. да ладно
  54. блин
  55. походу
  56. а-а-а
  57. э-э-э
  58. не вопрос
  59. без проблем
  60. практически
  61. фактически
  62. как-то так
  63. ничего себе

Эквиваленты слов-паразитов

Иногда в тексте вместо слов паразитов используется их замена на «красноречивый» вариант, однако они тоже являтся словами с пониженой смвсловой нагрузкой ниже приведены примеры замен.

Прикинь — представь себе.
Ничего себе! Да ладно! — Ты не поверишь! Удивительно! Невероятно!
Таким образом — это означает, что...
Прикол — очень классно, хорошо придумано.
Не вопрос, без проблем — меня не затруднит.
Короче — в двух словах; если кратко, то...
На фиг! на хрен! — не нужно, нет необходимости в этом, обойдемся без этого;
На фиг? На хрена? — зачем? почему?
Типа того — очень похоже, согласен.
В принципе — согласен, за исключением..., считаю верным, но...

Следует опускать без замены слова и выражения: а-а-а, э-э-э, блин, ну, вот, как его, это самое, ешкин кот, ну это.

Вау!! 😲 Ты еще не читал? Это зря!

Исследование, описанное в статье про стоп-слова, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое стоп-слова, шумовые слова, слова паразиты, слова с ослабленной смысловой нагрузкой и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Обработка естественного языка

создано: 2020-10-10
обновлено: 2024-11-14
8



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Поделиться:

Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей

Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Обработка естественного языка

Термины: Обработка естественного языка