Другие поисковые системы


YaCy — Википедия

Материал из Википедии — свободной энциклопедии

YaCy (от англ. Yet another Cyberspace, Ещё одно Киберпространство; созвучно с англ. Ya see) — свободно распространяемая децентрализованная поисковая система, построенная по принципу одноранговой сети (P2P). Есть версии для Windows, Linux, MacOSX. Основной программный модуль, написанный на Java, функционирует на нескольких тысячах компьютеров (по состоянию на 2011 год) участников сети YaCy. Каждый участник проекта независимо исследует Интернет, анализируя и индексируя найденные страницы и складывает результаты индексирования в общую базу данных (так называемый индекс), который совместно используется всеми пользователями YaCy по принципу P2P.

В отличие от частично распределённых поисковых систем, сеть YaCy характеризуется децентрализованной архитектурой. Все узлы эквивалентны и отсутствует центральный сервер. Программа может работать в режиме поискового робота или в качестве локального прокси-сервера, индексируя страницы, посещаемые пользователем (при этом игнорируются страницы с признаками персональных данных — cookies и т. п.).

Доступ к функциям поиска обеспечивается за счёт локально запущенного веб-сервера, который генерирует поисковую страницу с полем для ввода поисковых запросов и возвращает результаты поиска в том же формате, что и другие популярные поисковые системы.

Программа распространяется под лицензией GPL. Проект поддерживает европейское отделение фонда свободного программного обеспечения (FSFE).[1]

Проект YaCy был основан Михаэлем Кристеном (нем. Michael Christen) в 2003 году.

Преимущества[править | править код]

  • Совместный поиск может быть осуществлён с YaCy практически всегда: всегда есть часть сети, которая будет доступна.
  • Интернет-пользователи поисковика YaCy независимы от компаний, их рейтинга (который надо заработать) и их цензуры. Рейтинг страниц рассчитывается на ищущем узле.[источник не указан 2094 дня]
  • Программное обеспечение с открытым исходным кодом, распространяется по лицензии GNU GPL и является бесплатным.
  • При использовании прокси‐сервера клиента он может просканировать страницы из глубокой паутины или неиндексированных сетей общего пользования (таких, как I2P), которые не могут быть проиндексированными обычными поисковыми роботами, такими как в Google, Yahoo или Bing.
  • YaCy не обязательно связан с участием в общественном YaCy-кластере и может, таким образом, быть использованным в качестве поисковой системы в частных сетях (таких, как внутренняя сеть компании) или в частных поисковых сервисах (и индексах) определённой группы страниц.
  • Чем больше узлов находится в сети, тем меньше данных хранится на каждом узле относительно размера индекса, и тем меньше влияние на сеть изменения количества узлов.

Недостатки[править | править код]

  • Спамеры, теоретически, могут запускать свои узлы, возвращающие спам в качестве результата. Поэтому клиент имеет функцию проверки страниц на наличие искомого текста.[2]
  • Из‐за того, что YaCy необходимо связаться с другими узлами для запроса и из‐за упомянутой выше (необязательной) проверки достоверности результатов поиск занимает больше времени, чем в традиционных поисковых системах.[2]
  • Главный клиент не ищет различные формы слов.
  • Протокол YaCy организован с использованием индивидуальных HTTP-запросов, что влечёт за собой бо́льшие задержки, чем при использовании UDP или TCP с постоянным подключением.
  • Главный клиент написан на Java и в существующей реализации работает медленно. С ростом объёма локального индекса значительно растёт потребление памяти и снижается скорость работы. Проверка локальной БД объёмом ~20 Гб может занять несколько секунд, до того, как запрос будет отправлен другим пирам.
  • В общественной сети «freeworld» для поиска по Всемирной паутине в настоящее время представлено относительно мало «активных» «старших» узлов (хранящих накопленный поисковый индекс и отвечающих на поисковые запросы от других узлов), и они могут выдать относительно немного результатов по сравнению с крупными поисковыми машинами. На один узел приходится до нескольких десятков миллионов записей, поэтому их полное перемещение между узлами занимает значительное время, и резкое выключение или добавление значительного количества узлов может временно ухудшить качество сети для некоторых поисковых запросов, как это произошло после выпуска версии 1.0 в ноябре 2011 года, когда количество участников быстро увеличилось примерно до 4000[2] или 1000[3]. В начале марта 2012 года «активными» были около 1/6 одновременно работавших узлов.

Ядро поиска отличается от других поисковых систем — это не центральный сайт, а компьютерная программа, которая работает в различных операционных системах. Поиск ведётся на локальном веб-сайте, который работает с помощью установленной программы. Отображение результатов обычно происходит в виде веб-страницы.

В сочетании с дополнительными P2P-системами используется прокси, который автоматически индексирует посещённые страницы. Индексирование не производится в тех случаях, когда данные передаются через GET или POST, или же используются куки (cookies) или HTTP-аутентификации (например, страницы входящие в определённую запароленную зону).[4] Тем самым гарантируется, что действительно индексируются только доступные для общественности данные.

  • YaCy обеспечивает всех пользователей прокси-функцией, которая позволяет также подключаться к другим узлам по адресу ИМЯУЗЛА.yacy или ИМЯХЭША.yacyh. www.ИМЯУЗЛА.yacy может быть главной страницей пользователя, под share.ИМЯУЗЛА.yacy находится файлообменник, а ИМЯУЗЛА.yacy это стандартный интерфейс доступа. Другие поддомены могут быть специально созданы путём создания папки с именем поддомена. Динамический DNS не поддерживается.
  • Кроме .yacy-домена, YaCy предоставляет возможность создавать домашнюю страницу и папки, которые могут быть связаны с текущим IP или адресом динамического DNS и доступны для не YaCy пользователей.
  • YaCy имеет встроенную функцию передачи сообщений с помощью которой можно отправлять текстовые сообщения (с форматированием вики), и, в зависимости от настройки приёмника, также отправлять файлы.
  • YaCy имеет встроенные вики и блог.
  • Есть управление закладками, которые могут быть общедоступными и личными.
  • Есть возможность внесения отдельных областей в чёрные списки.
  • Есть OpenSearch-интерфейс. Каждый узел обеспечивает доступность его по адресу http://<адрес-узла>:<порт-узла>/opensearchdescription.xml, например https://web.archive.org/web/20120602233757/http://sciencenet.fzk.de:8080/opensearchdescription.xml . Чтобы добавить вашу персональную поисковую систему YaCy в список поисковых систем Firefoxa нужно открыть этот XML файл в браузере и сохранить его в папку «searchplugins», а затем перезапустить Firefox.

Программа основана на веб-сервере, который также является кэширующим-прокси. Пользователь веб-сервера может получить доступ к оболочке поиска и управления своим собственным узлом. Прокси имеет общий код со сканером, а это значит, что все посещённые через него страницы, которые не являются личными, по умолчанию автоматически записываются в индекс. Кроме того, YaCy предоставляет собственный домен в YaCy-сети, который доступен через прокси-сервер. Для поиска в YaCy интегрированы Solr и Lucene (для версии 1.6 это версии 4.3)

Распределённый индекс[править | править код]

В отличие от файлообменных сервисов результаты P2P-поиска должны быть доступны немедленно. Чтобы достигнуть этого YaCy использует распределённую хеш-таблицу (DHT). Это означает, что все распознанные программой URL-адреса и слова отправляются к узлам, которые подходят для хранения соответствующих контрольных сумм слов, узлов или ссылок. При поиске всё работает наоборот: поиск происходит только по узлам, подходящим для хранения хешей URL-адреса для этого слова.

Таким образом, для получения результатов задействуется только часть узлов.

Типы узлов[править | править код]

Сеть YaCy состоит из четырёх различных типов узлов:

Новичок
Эти узлы не могут быть найдены, потому что новичок не имеет связи с сетью. Таким образом, вы видите только себя, если узел новичок.
Младший
Узел находится за файрволом. Другие относят его к младшим или потенциальным узлам,[5] они видят только последний его запрос и у них нет способа определить, находится ли он до сих пор в сети.
Старший(Senior)
На старший можно попасть снаружи и он является полноправным членом сети YaCy. В статистике сети работающие в данный момент старшие узлы называются активными, неработающие — пассивными.[5]
Главный
Старший, который выгружает список сидов, используемый для начального соединения с другими узлами.

Протокол[править | править код]

Протокол YaCy состоит из текстовых сервлетов, которые обеспечивает встроенный веб-сервер по адресу /yacy/servletname.html. Другие узлы передают данные через GET-параметры и получают ответ в виде простого текста, точный формат отличается для сервлетов.

Начальная загрузка[править | править код]

При начальной загрузке узел пытается связаться с другими узлами YaCy-сети. Сначала ищутся списки узлов. Первый адрес в superseed.txt служит для загрузки устойчивых YaCy-узлов. seeds.txt является ссылками на другие узлы, таким образом устанавливается контакт с YaCy-сетью. В следующий раз, когда вы запустите YaCy, gebootstrapt создаётся из известных с предыдущего запуска узлов сети. В дальнейшем списки узлов будут необходимы только когда большинство старых ссылок будут не доступны.

  • M. Christen: Peer-to-Peer: Eigenes Suchportal mit Yacy einrichten in iX 02/2008, S. 102 ff.
  • M. Schlenker: Gemeinsam gegen Google in OpenSource, 01/2007, November 2006, S. 94-97
  • J. Bager: Europäische Gegenströmung in c’t, 2006/10, 2. Mai 2006, S.172-174 (Onlinetext)
  • R. Sietmann: Wider die Monokultur. P2P-Strategien gegen die Suchmaschinen-Monopolisierung. in c’t, 2005/16, 25. Juli 2005, S.52-53 (Onlinetext)
  • M. Schwarze: Jedermanns Suchmaschine in: HAZ (Artikel als PDF 107 kB)
  • Michael Christen: YaCy — Peer-to-Peer Web-Suchmaschine in Die Datenschleuder, #86, 2005, S.54-57 (gesamtes Heft als PDF 1,7 MB)

ru.wikipedia.org

Локальный поисковик — Википедия

Локальный поисковик Tracker

Локальный поисковик или персональный поиск — программное обеспечение для быстрого поиска информации в файлах пользователя. Другими словами, это поисковая система, которая выполняет поиск не в интернете, а на запоминающем устройстве, подключённом к персональному компьютеру пользователя.

Локальные поисковики могут искать информацию в электронной почте, в журнале посещённых страниц браузера и в клиентах мгновенных сообщений, в аудио- и видеофайлах, и просто в офисных и текстовых документах.

Содержание

  • 1 Реализации
  • 2 См. также
  • 3 Примечания
  • 4 Ссылки

Кроссплатформенные:

  • DocFetcher
  • Launchy
  • Recoll
  • Strigi
  • Tropes Zoom (англ.)
  • Xapian

Для Microsoft Windows:

  • Copernic Desktop Search
  • Everything
  • Google Desktop (поддержка окончена 14 сентября 2011)
  • Locate32
  • Windows Search
  • Архивариус 3000[1]
  • Персональный поиск Яндекса (поддержка приостановлена 12 июля 2007)

Для Mac OS X:

  • Spotlight

Для Linux и Unix:

  • Beagle
  • Google Desktop (поддержка окончена 14 сентября 2011)
  • Tracker
  • Локальный поиск — класс алгоритмов из области искусственного интеллекта.
  • Поисковый индекс
  1. ↑ Archivarius 3000 3.96: поиск документов на ПК | hwp.ru, HWP.ru - обзоры и тесты IT-новинок с 1998 года. Архивировано 21 июля 2018 года. Дата обращения 20 июля 2018.
  • Сравнение 4 локальных поисковиков
  • Linux Desktop Search Engines Compared / Linux.com 2009-12-01  (англ.)
  • The best Linux desktop search tools / TuxRadar, 2010-01-08 (англ.)
  • 6 of the best desktop search tools for Linux. Do desktop search tools spell the end of grep? / TechRadar, Jan 28, 2010 (англ.)
  • Сравнение. Настольный поиск: Beagle, Google Desktop, Tracker, Strigi, Recoll. "Linux Format" №01 (126/127) Январь 2010  (рус.)
Это заготовка статьи о программном обеспечении. Вы можете помочь проекту, дополнив её.
Локальные поисковики
Для Microsoft Windows
  • Copernic Desktop Search
  • Everything
  • Filehawk
  • Google Desktop
  • Google Quick Search Box
  • Locate32
  • Tropes Zoom
  • Windows Desktop Search
  • Yahoo Desktop Search
  • Архивариус 3000
  • Персональный поиск Яндекса
Для *nix
  • Beagle
  • GNOME Storage
  • Tracker
Для MacOS
  • Easyfind
  • Apple Spotlight
Кроссплатформенные
  • Docco
  • DocFetcher
  • Launchy
  • Strigi
  • Recoll

ru.wikipedia.org

Органический поиск — Википедия

Органический поиск (от англ. organic search), или органические результаты поиска — это часть страницы, которую выдают поисковики, с результатами работы поисковой машины. Результаты эти сформированы в соответствии с алгоритмом определения релевантности поисковому запросу.

Слово «органический» синонимично слову «естественный», смысл которого и отражен и в самом понятии «органического поиска». Это чистая поисковая выдача результатов поиска без рекламных объявлений.

Рекламные объявления, размещаемые на страницах с поисковыми выдачами, выглядят аналогично результатам поисковых запросов, но на фоне запрашиваемых пользователем результатов их все же можно отличить. Разницу можно заметить благодаря разным видам текста, фонов, ссылок. Стоит отметить, что с 2004 года появление таких рекламных объявлений во всех основных поисковых системах настолько похоже на подлинные результаты, что большинство пользователей просто не могут их различить.

Так как пользователи начали понимать, что на страницах с поисковой выдачей в начале появляются проплаченные рекламные объявления, то индустрия поисковой оптимизации (SERP) стала отделять рекламу от результатов органического поиска. Был создан специальный классификатор, способный отличать результаты без рекламы от самих рекламных объявлений.

Термин «органический поиск» был впервые использован в 2004 году интернет-теоретиком Джоном Килроем в его статье, посвященной контекстной рекламе. Благодаря этой статье такие термины как «органический поиск» и «платный поиск» стали очень популярными и в настоящее время их используют как поисковые системы, так и поисковая оптимизация и веб-аналитика.

Так как со временем пользователи начали понимать, что на страницах с поисковой выдачей в начале появляются проплаченные рекламные объявления, то индустрия поисковой оптимизации (SERP) стала отделять рекламу от результатов органического поиска. Был создан специальный классификатор, способный отличать результаты без рекламы от самих рекламных объявлений.

На данный момент основную часть поисковой выдачи составляют органические (или естественные) поисковые результаты. Это список документов, найденных и проиндексированных поисковой системой, на ранжирование и показ которых не влияет продаваемая поисковой системой реклама. Обычно он упорядочен по убыванию релевантности документов поисковому запросу согласно применяемым в поисковой системе алгоритмам ранжирования, но во многих системах предусмотрены также и другие виды сортировки, например, по дате документов.

В качестве документов обычно выступают веб-страницы, но многие системы способны также индексировать и выдавать ссылки на файлы в таких форматах, как .pdf, .doc, .ppt и т. д., страницы с Flash-анимацией (.swf). Некоторые системы внедрили так называемый универсальный поиск (англ. universal search) — наряду с обычными документами в поисковую выдачу могут замешиваться, например, результаты поиска по картинкам, видеороликам, новостям, картам. С ростом популярности структурированных данных (Structured data) все чаще в поисковой выдаче можно наблюдать «расширенные» сниппеты, которые занимают около 20-30 % от первой страницы Google.

Немаловажную роль в вопросе об органическом поиске занимает, так называемая, поисковая оптимизация. Целью поисковой оптимизации является выдача платных результатов за естественные. Благодаря тому, что поисковики не в состоянии полностью контролировать органическую поисковую выдачу, оптимизаторы успешно манипулируют результатами поиска. Из-за этого получается, что даже в результатах органического поиска может присутствовать небольшая доля рекламных объявлений. При этом большая часть экрана отводится под платные результаты.

Очень важно понимать саму суть органической выдачи для грамотной реализации рекламной кампании или при осуществлении поискового продвижения. Результаты органического поиска подлежат процессу изучения, анализа и их дальнейшей оценки. На основе полученных данных составляется план продвижения, определяется ориентировочный бюджет и прогнозируются результаты. Поисковой выдаче следует уделять много внимания, поскольку она является важным источником посетителей для любого проекта[1].

В 2012 году компания «Google» заявила о том, что влияние органического поиска на полезность рекламных объявлений является недооцененным. Проанализировав более 300 исследований, посвященных контекстной рекламе, специалистам удалось выяснить, что 81 % рекламных показов и 66 % кликов по размешенным объявлениям являются следствием отсутствия соответствующего органического результата на первой странице результатов поиска. Все рекламные клики в данных ситуациях являются «пошаговыми»[2].

Целью такой отрасли как поисковая индустрия является выдача платных результатов за естественные. На самом деле «органические» результаты сами по себе являются «платными». Эта работа специалистов-оптимизаторов, которые могут повысить место оптимизируемого сайта в списке результатов по конкретному поисковому запросу.

До недавнего времени компьютерный гигант «Google» позиционировал себя как компанию с самым лучшим органическим поиском в мире. Теперь же органическим результатам на страницах с поисковой выдачей отводится все меньше места. Так, например, было подсчитано, что с обычного 13-дюймового ноутбука пользователю будет доступно лишь 13 % естественных результатов без рекламных объявлений. Если человек использует поисковик со своего смартфона, то органическая выдача ему вообще не будет доступна, так как все место на экране телефона будет занято рекламными публикациями[3].

ru.wikipedia.org

4 специальных браузера для анонимного сёрфинга

Все популярные браузеры собирают информацию о пользователях. На основе поисковых запросов, посещённых страниц, прочитанных статей и просмотренных видео строится цифровое досье пользователя, включающее в себя личные данные, интересы и даже политические пристрастия.

Это делается для того, чтобы показывать релевантную рекламу, новости и другие полезные для конкретного пользователя вещи. Многие относятся к этому совершенно спокойно и даже считают благом. Однако есть и такие, кому не очень нравится, что кто-то собирает и хранит данные о их поведении и привычках. Именно им пригодится один из браузеров, специально созданных для анонимного сёрфинга в интернете.

1. Tor Browser

Операционные системы: Windows, Mac, Linux.

Трудно найти человека, интересующегося вопросами конфиденциальности в интернете, который бы не слышал о сети Tor. Это сеть маршрутизаторов и специальное программное обеспечение, которое предназначено для того, чтобы вас было невозможно идентифицировать во время сёрфинга в интернете.

Существует множество программ для использования сети Tor, но легче и безопаснее всего делать это с помощью браузера Tor Browser. Вам практически не понадобится ничего настраивать и устанавливать. Браузер можно запускать даже с флешки, он полностью настроен и готов к работе.

Скачать →

2. Epic Browser

Операционные системы: Windows, Mac.

Epic Browser не предлагает каких-то изощрённых технологий. Это одна из сборок Chromium со встроенным набором расширений и настроек, которые позволяют скрыться от слежки. Вы можете и сами настроить браузер подобным образом, но гораздо удобнее, когда всё установлено и настроено уже из коробки.

Скачать →

3. SRWare Iron

Операционные системы: Windows, Mac, Linux, Android.

Если вы используете Chrome, то интерфейс SRWare Iron покажется вам очень знакомым. Он основан на коде проекта Chromium, который послужил стартовой площадкой и для браузера от компании Google.

В SRWare Iron отлично работают все расширения для Chrome, поэтому вам не придётся отказываться от привычных инструментов. Основное отличие — отсутствие уникального идентификатора пользователя, который в Google используют для составления вашего цифрового досье. Если вы будете использовать SRWare Iron, вашу личность будет невозможно определить.

Скачать →

4. Comodo IceDragon

Операционные системы: Windows, Mac, Linux.

Comodo IceDragon — специальная версия Firefox. Она обладает такой же высокой скоростью загрузки страниц и низкими системными требованиями, что и родительский браузер, но вместе с тем она более защищена от угроз интернета.

Функция сканирования ссылок Siteinspector проверяет безопасность веб-страниц до их посещения, а встроенный сервис Secure DNS блокирует сайты, содержащие фишинг, вирусы и агрессивную рекламу. Специальные инструменты, встроенные специалистами компании Comodo, следят за сохранностью приватности и не допускают утечки конфиденциальных данных.

Скачать →

Читайте также 🧐

lifehacker.ru

Обсуждение:Поисковая система — Википедия

Не надо убирать поиск по крякам и варезу. Это также и образовательные ресурсы, и поиск по ресурсам безопасности. Это не только пиратсво. --CodeMonk 18:17, 23 июня 2006 (UTC)

Может тогда лучше назвать их соответственно? К тому же использование сленга в энциклопедии не совсем уместно. Остаюсь при своем мнении, предлагаю выставить этот вопрос на обсуждение других участников. Возвращаю назад только удаленные ссылки на поисковики по кодам программ.--Igrek 07:30, 26 июня 2006 (UTC)

Зачем вводить людей в заблуждение указав Mail.ru как "поисковая система"? Участник:MAK

Честно говоря, я не в курсе про Mail.RU. Уберите, если считаете нужным. И, пожалуйста, подписывайтесь после своих реплик (четыре тильды). --CodeMonk 21:05, 14 февраля 2006 (UTC)

Термин «поисковая система» может относиться также и к локальным системам поиска информации. На мой взгляд, следует отразить в названии статьи её принадлежность к Интернету («Интернет-поисковая система», «Поисковая служба» и т.п.). КрайновАЮ 13:06, 10 мая 2006 (UTC)

Локальный поиск не называют поисковой системой. --CodeMonk 19:33, 10 мая 2006 (UTC)

Я имею ввиду поиск не файлов, а информации, который используется в программе «Архивариус» или в специальных базах данных. Т.е. «поисковая система» - более короткое название информационно-поисковой системы. КрайновАЮ 08:03, 11 мая 2006 (UTC)

И всё-таки поиск внутри программ и СУБД тоже не называют поисковой системой. Но я сделал редиректы с предложенных Вами вариантов. --CodeMonk 03:49, 13 мая 2006 (UTC)

Обновлены данные, добавлен новый поисковик. Теперь Mail.ru стал самостоятельным поисковиком, а не поисковиком на основе яндекса. Так же Mail.ru запустил еще один свой поисковик - GoGo.Ru Mr 13 10:07, 13 июля 2007 (UTC)

Википедия не каталог ссылок[править код]

Более 2/3 статьи состоит из ссылок. Стоит убрать половину ссылок или больше, а оставшиеся перенести в отдельную статью (список). Roxis 09:11, 21 марта 2008 (UTC)

Процентное соотношение поиска...[править код]

91.90.15.57 16:33, 20 января 2011 (UTC)

 * Google — 84,65 %; * Yahoo! — 6,69 %; * Baidu — 3,39 %; * Bing — 3,29 %; * Ask — 0,56 %; * AOL — 0,42 %. 

Это все ложь, п...ж и провокация... т.е. автор хочет сказать, что из, допустим, 1 000 000 000 пользователей, этим (первый раз слышу), AOL, пользуюлся 4 200 000 человек и это минимум? А на земле около шести миллиародов людей (т.е. в 6 раз больше чем я написал), из них словян около 300 000 000, т.е. это те люди, из которых, вероятно, 30% ищут яндексом. Да у меня около 25% друзей яндексом ищут... и это только мои друзья...

а 100% американце ищут гуглом. и что против них твои друзья?тем более если ты откроешь глаза,то увидишь,что в статье написано,что у яндекса 1.7%. 93.153.162.168 18:04, 25 июля 2013 (UTC)

Можно ли использовать данные проекта SeoRate в качестве ВП:АИ для рейтинга ПС в России? Sikhonina 12:38, 16 ноября 2014 (UTC)

Предлагаю включить (интегрировать) в определение (преамбулу) следующую информацию:

  • "a search engine should at least allow users to compose their own search queries rather than simply follow pre-specified search paths or hierarchy as in the case of certain catalogs". Источник: "Chu H., Rosenthal M. Search engines for the World Wide Web: A comparative study and evaluation methodology //PROCEEDINGS OF THE ANNUAL MEETING-AMERICAN SOCIETY FOR INFORMATION SCIENCE. – 1996. – Т. 33. – С. 127-135." [1], стр. 189
  • " The search engine then retrieves an ordered set of documents that best match the user’s query.", стр. 120 "Finkelstein L. et al. Placing search in context: The concept revisited //Proceedings of the 10th international conference on World Wide Web. – ACM, 2001. – С. 406-414." [2]
  • определение поисковика через определение трёх его частей, стр. 290 (вторая страница в документе), источник: "Risvik K. M., Michelsen R. Search engines and web dynamics //Computer Networks. – 2002. – Т. 39. – №. 3. – С. 289-302." [3]

Обязательно хотелось бы увидеть в статье в Википедии материал из работы "Tarakeswar M. K., Kavitha M. D. Search Engines: A Study //Journal of Computer Applications (JCA). – Т. 4. – №. 1. – С. 2011." [4]:

  • два определение для "search engine",
  • четыре вида поисковиков. -- Andrew Krizhanovsky 05:57, 16 ноября 2014 (UTC)
Андрей Анатольевич, определение подготовила здесь. Насчёт составных частей, в англ. статье есть отдельный раздел, я думала сделать в своей так же. Sikhonina 18:56, 16 ноября 2014 (UTC)
  • @Ира, всё чудно, только не работает первое примечание (Chu & Rosenthal, 1996). Буду признателен, если при ссылке на статьи, вы будете указывать номер той страницы, на которую ссылаетесь в каждой конкретной ссылке (в шаблоне {{sfn}}).
  • Материал (два определения) из (Tarakeswar, Kavitha) Вы пока не включили в текст, вроде бы…
  • Ещё два вопроса. К правке diff вы пишите комментарий "правки, основываясь на Risvik". Но мне непонятно, как я (или любой другой читатель) смогу проверить достоверность информации, если в добавленном тексте отсутствуют ссылки на Рисвика?
  • По поводу "пузыря фильтров" (правка) - мы договаривались, что все ссылки на источники сохраняются, а Вы их утратили при переносе информации. -- Andrew Krizhanovsky 20:54, 16 ноября 2014 (UTC)
Все ссылки добавила. Вопрос насчёт определения: виды ПС по Tarakeswar, Kavitha тоже вставлять в определение? Sikhonina 20:12, 18 ноября 2014 (UTC)
Андрей Анатольевич, определение можно попробовать вставить в основную статью? Sikhonina 08:42, 19 ноября 2014 (UTC)

Андрей Анатольевич, сделала правки в части Поисковые системы, основанные на вере. Жду замечаний или правок, если они есть. Sikhonina 19:01, 18 ноября 2014 (UTC)

Спасибо, @Ира. Ещё немного текст подправил. -- Andrew Krizhanovsky 04:26, 19 ноября 2014 (UTC)
Спасибо большое, Андрей Анатольевич. Можно добавить эту часть в статью? Sikhonina 08:42, 19 ноября 2014 (UTC)
  • @Ира, можете добавлять эту часть в статью. И определение добавляйте. Поскольку вы уже опытный участник, у вас больше ста правок, то далее переносите и добавляйте текст в статью самостоятельно, по своему усмотрению. Другие редакторы вам подскажут, если что-то можно будет улучшить и поправить. Так будет оптимальнее. -- Andrew Krizhanovsky 09:13, 19 ноября 2014 (UTC)
Finding information on the World Wide Web was a difficult and frustrating task, but became much more usable with breakthroughs in search engine technology in the late 1990s. Поиск информации во всемирной паутине был трудной и не самой приятной задачей, но с прорывом в технологии поисковых систем в конце 1990-х осуществлять поиск стало намного удобней.

Поскольку текст изображений переведён с английского, могут быть неточности. Есть они есть, прошу сообщить, постараюсь исправить. Sikhonina 00:37, 23 ноября 2014 (UTC)

  • @Ира, укажите, пожалуйста, в графе "автор", что вы - переводчик, а настоящий автор - это "Concord hioz", см. commons:File:Internet Key Layers.png. И ещё, укажите в описании рисунка Конкорда Хиоза в параметре "другие версии" - свою работу, а в своём рисунке в этом же поле - рисунок Конкорда.
  • Примеры заполнения параметра «other_versions» («Другие версии») смотрите в работах студентов:
  • Небольшое замечание по оформлению перевода рисунка: выделить жирным верхнюю надпись (и шрифт чуть больше). Теперь этот рисунок можно было бы вставить ещё в шесть статей рувики про интернет, по аналогии с английским рисунком... Good job :) -- Andrew Krizhanovsky 13:52, 23 ноября 2014 (UTC)
Замечания вроде исправила. Не могу найти, как добавлять статьи в "Глобальное использование файла". Если ли справка где-то по этому вопросу?Sikhonina 18:23, 23 ноября 2014 (UTC)
"Глобальное использование файла" - этот список строится автоматически. -- Andrew Krizhanovsky 05:22, 24 ноября 2014 (UTC)
Hello. The image has just been revised. Thank you.
(GoogleTranslate: Привет.Изображение только были пересмотрены. Спасибо.)--Concord hioz 03:43, 24 ноября 2014 (UTC)
Thank you Concord hioz!
@Ира, Конкорд обновил изображение, думаю — благодаря вашей работе, и у нас есть новая работа для вас — нужно обновить русский перевод. По поводу перевода «Content» даже не знаю, что лучше — «Содержание» или «Контент». Как вы думаете? — Andrew Krizhanovsky 05:21, 24 ноября 2014 (UTC)
Обновила и я. Выбрала "контент", говоря об интернете чаще используется это выражение. Добавила изображение в некоторые статьи. Не во все аналоги английских статей, указанных у Конкорда, можно вставить это исследование. Sikhonina 19:19, 24 ноября 2014 (UTC)
@Ира, на рисунке сереньким цветом шрифтом поменьше — название первой и третьей колонки (вверху). Как переведёте? -- Andrew Krizhanovsky 21:50, 24 ноября 2014 (UTC)
Hello again. I just made a new update to the chart, now listing Apple's HyperCard as a key milestone for hyperlinked content. You might want to make a concurrent change to the Russian language version. I wish that I was competent enough with Russian to make the change myself. Спасибо.--Concord hioz (обс) 02:01, 25 августа 2016 (UTC)
Высокоуровневая архитектура стандартного краулера
  • @Ира, на рисунке блок "Текст и метаданные" прилип к стрелке, стоит его подвинуть правее. Если не позволяет размер картинки, то можно разбить слово "метаданные" на "мета-" и перенести "данные" на следующую строку.
  • В этом же блоке опечатка: "метаднные" - пропущена буква "а". -- Andrew Krizhanovsky 13:31, 29 ноября 2014 (UTC)
    • Андрей Анатольевич, исправила, спасибо, что заметили! Насчёт 2й картинки: может быть "первая и вторая волна" или "первые шаги и взято за основу"? Sikhonina 20:34, 29 ноября 2014 (UTC)
  • @Ира, я за варианты: "первые шаги" и "развитие". -- Andrew Krizhanovsky 13:16, 1 декабря 2014 (UTC)
  • @Ира, думаю, что не случайно Concord hioz сделал серого цвета столбец "первые шаги". Типа - они первые и не такие значительные как этап "развитие". Хотелось бы и в иллюстрации на русском это увидеть. -- Andrew Krizhanovsky 05:50, 6 декабря 2014 (UTC)
  • Спасибо, что обратили моё внимание на это. Исправила. Sikhonina 21:05, 11 декабря 2014 (UTC)

@Ира, в преамбуле сейчас не представлены (кратко) основные моменты разделов 1, 4, 6, 7, 8. По предложению (а лучше по абзацу), кратко обобщающему данные каждого из разделов, было бы логично добавить в преамбулу. -- Andrew Krizhanovsky 20:33, 5 декабря 2014 (UTC)

Изменила. Жду комментариев. Sikhonina 21:04, 5 декабря 2014 (UTC)
  • Спасибо, Ира. Преамбула стала адекватнее статье.
  • @Ира, у вас есть варианты — дать мне ещё неделю, чтобы я сам ещё раз перечитал внимательно статью и сравнил с английским оригиналом или уже сейчас можете выносить статью на внешнее рецензирование (я так понял по вашим правкам, что вы уже учли замечания своего личного рецензента). Что будете делать? -- Andrew Krizhanovsky 05:47, 6 декабря 2014 (UTC)
Андрей Анатольевич, давайте Вы сначала посмотрите. Наверное, тут много чего надо править. А потом уже на внешнее рецензирование. Sikhonina 23:07, 7 декабря 2014 (UTC)

@Сергей, добрый вечер. В эссе Википедия:Преамбула говорится о том, что преамбула (реферат статьи) пишется по тексту статьи, это краткий пересказ. И странно, если в кратком пересказе будет то, чего нет в статье :)

По поводу новых типов поисковых запросов, не представленных в статье... Я предлагаю начать писать прямо с этих запросов, а точнее с почти пустой статьи Поисковый запрос. И главное - это не забывать, что любые утверждения в тексте статей должны подтверждаться ссылками на ВП:АИ. -- Andrew Krizhanovsky 18:42, 13 сентября 2015 (UTC)

Подготовка к рецензированию[править код]

Андрей Анатольевич, заканчиваю работу по вашим замечаниям. Хотела уточнить, нужно ли в "См. так же" вставлять ссылки на статьи англ. википедии? Последний абзац, который был не переведён в части Поисковая система#Как работает поисковая система мне кажется тут не уместен. Может быть его в Поисковая система#Предвзятость поисковых систем ? Sikhonina 17:44, 16 декабря 2014 (UTC)

  • @Ира, в раздел "См. также" я бы предложил добавить русские аналоги тех статей из английского раздела "See also", у которых есть русские эквиваленты.
  • Последний абзац из раздела "How web search engines work", мне кажется, уместен в разделе Поисковая система#Как работает поисковая система, поскольку там говорится о специфике ранжирования результатов выдачи, с учётом проплаченных сайтов (купленных ключевых слов). -- Andrew Krizhanovsky 19:40, 16 декабря 2014 (UTC)
Здравствуйте! Статья о поисковых системах. Выставляю на рецензирование статью, дополненную переводом англоязычной статьи, в будущем планирую выдвинуть статью на статус ХС. Приму все замечания по стилю, содержанию, орфографии и пунктуации. Sikhonina 20:33, 16 декабря 2014 (UTC)
  • «Рынок поисковых систем» — что такое «доля рынка»? Доля текущей выручки, доля рыночной капитализации или вовсе нечто нерыночное, вроде числа запросов? Retired electrician 22:48, 16 декабря 2014 (UTC)
    • Да, именно число запросов. Считаете, нужно переформулировать? Sikhonina 11:35, 17 декабря 2014 (UTC)
  • Возможно, стоит огорошить читателя большими цифрами: сколько именно информации собрал в себя гугл, каковы особенности работы с такими объёмами информации, как эти ресурсы (и информация бд, и аппаратные средства) разделены по миру и т.п. Вот сколько и каких серверов тащит проекты фонда Wikimedia - известно, а как эта малютка соотносится с большим поисковиком? Retired electrician 22:56, 16 декабря 2014 (UTC)
    • Следует создать отдельный раздел? Sikhonina 11:35, 17 декабря 2014 (UTC)
      • Это зависит от доступности источников, по которым можно написать такой раздел или просто абзац. Желательно, конечно, чтоб источники были независимы от самих поисковиков (впрочем, кто же кроме гугля может знать, сколько у этого гугля серверов...). Retired electrician 12:11, 17 декабря 2014 (UTC)
        • Смогла найти немного информации. Оформила в черновике. Об этом идёт речь? Sikhonina 21:11, 22 декабря 2014 (UTC)
  • Какой смысл переводить из английской статьи, если ключевой раздел «Как работает поисковая система» в энвики помечен шаблоном ОРИСС и нехватка источников? — Saidaziz 04:14, 17 декабря 2014 (UTC)
    • У меня указаны источники: Risvik & Michelsen, Jawadekar, Waman S. Knowledge Management: Tools and Technology. Там информация по этой теме. Этого недостаточно? Всех тонкостей википедии не знаю. Sikhonina 11:35, 17 декабря 2014 (UTC)

Много рекламных ссылок[править код]

Много рекламных ссылок в том числе и опасных. Страница закрыта для редактирования, вероятно заинтересованными в распространении зловредного кода, пользователями. Vsselectiveenf (обс.) 14:47, 13 апреля 2018 (UTC)

@Vsselectiveenf: перечислите, пожалуйста, здесь, какие ссылки Вы считаете рекламными. Перечислите также, пожалуйста, опасные ссылки. Спасибо! А то иначе как-то голословно и бездоказательно получается. -- Andrew Krizhanovsky (обс.) 16:23, 13 апреля 2018 (UTC)
@AKA MBG: предпоследняя блокируется в Малваребайтс, как опасная, последняя точно СПАМ, ну уж вы то в этом разбираетесь ;) Vsselectiveenf (обс.) 22:03, 13 апреля 2018 (UTC)
  • @Vsselectiveenf: что значит "предпоследняя" и "последняя", десятая, двадцатая?! Вам затруднительно привести ссылку, чтобы ответить на мой вопрос?
  • Я не знаю, что такое "Малваребайтс". По-видимому, это жаргон и перевод какого-то названия на изначально английском. -- Andrew Krizhanovsky (обс.) 05:22, 14 апреля 2018 (UTC)

Почистил список ссылок. Удалил несколько. -- Andrew Krizhanovsky (обс.) 07:02, 14 апреля 2018 (UTC)

Выборочное применение правил[править код]

Перенёс текст со своей страницы обсуждения, поскольку текст имеет отношение к сути статьи. -- Andrew Krizhanovsky (обс.) 05:22, 14 апреля 2018 (UTC)

Был добавлен мной поисковик ТАТДиг в (Поисковая система) и впоследствии вами удален с пояснением "(отмена, ибо red link)". Считаю данное действие не приемлемым т.к. является выборочным применением правил а не общим. Прошу вернуть в список упоминание системы ТАТДиг. Vsselectiveenf (обс.) 14:35, 13 апреля 2018 (UTC)

@Vsselectiveenf: не вопрос, могу и вернуть ТАТДиг. Но только после того, как Вы приведёте ссылку на авторитетный источник (см. ВП:АИ), доказывающий значимость этой поисковой системы. Спасибо за понимание! -- Andrew Krizhanovsky (обс.) 16:25, 13 апреля 2018 (UTC)
@AKA MBG, Andrew Krizhanovsky: Вопрос не в "могу, не могу" т.к. Я не прошу об одолжении со стороны кого-бы то ни было. Если мы следуем определенным правилам, то применяем их ко всей странице в целом, а иначе это "выборочное применение против или за отдельные ресурсы". Не надо забывать цели Википедии. Vsselectiveenf (обс.) 20:48, 13 апреля 2018 (UTC)
  • Во-первых, подписывайте, пожалуйста, свои сообщения с помощью четырёх тильд ~~~~.
  • Во-вторых, пожалуйста, не нужно использовать шаблон {{ping}} на странице обсуждения участника, которому вы пишите сообщение. Это получается масло-масленое. Я и так получу отметку о вашем сообщении.
  • В-третьих, то, что один администратор защитил страницу "Поисковая система" с пометой "повторяющийся спам" для защиты от ваших правок (diff), другой администратор откатил ваши правки (diff), третий администратор заблокировал ваш первый логин (ссылка), всё это подсказывает мне, что если вы и следуете определённым правилам, то эти правила существенно отличаются от тех правил, которых придерживаются редакторы и администраторы.
  • Если следовать вашей логике, то можно сказать, что администраторы Википедии весьма выборочно (то есть плохо, как я вас понимаю) блокируют других редакторов. Не знаю, чем вам помочь. Я, кстати, не администратор, а обычный участник. -- Andrew Krizhanovsky (обс.) 19:45, 13 апреля 2018 (UTC)
  • Первые три замечания не заслуживают ответа, поэтому сразу к четвертому: Я ценю Вашу заботу о Википедия и её целях, и как Я понимаю единственный ресурс который заслужил ваше пристальное внимание был ТАТДиг. Можете пояснить вашу позицию по этому вопросу, как вы лично определили для себя что это СПАМ? И почему вы посчитали VADLO, Powerset и т.п. не СПАМом?Vsselectiveenf (обс.) 20:54, 13 апреля 2018 (UTC)
  • Добавлю что факт существования поисковой системы ТАТДиг может быть подтвержден ссылкой которую Я и пытался добавить, иных подтверждений в правилах Википедия не оговаривается. Vsselectiveenf (обс.) 21:10, 13 апреля 2018 (UTC)
  • Если вы не администратор и не друг администратора как вы собирались "вернуть" ТАТДиг, после установки защиты другим администратором? Vsselectiveenf (обс.) 21:10, 13 апреля 2018 (UTC)

Возвращаемся к первому вопросу (ВП:ПОКРУГУ). Приведите ссылку на авторитетный источник (см. ВП:АИ), доказывающий значимость поисковой системы ТАТДиг. -- Andrew Krizhanovsky (обс.) 05:22, 14 апреля 2018 (UTC)

ru.wikipedia.org

Поисковый индекс — Википедия

Поиско́вый и́ндекс — структура данных, которая содержит информацию о документах и используется в поисковых системах. Индекси́рование[⇨], совершаемое поисковой машиной, — процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, когнитивной психологии, математики, информатики и физики. Веб-индексированием называют процесс индексирования в контексте поисковых машин, разработанных, чтобы искать веб-страницы в Интернете.

Популярные поисковые машины сосредотачиваются на полнотекстовой индексации документов, написанных на естественных языках[1][⇨]. Мультимедийные документы, такие как видео и аудио[2] и графика[3][4], также могут участвовать в поиске.

Метапоисковые машины используют индексы других поисковых сервисов и не хранят локальный индекс, в то время как поисковые машины, основанные на кешированных страницах, долго хранят как индекс, так и текстовые корпусы. В отличие от полнотекстовых индексов, частично-текстовые сервисы ограничивают глубину индексации, чтобы уменьшить размер индекса. Большие сервисы, как правило, выполняют индексацию в заданном временно́м интервале из-за необходимого времени и затрат на обработку, в то время как поисковые машины, основанные на агентах, строят индекс в масштабе реального времени.

Цель использования индекса — повышение скорости поиска релевантных документов по поисковому запросу. Без индекса поисковая машина должна была бы сканировать каждый документ в корпусе, что потребовало бы большого количества времени и вычислительной мощности. Например, в то время, как индекс 10 000 документов может быть опрошен в пределах миллисекунд, последовательный просмотр каждого слова в 10 000 больших документов мог бы занять часы. Дополнительная память, выделяемая для хранения индекса, и увеличение времени, требуемое для обновления индекса, компенсируется уменьшением времени на поиск информации.

Факторы, влияющие на проектирование поисковых систем[править | править код]

При разработке поисковой системы необходимо учитывать следующие факторы:

Факторы слияния
Как данные входят в индекс? Как слова и подчиненные функции добавляются в индекс во время текстового корпусного обхода? И могут ли несколько поисковых роботов работать асинхронно? Поисковый робот должен сначала проверить, обновляет он старое содержание или добавляет новое. Слияние индекса[⇨] поисковой системы подобно SQL Merge и другим алгоритмам слияния[5].
Методы хранения
Как хранить индексируемые данные? То есть определяют вид хранимой информации: сжатый или отфильтрованный.
Размер индекса
Сколько памяти компьютера необходимо, чтобы поддерживать индекс.
Скорость поиска
Как быстро можно найти слово в инвертированном индексе. Важным для информатики является сравнение скорости нахождения записи в структуре данных и скорости обновления/удаления индекса.
Хранение
Как хранится индекс в течение длительного времени[6].
Отказоустойчивость
Для поисковой службы важно быть надежной. Вопросы отказоустойчивости включают проблему повреждения индекса, определяя, можно ли отдельно рассматривать некорректные данные, связанные с плохими аппаратными средствами, секционированием и схемами на основе хеш-функций и композитного секционирования[7], а также репликации.

Индексные структуры данных[править | править код]

Архитектура поисковой системы различается по способам индексирования и по методам хранения индексов, удовлетворяя факторы[⇨]. Индексы бывают следующих типов:

Суффиксное дерево
Образно структурировано как дерево, поддерживает линейное время поиска. Построено на хранении суффиксов слов. Деревья поддерживают расширенное хеширование, которое важно для индексации поисковой системы[8]. Используется для поиска по шаблону в последовательностях ДНК и кластеризации. Основным недостатком является то, что хранение слова в дереве может потребовать пространство за пределами необходимого для хранения самого слова[9]. Альтернативное представление — суффиксный массив. Считается, что он требуют меньше виртуальной памяти и поддерживает блочно-сортирующее сжатие данных.
Инвертированный индекс
Хранилище списка вхождений каждого критерия поиска[10], обычно в форме хеш-таблиц или бинарного дерева[11][12].
Индекс цитирования
Хранилище цитат или гиперссылок между документами для поддержки анализа цитирования, предмет библиометрии.
N-грамма
Хранилище последовательностей длин данных для поддержки других типов поиска или анализа текста[13].
Матрица термов документа
Используется в латентно-семантическом анализе (ЛСА), хранит вхождения слов в документах в двумерной разреженной матрице.

Проблемы параллельного индексирования[править | править код]

Одной из основных задач при проектировании поисковых систем является управление последовательными вычислительными процессами. Существует ситуации, в которых возможно создание состояния гонки и когерентных отказов. Например, новый документ добавлен к корпусу, и индекс должен быть обновлен, но в то же время индекс должен продолжать отвечать на поисковые запросы. Это коллизия между двумя конкурирующими задачами. Считается, что авторы являются производителями информации, а поисковый робот — потребителем этой информации, захватывая текст и сохраняя его в кэше (или корпусе). Прямой индекс является потребителем информации, произведенной корпусом, а инвертированный индекс — потребителем информации, произведенной прямым индексом. Это обычно упоминается как модель производителя-потребителя. Индексатор является производителем доступной для поиска информации, а пользователи, которые её ищут, — потребителями. Проблема усиливается при распределенном хранении и распределенной обработке. Чтобы масштабировать большие объемы индексированной информации, поисковая система может основываться на архитектуре распределенных вычислений, при этом поисковая система состоит из нескольких машин, работающих согласованно. Это увеличивает вероятность нелогичности и делает сложнее поддержку полностью синхронизируемой, распределенной, параллельной архитектуры[14].

Прямой индекс[править | править код]

Прямой индекс хранит список слов для каждого документа. Ниже приведена упрощенная форма прямого индекса:

Прямой индекс
Документ Слова
Документ 1 наша, Таня, громко, плачет
Документ 2 уронила, в, речку, мячик
Документ 3 тише, Танечка, не, плачь,
Документ 4 не, утонет, в, речке, мяч

Необходимость разработки прямого индекса объясняется тем, что лучше сразу сохранять слова за документами, поскольку их в дальнейшем анализируют для создания поискового индекса. Формирование прямого индекса включает асинхронную системную обработку, которая частично обходит узкое место обновления инвертированного индекса[15]. Прямой индекс сортируют, чтобы преобразовать в инвертированный. Прямой индекс по сути представляет собой список пар, состоящих из документов и слов, отсортированный по документам. Преобразование прямого индекса к инвертированному является только вопросом сортировки пар по словам. В этом отношении инвертированный индекс — отсортированный по словам прямой индекс.

Инвертированный индекс[править | править код]

Многие поисковые системы используют инвертированный индекс при оценке поискового запроса, чтобы быстро определить местоположение документов, содержащих слова из запроса, а затем ранжировать эти документы по релевантности. Поскольку инвертированный индекс хранит список документов, содержащих каждое слово, поисковая система может использовать прямой доступ, чтобы найти документы, связанные с каждым словом в запросе, и быстро получить их. Ниже приведено упрощенное представление инвертированного индекса:

Инвертированный индекс
Слово Документы
в Документ 2, Документ 4
громко Документ 1
мяч Документ 2, Документ 4
наша Документ 1
не Документ 3, Документ 4
плакать Документ 1, Документ 3
речка Документ 2, Документ 4
Таня Документ 1, Документ 3
тише Документ 3
уронить Документ 2
утонуть Документ 4

Инвертированный индекс может только определить, существует ли слово в пределах конкретного документа, так как не хранит никакой информации относительно частоты и позиции слова, и поэтому его считают логическим индексом. Инвертированный индекс определяет, какие документы соответствуют запросу, но не оценивает соответствующие документы. В некоторых случаях индекс включает дополнительную информацию, такую как частота каждого слова в каждом документе или позиция слова в документе[16]. Информация о позиции слова позволяет поисковому алгоритму идентифицировать близость слова, чтобы поддерживать поиск фраз. Частота может использоваться, чтобы помочь в ранжировании документов по запросу. Такие темы в центре внимания исследований информационного поиска.

Инвертированный индекс представлен разреженной матрицей, так как не все слова присутствуют в каждом документе. Индекс подобен матрице термов документа, используемом в ЛСА. Инвертированный индекс можно считать формой хеш-таблицы. В некоторых случаях индекс представлен в форме двоичного дерева, которая требует дополнительной памяти, но может уменьшить время поиска. В больших индексах архитектура, как правило, представлена распределенной хеш-таблицей[17].

Слияние индекса[править | править код]

Инвертированный индекс заполняется путём слияния или восстановления. Архитектура может быть спроектирована так, чтобы поддерживать инкрементную индексацию[18][19], где слияние определяет документ или документы, которые будут добавлены или обновлены, а затем анализирует каждый документ в слова. Для технической точности, слияние объединяет недавно индексированные документы, обычно находящиеся в виртуальной памяти, с индексным кэшем, который находится на одном или нескольких жестких дисках компьютера.

После синтаксического анализа индексатор добавляет указанный документ в список документов для соответствующих слов. В более крупной поисковой системе процесс нахождения каждого слова для инвертированного индекса может быть слишком трудоемким, поэтому его, как правило, разделяют на две части:

  • разработка прямого индекса,
  • сортировка прямого индекса в инвертированный индекс.

Инвертированный индекс называется так из-за того, что он является инверсией прямого индекса.

Сжатие[править | править код]

Создание и поддержка крупномасштабного поискового индекса требует значительной памяти и выполнения задач обработки. Многие поисковые системы используют ту или иную форму сжатия, чтобы уменьшить размер индексов на диске[6]. Рассмотрим следующий сценарий для полнотекстового механизма поиска в Интернете:

  • Требуется 8 битов (1 байт) для хранения одного символа. Некоторые кодировки используют 2 байта на символ[20].
  • Среднее число символов в любом слове на странице примем за 5.

Учитывая этот сценарий, несжатый индекс для 2 миллиардов веб-страниц должен был бы хранить 500 миллиардов записей слов. 1 байт за символ или 5 байт за слово — потребовалось бы 2500 гигабайт одного только пространства памяти. Это больше, чем среднее свободное пространство на диске 2 персональных компьютеров. Для отказоустойчивой распределенной архитектуры требуется еще больше памяти. В зависимости от выбранного метода сжатия индекс может быть уменьшен до части такого размера. Компромисс времени и вычислительной мощности, требуемой для выполнения сжатия и распаковки.

Примечательно, что крупномасштабные проекты поисковых систем включают затраты на хранение, а также на электроэнергию для осуществления хранения.

Синтаксический анализ (или парсинг) документа предполагает разбор документа на компоненты (слова) для вставки в прямой и инвертированный индексы. Найденные слова называют токенами (англ. token), и в контексте индексации поисковых систем и обработки естественного языка парсинг часто называют токенизацией (то есть разбиением на токены). Синтаксический анализ иногда называют частеречной разметкой, морфологическим анализом, контент-анализом, текстовым анализом, анализом текста, генерацией согласования, сегментацией речи, лексическим анализом. Термины «индексация», «парсинг» и «токенизация» взаимозаменяемы в корпоративном сленге.

Обработка естественного языка постоянно исследуется и улучшается. Токенизация имеет проблемы с извлечением необходимой информации из документов для индексации, чтобы поддерживать качественный поиск. Токенизация для индексации включает в себя несколько технологий, реализация которых может быть коммерческой тайной.

Проблемы при обработке естественного языка[править | править код]

Неоднозначность границ слова
На первый взгляд может показаться, что токенизация является простой задачей, но это не так, особенно при разработке многоязычного индексатора. В цифровой форме тексты некоторых языков, таких, как китайский или японский, представляют сложную задачу, так как слова четко не разделены пробелом. Цель токенизации в том, чтобы распознать слова, которые будут искать пользователи. Специфичная для каждого языка логика используется, чтобы правильно распознать границы слов, что необходимо для разработки синтаксического анализатора для каждого поддерживаемого языка (или для групп языков с похожими границами и синтаксисом).
Неоднозначность языка
Для более точного ранжирования документов поисковые системы могут учитывать дополнительную информацию о слове, например, к какому языку или части речи оно относится. Эти методы зависят от языка, поскольку синтаксис между языками различается. При токенизации некоторые поисковые системы пытаются автоматически определить язык документа.
Различные форматы файлов
Для того, чтобы правильно определить, какие байты представляют символы документа, формат файла должен быть правильно обработан. Поисковые системы, которые поддерживают различные форматы файлов, должны правильно открывать документ, получать доступ к документу и токенизировать его символы.
Ошибки памяти
Качество данных естественного языка не всегда может быть совершенным. Уязвимость существует из-за неизвестного количества документов, в частности, в Интернете, которые не подчиняются соответствующему протоколу файла. Двоичные символы могут быть ошибочно закодированы в различных частях документа. Без распознавания этих символов и соответствующей обработки может ухудшиться качество индекса или индексирования.

Токенизация[править | править код]

В отличие от большинства людей, компьютеры не понимают структуру документа естественного языка и не могут автоматически распознавать слова и предложения. Для компьютера документ — это только последовательность байтов. Компьютер не «знает», что символ пробела является разделителем слов в документе. Человек должен запрограммировать компьютер так, чтобы определить, что является отдельным словом, называемым токеном. Такую программу обычно называют токенизатором или синтаксическим анализатором (парсером), а также лексическим анализатором[21]. Некоторые поисковые системы и другое ПО для обработки естественного языка поддерживают специализированные программы, удобные для осуществления синтаксического анализа, например, YACC или Лекс[22].

Во время токенизации синтаксический анализатор определяет последовательность символов, которые представляют слова и другие элементы, например, пунктуация, представленная числовыми кодами, некоторые из которых являются непечатаемыми управляющими символами. Синтаксический анализатор может распознать некоторые объекты, например, адреса электронной почты, телефонные номера и URL. При распознавании каждого токена могут быть сохранены некоторые характеристики, например, язык или кодировка, часть речи, позиция, число предложения, позиция в предложении, длина и номер строки[21].

Распознавание языка[править | править код]

Если поисковая система поддерживает несколько языков, то первым шагом во время токенизации будет определение языка каждого документа, поскольку многие последующие шаги зависят от этого (например, стемминг и определение части речи). Распознавание языка — это процесс, при котором компьютерная программа пытается автоматически определить или классифицировать язык документа. Автоматическое распознавание языка является предметом исследований в обработке естественного языка[23].

Анализ формата документа[править | править код]

Если поисковая система поддерживает множество форматов документов, то документы должны быть подготовлены для токенизации. Проблема состоит в том, что некоторые форматы документов содержат информацию о форматировании в дополнение к текстовому содержанию. Например, документы HTML содержат HTML-теги[24]. Если бы поисковая система игнорировала различие между содержанием и разметкой текста, то посторонняя информация включалась бы в индекс, что привело бы к плохим результатам поиска. Анализ формата — выявление и обработка языка разметки, встроенного в документ. Анализ формата также упоминается как структурный анализ, разделение тегов, текстовая нормализация.

Задача анализа формата осложняется тонкостями различных форматов файлов. Некоторые форматы файлов защищаются правом интеллектуальной собственности, о них мало информации, а другие — наоборот, хорошо документированы. Распространенные, хорошо задокументированные форматы файлов, которые поддерживают поисковые системы[25][26]:

Некоторые поисковики поддерживают файлы, которые хранятся в сжатом или зашифрованном формате[27][28][29]. При работе со сжатым форматом индексатор сначала распаковывает документ. Этот шаг может привести к получению одного или нескольких файлов, каждый из которых должен быть индексирован отдельно. Бывают следующие поддерживаемые форматы сжатого файла:

Анализ формата может включать методы повышения качества, чтобы избежать включения ненужной информации в индекс. Контент может управлять информацией о форматировании, чтобы включать дополнительные сведения. Примеры злоупотребления форматированием документа в случае веб-спама:

  • Включение сотен или тысяч слов в раздел, который скрыт от представления на мониторе, но является видимым индексатору, при помощи тегов форматирования (например, в скрытый тег div в HTML можно включить использование CSS или JavaScript).
  • Установка цвета шрифта слов таким же, как цвет фона, что делает невидимыми слова для человека при просмотре документа, но слова остаются видимыми для индексатора.

Распознавание раздела[править | править код]

Некоторые поисковые системы включают распознавание раздела, определяют основные части документа до токенизации. Не все документы в корпусе читаются как правильно написанная книга, разделенная на главы и страницы. Некоторые документы в Интернете, такие как новостные рассылки и корпоративные отчеты, содержат ошибочное содержание и боковые блоки, в которых нет основного материала. Например, эта статья отображает в левом меню ссылки на другие веб-страницы. Некоторые форматы файлов, как HTML или PDF, допускают содержание, которое будет отображаться в колонках. Хотя содержимое документа представлено на экране в различных областях, исходный текст хранит эту информацию последовательно. Слова, которые появляются последовательно в исходном тексте, индексируются последовательно, несмотря на то, что предложения и абзацы отображаются в различных частях монитора. Если поисковые системы индексируют весь контент, как будто это основное содержание документа, то качество индекса и поиска может ухудшиться. Отмечают две основные проблемы:

  • Содержание в различных разделах рассматривают как связанное с индексом, хотя в действительности это не так.
  • Дополнительное содержание «боковой панели» включено в индекс, но оно не способствует реальной значимости документа, поэтому индекс заполнен плохим представлением о документе.

Для анализа раздела может потребоваться, чтобы поисковая система реализовала логику визуализации каждого документа, то есть абстрактное представление самого документа, и затем проиндексировала представление вместо документа. Например, иногда для вывода контента на страницу в Интернете используют JavaScript. Если поисковая система «не видит» JavaScript, то индексация страниц происходит некорректно, поскольку часть контента не индексируется. Учитывая, что некоторые поисковые системы не беспокоятся о проблемах с визуализацией, веб-разработчики стараются не представлять контент через JavaScript или используют тег NoScript, чтобы убедиться, что веб-страница индексируется должным образом[30]. В то же время этот факт можно использовать, чтобы «заставить» индексатор поисковой системы «видеть» различное скрытое содержание.

Индексация метатегов[править | править код]

Определенные документы часто содержат встроенные метаданные, такие как автор, ключевые слова, описание и язык. В HTML-страницах метатеги содержат ключевые слова, которые также включены в индекс. В более ранних технологиях поиска в Интернете индексировались ключевые слова в метатегах для прямого индекса, а полный текст документа не анализировался. В то время еще не было полнотекстовой индексации, и аппаратное обеспечение компьютера было не в состоянии поддерживать такую технологию. Язык разметки HTML первоначально включал поддержку метатегов для того, чтобы правильно и легко индексировать, без использования токенизации[31].

В процессе развития Интернета в 1990-х, многие корпорации создали корпоративные веб-сайты. Ключевые слова, используемые для описания веб-страниц стали больше ориентироваться на маркетинг и разрабатывались, чтобы управлять продажами, помещая веб-страницу в начало страницы результатов поиска для определенных поисковых запросов. Факт, что эти ключевые слова были определены субъективно, приводил к спаму, что вынудило поисковые системы принять полнотекстовую индексацию. Разработчики поисковой системы могли поместить много «маркетинговых ключевых слов» в содержание веб-страницы до того, как наполнят её интересной и полезной информацией. Однако целью проектирования веб-сайтов являлось привлечение клиентов, поэтому разработчики были заинтересованы в том, чтобы включить больше полезного контента на сайт, чтобы сохранить посетителей. В этом смысле полнотекстовая индексация была более объективной и увеличила качество результатов поисковой системы, что содействовало исследованиям технологий полнотекстовой индексации.

В локальном поиске решения могут включать метатеги, чтобы обеспечить поиск по авторам, так как поисковая система индексирует контент из различных файлов, содержание которых не очевидно. Локальный поиск больше находится под контролем пользователя, в то время как механизмы интернет-поиска должны больше фокусироваться на полнотекстовом индексе.

  1. ↑ Clarke,Cormack, 1995.
  2. ↑ Rice,Bailey.
  3. ↑ Jacobs,Finkelstein,Salesin, 2006.
  4. ↑ Lee.
  5. ↑ Brown, 1996.
  6. 1 2 Cutting,Pedersen, 1990.
  7. ↑ mysql.
  8. ↑ trie.
  9. ↑ Gusfield, 1997.
  10. ↑ inverted index.
  11. ↑ Foster, 1965.
  12. ↑ Landauer, 1963.
  13. ↑ 5-gram.
  14. ↑ Dean,Ghemawat, 2004.
  15. ↑ Brin,Page, 2006.
  16. ↑ Grossman,Frieder,Goharian, 2002.
  17. ↑ Tang,Sandhya, 2004.
  18. ↑ Tomasic, 1994.
  19. ↑ Luk,Lam, 2007.
  20. ↑ unicode.
  21. 1 2 Tokenization Guidelines, 2011.
  22. ↑ Lex&Yacc, 1992.
  23. ↑ Automated language recognition, 2009.
  24. ↑ html, 2011.
  25. ↑ formats files.
  26. ↑ Типы файлов Google/Yandex.
  27. ↑ Программы индексации и поиска файлов.
  28. ↑ Индексирование архивов.
  29. ↑ Служба индексирования windows.
  30. ↑ JS indexing.
  31. ↑ Lee Hypertext, 1995.
  • Charles E. Jacobs, Adam Finkelstein, David H. Salesin. Fast Multiresolution Image Querying (англ.) // Department of Computer Science and Engineering. — University of Washington, Seattle, Washington 98195, 2006.
  • Cutting, D., Pedersen, J. Optimizations for dynamic inverted index maintenance (англ.) / Jean-Luc Vidick. — NY, USA: ACM New York, 1990. — P. 405-411. — ISBN 0-89791-408-2.
  • Eric W. Brown. Execution Performance Issues in Full-Text Information Retrieval. — University of Massachusetts Amherst: Computer Science Department, 1996. — 179 с. — (Technical Report 95-81).
  • Dan Gusfield. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. — USA: Cambridge University Press, 1997. — 326 с. — ISBN 0-521-58519-8.
  • Caxton Croxford Foster. Information retrieval: information storage and retrieval using AVL trees (англ.) // ACM '65 Proceedings of the 1965 20th national conference. — NY, USA, 1965. — P. 192-205. — doi:10.1145/800197.806043.
  • Landauer, W. I. The balanced tree and its utilization in information retrieval (англ.) // IEEE Trans. on Electronic Computers. — USA, 1963. — No. 6. — P. 12.
  • Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters (англ.). — Google, Inc, 2004.
  • Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine (англ.). — Stanford University, Stanford: Computer Science Department, 2006.
  • Grossman, Frieder, Goharian. IR Basics of Inverted Index (англ.). — 2002.
  • Tang Hunqiang, Sandhya Dwarkadas. Hybrid Global Local Indexing for Efficient Peer to Peer Information Retrieval (англ.). — University of Rochester: Computer Science Department, 2004.
  • Anthony Tomasic. Incremental Updates of Inverted Lists for Text Document Retrieval (англ.) : Conference Proceeding. — Stanford University, 1994.
  • Robert W.P. Luk, Wai Lam. Efficient in-memory extensible inverted file (англ.) // Information Systems. — 2007. — No. 32 (5). — P. 733-754. — doi:10.1016/j.is.2006.06.001.
  • Radim Řehůřek, Milan Kolkus. Language Identification on the Web: Extending the Dictionary Method (англ.) // Lecture Notes in Computer Science Volume. — Mexico, 2009. — No. 5449. — P. 357-368. — ISBN 978-3-642-00382-0. (недоступная ссылка)
  • Scoping SIG, Tokenization Taskforce PCI Security Standards Council. Info Supplement:PCI DSS Tokenization Guidelines. — 2011. — С. 23.
  • Б. Лоусон, Р. Шарп. Изучаем HTML5 = Introducing HTML5. — Питер, 2011. — 272 с. — (Библиотека специалиста). — 2000 экз. — ISBN 978-5-459-00269-0, 978-0321687296.
  • T. Berners-Lee. Hypertext Markup Language - 2.0 (англ.). — Network Working Group, 1995.
  • Levine JR, Mason T, Brown D. Lex & Yacc. — Sebastopol: O'Reilly & Associates, 1992. — P. 387. — ISBN 1565920007.
  • James Lee. Software Learns to Tag Photos (англ.). MIT Technology Review 1-2 (Ноябрь 09, 2006). Дата обращения 3 декабря 2013.

ru.wikipedia.org

Поисковые системы Википедия

Поиск информации во Всемирной паутине был трудной и не самой приятной задачей, но с прорывом в технологии поисковых систем в конце 1990-х годов осуществлять поиск стало намного удобней

Поиско́вая систе́ма (англ. search engine) — это компьютерная система, предназначенная для поиска информации[источник не указан 461 день]. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической информации во Всемирной паутине. Существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос[1]. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами[2]. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете.

Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов (см. «Пузырь фильтров»[⇨]) или вследствие человеческого фактора[⇨]. По состоянию на 2015 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России «Яндекс» обгоняет Google больше, чем на 10 %[⇨].

По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы[⇨]. В архитектуру поисковой системы обычно входят:

  • поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов,
  • индексатор, обеспечивающий быстрый поиск по накопленной информации, и
  • поисковик — графический интерфейс для работы пользователя[⇨].

ru-wiki.ru

Поисковая система — Википедия

Поиск информации во Всемирной паутине был трудной и не самой приятной задачей, но с прорывом в технологии поисковых систем в конце 1990-х годов осуществлять поиск стало намного удобней

Поиско́вая систе́ма (англ. search engine) — это компьютерная система, предназначенная для поиска информации[источник не указан 237 дней]. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической информации во Всемирной паутине. Существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос[1]. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами[2]. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете.

Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов (см. «Пузырь фильтров»[⇨]) или вследствие человеческого фактора[⇨]. По состоянию на 2015 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России «Яндекс» обгоняет Google больше, чем на 10 %[⇨].

По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы[⇨]. В архитектуру поисковой системы обычно входят:

  • поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов,
  • индексатор, обеспечивающий быстрый поиск по накопленной информации, и
  • поисковик — графический интерфейс для работы пользователя[⇨].

История

На раннем этапе развития сети Интернет Тим Бернерс-Ли поддерживал список веб-серверов, размещённый на сайте ЦЕРН[3]. Сайтов становилось всё больше, и поддерживать вручную такой список становилось всё сложнее. На сайте NCSA был специальный раздел «Что нового!» (англ. What's New!)[4], где публиковали ссылки на новые сайты.

Первой компьютерной программой для поиска в Интернете была программа Арчи[en] (англ. archie — архив без буквы «в»). Она была создана в 1990 году Аланом Эмтэджем (Alan Emtage), Биллом Хиланом (Bill Heelan) и Дж. Питером Дойчем (J. Peter Deutsch), студентами, изучающими информатику в университете Макгилла в Монреале. Программа скачивала списки всех файлов со всех доступных анонимных FTP-серверов и строила базу данных, в которой можно было выполнять поиск по именам файлов. Однако, программа Арчи не индексировала содержимое этих файлов, так как объём данных был настолько мал, что всё можно было легко найти вручную.

Развитие и распространение сетевого протокола Gopher, придуманного в 1991 году Марком Маккэхилом (Mark McCahill) в университете Миннесоты, привело к созданию двух новых поисковых программ, Veronica[en] и Jughead[en]. Как и Арчи, они искали имена файлов и заголовки, сохранённые в индексных системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) позволяла выполнять поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Программа Jughead (англ. Jonzy's Universal Gopher Hierarchy Excavation And Display) извлекала информацию о меню от определённых Gopher-серверов. Хотя название поисковика Арчи не имело отношения к циклу комиксов «Арчи»[en], тем не менее Veronica и Jughead — персонажи этих комиксов.

К лету 1993 года ещё не было ни одной системы для поиска в вебе, хотя вручную поддерживались многочисленные специализированные каталоги. Оскар Нирштрасс (Oscar Nierstrasz) в Женевском университете написал ряд сценариев на Perl, которые периодически копировали эти страницы и переписывали их в стандартный формат. Это стало основой для W3Catalog, первой примитивной поисковой системы сети, запущенной 2 сентября 1993 года[5].

Вероятно, первым поисковым роботом, написанным на языке Perl, был «World Wide Web Wanderer» — бот Мэтью Грэя (Matthew Gray) из Массачусетского технологического института в июне 1993 года. Этот робот создавал поисковый индекс «Wandex». Цель робота Wanderer состояла в том, чтобы измерить размер всемирной паутины и найти все веб-страницы, содержащие слова из запроса. В 1993 году появилась и вторая поисковая система «Aliweb». Aliweb не использовала поискового робота, но вместо этого ожидала уведомлений от администраторов веб-сайтов о наличии на их сайтах индексного файла в определённом формате.

JumpStation[en], [6] созданный в декабре 1993 года Джонатаном Флетчером, искал веб-страницы и строил их индексы с помощью поискового робота, и использовал веб-форму в качестве интерфейса для формулирования поисковых запросов. Это был первый инструмент поиска в Интернете, который сочетал три важнейших функции поисковой системы (проверка, индексация и собственно поиск). Из-за ограниченности ресурсов компьютеров того времени индексация и, следовательно, поиск были ограничены только названиями и заголовками веб-страниц, найденных поисковым роботом.

Первой полнотекстовой индексирующей ресурсы при помощи робота («craweler-based») поисковой системой, стала система «WebCrawler»[en], запущенная в 1994 году. В отличие от своих предшественниц, она позволяла пользователям искать по любым словам, расположенным на любой веб-странице — с тех пор это стало стандартом для большинства поисковых систем. Кроме того, это был первый поисковик, получивший широкое распространение. В 1994 году была запущена система «Lycos», разработанная в Университете Карнеги-Меллон и ставшая серьёзным коммерческим предприятием.

Вскоре появилось множество других конкурирующих поисковых машин, таких как: «Magellan»[en], «Excite», «Infoseek»[en], «Inktomi»[en], «Northern Light»[en] и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими как «Yahoo!». Но поисковые возможности каталогов ограничивались поиском по самим каталогам, а не по текстам веб-страниц. Позже каталоги объединялись или снабжались поисковыми роботами с целью улучшения поиска.

В 1996 году компания Netscape хотела заключить эксклюзивную сделку с одной из поисковых систем, сделав её поисковой системой по умолчанию на веб-браузере Netscape. Это вызвало настолько большой интерес, что Netscape заключила контракт сразу с пятью крупнейшими поисковыми системами (Yahoo!, Magellan, Lycos, Infoseek и Excite). За 5 млн долларов США в год они предлагались по очереди на поисковой странице Netscape[7][8].

Поисковые системы участвовали в «Пузыре доткомов» конца 1990-х[9]. Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время их первичного публичного предложения. Некоторые отказались от рынка общедоступных поисковых движков и стали работать только с корпоративным сектором, например, Northern Light[en].

Google взял на вооружение идею продажи ключевых слов в 1998 году, тогда это была маленькая компания, обеспечивавшая работу поисковой системы по адресу goto.com[en]. Этот шаг ознаменовал для поисковых систем переход от соревнований друг с другом к одному из самых выгодных коммерческих предприятий в Интернете[10]. Поисковые системы стали продавать первые места в результатах поиска отдельным компаниям.

Поисковая система Google занимает видное положение с начала 2000-х[11]. Компания добилась высокого положения благодаря хорошим результатам поиска с помощью алгоритма PageRank. Алгоритм был представлен общественности в статье «The Anatomy of Search Engine», написанной Сергеем Брином и Ларри Пейджем, основателями Google[12]. Этот итеративный алгоритм ранжирует веб-страницы, основываясь на оценке количества гиперссылок на веб-страницу в предположении, что на «хорошие» и «важные» страницы ссылаются больше, чем на другие. Интерфейс Google выдержан в спартанском стиле, где нет ничего лишнего, в отличие от многих своих конкурентов, которые встраивали поисковую систему в веб-портал. Поисковая система Google стала настолько популярной, что появились подражающие ей системы, например, Mystery Seeker[en](тайный поисковик).

К 2000 году Yahoo! осуществлял поиск на основе системы Inktomi. Yahoo! в 2002 году купил Inktomi, а в 2003 году купил Overture, которому принадлежали AlltheWeb[en] и AltaVista. Затем Yahoo! работал на основе поисковой системы Google вплоть до 2004 года, пока не запустил, наконец, свой собственный поисковик на основе всех купленных ранее технологий.

Фирма Microsoft впервые запустила поисковую систему Microsoft Network Search (MSN Search) осенью 1998 года, используя результаты поиска от Inktomi. Совсем скоро в начале 1999 года сайт начал отображать выдачу Looksmart[en], смешанную с результатами Inktomi. Недолго (в 1999 году) MSN search использовал результаты поиска от AltaVista. В 2004 году фирма Microsoft начала переход к собственной поисковой технологии с использованием собственного поискового робота — msnbot[en]. После проведения ребрендинга компанией Microsoft 1 июня 2009 года была запущена поисковая система Bing. 29 июля 2009 Yahoo! и Microsoft подписали соглашение, согласно которому Yahoo! Search[en] работал на основе технологии Microsoft Bing. На момент 2015 года союз Bing и Yahoo! дал первые настоящие плоды. Теперь Bing занимает 20,1 % рынка, а Yahoo! 12,7 %, что в общем занимает 32,60 % от общего рынка поисковых систем в США по данным из разных источников.

Поиск информации на русском языке

В 1996 году был реализован поиск с учётом русской морфологии на поисковой машине Altavista и запущены оригинальные российские поисковые машины Рамблер и Апорт. 23 сентября 1997 года была открыта поисковая машина Яндекс. 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник, которая на момент 2015 года находится в стадии бета-тестировании. 22 апреля 2015 года был открыт новый сервис Спутник. Дети специально для детей с повышенной безопасностью.

Большую популярность получили методы кластерного анализа и поиска по метаданным. Из международных машин такого плана наибольшую известность получила «Clusty»[en] компании Vivisimo[en]. В 2005 году в России при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала[13] с визуальной кластеризацией.

Как работает поисковая система

Высокоуровневая архитектура стандартного краулера

Основные составляющие поисковой системы: поисковый робот, индексатор, поисковик[14].

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно[14].

Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают из HTML-страниц. Поисковый робот или «краулер» (англ. Crawler) — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе. Владелец сайта может исключить определённые страницы при помощи robots.txt, используя который можно запретить индексацию файлов, страниц или каталогов сайта.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов. Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя[15].

Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш, а также различную информацию о веб-странице. Другие системы, подобные системе AltaVista, хранят каждое слово каждой найденной страницы. Использование кэша помогает ускорить извлечение информации с уже посещённых страниц[15]. Кэшированные страницы всегда содержат тот текст, который пользователь задал в поисковом запросе. Это может быть полезно в том случае, когда веб-страница обновилась, то есть уже не содержит текст запроса пользователя, а страница в кэше ещё старая[15]. Эта ситуация связана с потерей ссылок (англ. linkrot[en]) и дружественным по отношению к пользователю (юзабилити) подходом Google. Это предполагает выдачу из кэша коротких фрагментов текста, содержащих текст запроса. Действует принцип наименьшего удивления, пользователь обычно ожидает увидеть искомые слова в текстах полученных страниц (User expectations[en]). Кроме того, что использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую информацию, которая уже нигде более не доступна.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска[14].

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста[15]. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц[11]. С 2007 года поисковик Google позволяет искать с учётом времени, создания искомых документов (вызов меню «Инструменты поиска» и указание временного диапазона).

Большинство поисковых систем поддерживает использование в запросах булевых операторов И, ИЛИ, НЕ, что позволяет уточнить или расширить список искомых ключевых слов. При этом система будет искать слова или фразы точно так, как было введено. В некоторых поисковых системах есть возможность приближённого поиска[en], в этом случае пользователи расширяют область поиска, указывая расстояние до ключевых слов[15]. Есть также концептуальный поиск[en], при котором используется статистический анализ употребления искомых слов и фраз в текстах веб-страниц. Эти системы позволяют составлять запросы на естественном языке. Примером такой поисковой системы является сайт ask com.

Полезность поисковой системы зависит от релевантности найденных ею страниц. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты. Поисковые системы решают, какие страницы более релевантны, и в каком порядке должны быть показаны результаты, по-разному[15]. Методы поиска, как и сам Интернет со временем меняются. Так появились два основных типа поисковых систем: системы предопределённых и иерархически упорядоченных ключевых слов и системы, в которых генерируется инвертированный индекс на основе анализа текста.

Большинство поисковых систем являются коммерческими предприятиями, которые получают прибыль за счёт рекламы, в некоторых поисковиках можно купить за отдельную плату первые места в выдаче для заданных ключевых слов. Те поисковые системы, которые не берут денег за порядок выдачи результатов, зарабатывают на контекстной рекламе, при этом рекламные сообщения соответствуют запросу пользователя. Такая реклама выводится на странице со списком результатов поиска, и поисковики зарабатывают при каждом клике пользователя на рекламные сообщения.

Типы поисковых систем

Существует четыре типа поисковых систем: с поисковыми роботами, управляемые человеком, гибридные и мета-системы[16].

  • системы, использующие поисковые роботы
Состоят из трёх частей: краулер («бот», «робот» или «паук»), индекс и программное обеспечение поисковой системы. Краулер нужен для обхода сети и создания списков веб-страниц. Индекс — большой архив копий веб-страниц. Цель программного обеспечения — оценивать результаты поиска. Благодаря тому, что поисковый робот в этом механизме постоянно исследует сеть, информация в большей степени актуальна. Большинство современных поисковых систем являются системами данного типа.
Эти поисковые системы получают списки веб-страниц. Каталог содержит адрес, заголовок и краткое описание сайта. Каталог ресурсов ищет результаты только из описаний страницы, представленных ему веб-мастерами. Достоинство каталогов в том, что все ресурсы проверяются вручную, следовательно, и качество контента будет лучше по сравнению с результатами, полученными системой первого типа автоматически. Но есть и недостаток — обновление данных каталогов выполняется вручную и может существенно отставать от реального положения дел. Ранжирование страниц не может мгновенно меняться. В качестве примеров таких систем можно привести каталог Yahoo[en], dmoz и Galaxy.
  • гибридные системы
Такие поисковые системы, как Yahoo, Google, MSN, сочетают в себе функции систем, использующие поисковых роботов, и систем, управляемых человеком.
Метапоисковые системы объединяют и ранжируют результаты сразу нескольких поисковиков. Эти поисковые системы были полезны, когда у каждой поисковой системы был уникальный индекс, и поисковые системы были менее «умными». Поскольку сейчас поиск намного улучшился, потребность в них уменьшилась. Примеры: MetaCrawler[en] и MSN Search.

Рынок поисковых систем

Google — самая популярная поисковая система в мире с долей на рынке 69,24 %. Bing занимает вторую позицию, его доля 12,26 %[17].

Самые популярные поисковые системы в мире[18]:

Поисковая система Доля рынка в июле 2014 Доля рынка в октябре 2014 Доля рынка в сентябре 2017
Google 68,69 % 58,01 % 69,24 %
Bing 17,17 % 29,06 % 12,26 %
Baidu 6,22 % 8,01 % 6,48 %
Yahoo! 6,74 % 4,01 % 5,19 %
AOL 0,13 % 0,21 % 1,11 %
Excite 0,22 % 0,00 % 0,00 %
Ask 0,13 % 0,10 % 0,24 %

Азия

В восточноазиатских странах и в России Google — не самая популярная поисковая система. В Китае, например, более популярна поисковая система Soso.

В Южной Корее поисковым порталом собственной разработки Naver пользуется около 70 % жителей[19]Yahoo! Japan и Yahoo! Taiwan — самые популярные системы для поиска в Японии и Тайване соответственно[20].

Россия и русскоязычные поисковые системы

Яндексом пользуются 53,3 % пользователей в России (Google — 42,9 %)[21].

Согласно данным LiveInternet в декабре 2017 года об охвате русскоязычных поисковых запросов[22]:

  • Всеязычные:
  • Англоязычные и международные:
  • Русскоязычные — большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском, татарском и других. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что, в основном, индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык, или другими способами ограничивают своих роботов русскоязычными сайтами.

Некоторые из поисковых систем используют внешние алгоритмы поиска.

Количественные данные поисковой системы Google

Число пользователей Интернета и поисковых систем и требований пользователей к этим системам постоянно растёт. Для увеличений скорости поиска нужной информации крупные поисковые системы содержат большое количество серверов. Сервера обычно группируют в серверные центры (дата-центры). У популярных поисковых систем серверные центры разбросаны по всему миру[23].

В октябре 2012 года Google запустила проект «Где живёт Интернет», где пользователям предоставляется возможность познакомиться с центрами обработки данных этой компании[24].

О работе дата-центров поисковой системе Google известно следующее[23]:

  • Суммарная мощность всех дата-центров Google, по состоянию на 2011 год, оценивалась в 220 МВт.
  • Когда в 2008 году Google планировала открыть в Орегоне новый комплекс, состоящий из трёх зданий общей площадью 6,5 млн м², в журнале Harper’s Magazine подсчитали, что такой большой комплекс потребляет свыше 100 МВт электроэнергии, что сравнимо с потреблением энергии города с населением 300 000 человек.
  • Ориентировочное число серверов Google в 2012 году — 1 000 000.
  • Расходы Google на дата-центры составили в 2006 году — $1,9 млрд, а в 2007 году — $2,4 млрд.

Размер всемирной паутины, проиндексированной Google на декабрь 2014 года, составляет примерно 4,36 миллиарда страниц[25].

Поисковые системы, учитывающие религиозные запреты

Глобальное распространение Интернета и увеличение популярности электронных устройств в арабском и мусульманском мире, в частности, в странах Ближнего Востока и Индийского субконтинента, способствовало развитию локальных поисковых систем, учитывающих исламские традиции. Такие поисковые системы содержат специальные фильтры, которые помогают пользователям не попадать на запрещённые сайты, например, сайты с порнографией, и позволяют им пользоваться только теми сайтами, содержимое которых не противоречит исламской вере.

Незадолго до мусульманского месяца Рамадан, в июле 2013 года, миру был представлен Halalgoogling[en] — система, выдающая пользователям только халяльные «правильные» ссылки[26], фильтруя результаты поиска, полученные от других поисковых систем, таких как Google и Bing. Двумя годами ранее, в сентябре 2011 года, был запущен поисковый движок I’mHalal, предназначенный для обслуживания пользователей Ближнего Востока. Однако этот поисковый сервис пришлось вскоре закрыть, по сообщению владельца, из-за отсутствия финансирования[27].

Отсутствие инвестиций и медленный темп распространения технологий в мусульманском мире препятствовали прогрессу и мешали успеху серьёзного исламского поисковика. Очевиден провал огромных инвестиций в веб-проекты мусульманского образа жизни, одним из которых был Muxlim[en]. Он получил миллионы долларов от инвесторов, таких как Rite Internet Ventures, и теперь — в соответствии с последним сообщением от I’mHalal перед его закрытием — выступает с сомнительной идеей о том, что «следующий Facebook или Google могут появиться только в странах Ближнего Востока, если вы поддержите нашу блестящую молодёжь»[28].

Тем не менее исламские эксперты в области Интернета в течение многих лет занимаются определением того, что соответствует или не соответствует шариату, и классифицируют веб-сайты как «халяль» или «харам». Все бывшие и настоящие исламские поисковые системы представляют собой просто специальным образом проиндексированный набор данных либо это главные поисковые системы, такие как Google, Yahoo и Bing, с определённой системой фильтрации, использующейся для того, чтобы пользователи не могли получить доступ к харам-сайтам, таким как сайты о наготе, ЛГБТ, азартных играх и каким-либо другим, тематика которых считается антиисламской[28].

Среди других религиозно-ориентированных поисковых систем распространёнными являются Jewogle — еврейская версия Google и SeekFind.org — христианский сайт, включающий в себя фильтры, оберегающие пользователей от контента, который может подорвать или ослабить их веру[29].

Персональные результаты и пузыри фильтров

Многие поисковые системы, такие как Google и Bing, используют алгоритмы выборочного угадывания того, какую информацию пользователь хотел бы увидеть, основываясь на его прошлых действиях в системе. В результате, веб-сайты показывают только ту информацию, которая согласуется с прошлыми интересами пользователя. Этот эффект получил название «пузырь фильтров»[30].

Всё это ведёт к тому, что пользователи получают намного меньше противоречащей своей точке зрения информации и становятся интеллектуально изолированными в своём собственном «информационном пузыре». Таким образом, «эффект пузыря» может иметь негативные последствия для формирования гражданского мнения[31].

Предвзятость поисковых систем

Несмотря на то, что поисковые системы запрограммированы, чтобы оценивать веб-сайты на основе некоторой комбинации их популярности и релевантности, в реальности экспериментальные исследования указывают на то, что различные политические, экономические и социальные факторы оказывают влияние на поисковую выдачу[32][33].

Такая предвзятость может быть прямым результатом экономических и коммерческих процессов: компании, которые рекламируются в поисковой системе, могут стать более популярными в результатах обычного поиска в ней. Удаление результатов поиска, не соответствующих местным законам, является примером влияния политических процессов. Например, Google не будет отображать некоторые неонацистские веб-сайты во Франции и Германии, где отрицание Холокоста незаконно[34].

Предвзятость может также быть следствием социальных процессов, поскольку алгоритмы поисковых систем часто разрабатываются, чтобы исключить неформатные точки зрения в пользу более «популярных» результатов[35]. Алгоритмы индексации главных поисковых систем отдают приоритет американским сайтам[33].

Поисковая бомба — один из примеров попытки управления результатами поиска по политическим, социальным или коммерческим причинам.

См. также

Примечания

  1. ↑ Chu & Rosenthal, 1996, p. 129.
  2. ↑ Tarakeswar & Kavitha, 2011, p. 29.
  3. ↑ World-Wide Web Servers.
  4. ↑ What's New.
  5. ↑ Oscar Nierstrasz.
  6. ↑ Archive of NCSA.
  7. ↑ Yahoo! And Netscape.
  8. ↑ Netscape, 1996.
  9. ↑ The dynamics of competition, 2001.
  10. ↑ Intro to Computer Science.
  11. 1 2 Google`s history.
  12. ↑ Брин и Пейдж, p. 3.
  13. ↑ Nigma.
  14. 1 2 3 Risvik & Michelsen, 2002, p. 290.
  15. 1 2 3 4 5 6 Knowledge Management, 2011.
  16. ↑ Tarakeswar & Kavitha, 2011, p. 29.
  17. ↑ NMS.
  18. ↑ Статистика.
  19. ↑ Naver.
  20. ↑ Age of Internet Empires.
  21. ↑ LiveInternet.
  22. ↑ Liveinternet
  23. 1 2 Antula.
  24. ↑ Where the Internet lives.
  25. ↑ World wide web size.
  26. ↑ Islam.
  27. ↑ I’mHalal
  28. 1 2 Halalblog
  29. ↑ ChristianNews.
  30. ↑ Pariser, 2011.
  31. ↑ Auralist, 2012, p. 13.
  32. ↑ Segev, 2010.
  33. 1 2 Search engine coverage bias, 2004.
  34. ↑ Replacement of Google.
  35. ↑ Shaping the Web, 2000.

Литература

  • Gandal, Neil. The dynamics of competition in the internet search engine market. — 2001. — Vol. 19. — P. 1103–1117. — DOI:10.1016/S0167-7187(01)00065-0.
  • Tarakeswar M. K., Kavitha M. D. Search Engines:A Study (англ.) // Journal of Computer Applications (JCA) : journal. — 2011. — Vol. 4, no. 1. — P. 29—33. — ISSN 0974-1925.
  • Vaughan L., Thelwall M. Search engine coverage bias: evidence and possible causes (англ.) // Information Processing & Management : journal. — 2004. — Vol. 40. — P. 693–707. — DOI:10.1016/S0306-4573(03)00063-3.

Ссылки

  • FAQ (неопр.). NetMarketShare. Дата обращения 23 ноября 2014.

wikipedia.bio

Поисковик Википедия

Поиск информации во Всемирной паутине был трудной и не самой приятной задачей, но с прорывом в технологии поисковых систем в конце 1990-х годов осуществлять поиск стало намного удобней

Поиско́вая систе́ма (англ. search engine) — это компьютерная система, предназначенная для поиска информации[источник не указан 461 день]. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической информации во Всемирной паутине. Существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос[1]. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами[2]. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете.

Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов (см. «Пузырь фильтров»[⇨]) или вследствие человеческого фактора[⇨]. По состоянию на 2015 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России «Яндекс» обгоняет Google больше, чем на 10 %[⇨].

По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы[⇨]. В архитектуру поисковой системы обычно входят:

  • поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов,
  • индексатор, обеспечивающий быстрый поиск по накопленной информации, и
  • поисковик — графический интерфейс для работы пользователя[⇨].

ru-wiki.ru


Смотрите также



© 2010- GutenBlog.ru Карта сайта, XML.