Развитие информационных технологий. Современные поисковые системы, тенденции развития одного из лидеров рынка Яndех - Реферат

Современные поисковые системы — это мощнейшие аппаратно-программные комплексы, целью которых является индексирование документов в сети интернет для выдачи данных по запросу пользователей.

Для предоставления качественной и актуальной информации поисковым системам приходится постоянно совершенствовать свои формулы ранжирования. Обеспечение максимально высокого качества выдачи для пользователей и воспрепятствование манипуляциям с ней со стороны оптимизаторов — вот ключевые цели развития поисковых систем.

Во времена, когда поисковые системы только-только стали появляться на свет, их алгоритмы ранжирования были очень примитивны. Благодаря чему наиболее находчивые оптимизаторы стали продвигать свои сайты так, чтобы они появлялись в выдаче по интересующим их запросам. В результате это привело к тому, что ресурсы, которые зачастую не несли пользователю никакой полезной информации, становились первыми, тем самым отодвигая более полезные сайты на второй план.

В ответ на эти действия поисковые системы стали защищаться, совершенствуя свои алгоритмы ранжирования, вводя в формулы все новые переменные и учитывая все новые факторы. Со временем эта борьба оптимизаторов и поисковых систем перешла на новый уровень и поспособствовала появлению более совершенных алгоритмов, основанных, в том числе и на машинном обучении.

Этапы развития поисковых систем:

Как можно увидеть из схемы, развитие поисковых систем и их алгоритмов идет по кругу. Одни создают новые алгоритмы, другие приспосабливаются к ним. Сложно сказать, остановится ли когда-нибудь этот процесс, но лично я склонен считать, что нет. Несмотря на то, что алгоритмы ранжирования поисковых систем в последнее время не только меняют значимость различных факторов, но и изменяются качественно, это не пугает оптимизаторов: их арсенал постоянно пополняется все более новыми приемами.

Как часто поисковые системы изменяют свои алгоритмы?

Обратимся к главной поисковой системе Рунета — Яндексу. Качественные и принципиальные изменения формул ранжирования в ней происходят в среднем один раз в год. Не так давно Яндекс представил новую поисковую платформу под названием “Калининград”. Ее суть состоит в формировании персональной выдачи для каждого пользователя на основании его поисковой истории и предпочтений.

Помимо этого не стоит забывать, что у каждой поисковой системы, в том числе и у Яндекса, постоянно случаются “подкрутки” формул ранжирования, когда в автоматическом либо полуавтоматическом режиме влияние определенных факторов занижается, а других, наоборот, — повышается. Все это делается лишь с одной целью — максимально улучшить поисковую выдачу, избавив её от сайтов, не удовлетворяющих потребности пользователей, и тем самым повысить её релевантность.

Рассматривая изменения в поисковой системе Google, можно увидеть, что преобразования формулы ранжирования также происходят постоянно, а сам Google из года в год рапортует о сотнях мелких изменений. Но если говорить не о формуле ранжирования, а о фильтрах, которые помогают Google очищать выдачу от низкокачественных сайтов, то новые версии алгоритмов, такие как Панда или Пингвин, появляются с периодичностью раз в 3-6 месяцев.

Ответить на поставленный выше вопрос можно так: поисковые системы постоянно совершенствуют алгоритмы ранжирования, а кардинальные изменения происходят в среднем раз в 6-12 месяцев.

Какие алгоритмы поисковых систем представляют реальную угрозу для продвижения?

Хочется ответить “слёту” — никакие, но все же давайте разберемся. А для этого нам надо задаться вопросом — ставят ли поисковые системы своей целью воспрепятствовать поисковому продвижению?

Я считаю, что нет. Для этого есть несколько обоснований:

1. Оптимизаторы помогают поисковым системам совершенствовать свои алгоритмы, что в конечном счете приводит к улучшению качества выдачи. Ведь если бы не было оптимизаторов, то и поисковые системы, вероятнее всего, остановились бы в своем развитии в 2000-м году.

2. Без оптимизаторов выдача по многим коммерческим запросам была бы похожа на сборник рефератов и бесполезных информационных статей.

Если бы поискового продвижения не существовало в принципе, то и поисковым системам не имело бы смысла расти и развиваться так же интенсивно, как они делают это сейчас.

Таким образом, мы приходим к следующему выводу:

Поисковые системы и SEO тесно и неразрывно связаны друг с другом. Именно поэтому, соблюдая установленные ими правила, можно абсолютно не бояться алгоритмов, ведь ПС не ставят своей целью уничтожить SEO как таковое.

Развитие сервисов поисковых систем

Говоря о поисковых системах, не стоит забывать о том, что у Яндекс, Google или Bing существуют собственные сервисы, призванные помочь пользователям. Помимо поисковых результатов, за годы эволюции ПС изучили поведение своих пользователей с целью повысить удовлетворенность результатами выдачи.

Собственно для этого поисковая система Яндекс и придумала механизм т.н. “Колдунщиков”, которые помогают пользователю быстро получить ответ на свой вопрос. Так, например, при вводе запроса «прогноз погоды» Яндекс прямо на странице с результатами поиска отобразит информацию о погоде на текущую дату, избавив тем самым пользователя от необходимости переходить по результатам выдачи.

Другие поисковые системы, например, Google, пошли дальше и вместо “Колдунщиков” предложили более интересное решение — “Граф знаний”.

“Граф знаний” (с англ. Knowledge Graph) — это первая ступень на пути Google к интеллектуальному поиску. Благодаря этому нововведению поисковик отображает в результатах выдачи не только стандартные ссылки, но и прямые ответы на вопросы пользователей, краткую справку об объекте запроса и информацию о связанных с ним фактах. Технически “Граф знаний” представляет собой семантическую сеть, связывающую воедино различные сущности: личности, события, сферы жизни, вещи, категории. Информационной базой для “графа знаний” служит целый ряд источников: открытая семантическая база данных Freebase, Википедия, сборник открытых данных ЦРУ и прочие источники.

Какие выводы можно сделать, спросите вы?

Ответ прост: поиск и поисковые сервисы и дальше будут развиваться в сторону быстрых и актуальных ответов на вопросы пользователей, предоставляя возможность получить всю необходимую информацию прямо в SERP (выдачу) и избавляя от необходимости переходить на другие сайты.

Существует мнение, что поисковые системы своим стремлением ответить на вопрос пользователя здесь и сейчас могут уничтожить поисковую оптимизацию, став этакими глобальными базами знаний. Но такие опасения беспочвенны, поскольку для того, чтобы стать глобальными базами знаний, им нужна информация, а её хранят те самые сайты, над которыми работают те самые оптимизаторы, которые причастны к тому, что поисковые системы не стоят на месте, а постоянно эволюционируют.

Как видно, и SEO, и поисковые системы — звенья одной цепи, которые не могут существовать друг без друга. Поэтому мысли о скорой смерти SEO безосновательны. Вполне возможно, что поисковая оптимизация со временем эволюционирует, к примеру, в консалтинг, но уж точно не умрет. Желаю всем удачного продвижения в ТОП!

Развитие рынка информационных технологий в России во многом повторяет мировые тенденции, при этом есть национальные особенности. Любому, кто связан с ИТ, полезно понимать, что будет с рынком, какие направления будут развиваться, какие специальности будут востребованы и .

Я не претендую на роль матерого рыночного аналитика, но при этом готов рассказать то, что знаю о развитии и проблемах информационных технологий в России. Чтобы сделать аналитическую картину наиболее полной и достоверной, я проанализировал статистические данные и публикации наиболее авторитетных изданий. Для меня, как для автора корпоративных блогов в ИТ, такой анализ дал достаточно широкое представление о тех темах, которые будут актуальны в будущем.

Общемировая картина ИТ рынка

Российский рынок информационных технологий сильно интегрирован с общемировым. Последний оказывает внушительное влияние. Поэтому перед тем, как рассматривать ситуацию локально, необходимо иметь четкое представление о глобальных процессах.

Зависимость развития информационных технологий в России от мировых трендов обусловлено большим количеством аутсорсинговых компаний, инвестиций иностранных венчурных и иных фондов в продуктовые проекты, а также распространенность практики заимствования тех или иных позитивных тенденций.

По данным Gartner, на мировом рынке ИТ существует около 10 основных тенденций, которые будут актуальны в ближайшие 3-5 лет. Наиболее внушительные средства сейчас вкладываются в разработку сервисов голосового и визуального поиска товаров., которые помогут ритейлу проще продавать.

Прогноз по мировому ИТ-рынку на текущий год по данным Gartner

Эксперты Gartner считают, что такие инновации позволяют ритейлерам увеличить прибыли на 20-30 %. На данный момент рынок голосовых помощников уже достиг $3,5 млрд.

Ожидается, что большинство гигантов, таких как Google, Facebook, Apple, Amazon, Alibaba переориентируют формат бизнеса. Это также произойдет под влиянием развития новых технологий.

Очевидно, что изменение способа введения запроса изменит представления о поисковой оптимизации и требования поисковиков. Они будут ориентированы на речевые запросы, а это изменит то, что мы сегодня знаем о СЕО.

В течение ближайших двух лет подавляющее большинство аналитиков прогнозируют существенный рост использования криптовалют, что в свою очередь приведет к росту банковского сектора в ИТ как минимум на $1-1,5 млрд. Совершенно естественно, что востребованность специалистов, связанных с этой молодой отраслью мировой финансовой системы, также будет расти.

Затраты компаний на нейросети и чатботы превысят затраты на приложения. Развитые нейросети станут создавать отдельные реальности из комбинирования различного рода контента. Это станет новым видом среды обитания человека уже к 2022-му году, а среда в свою очередь потребует поддержки и обслуживания от живых специалистов.

Одними из главных трендов в контентном сегменте являются фейки. К этому следует подготовится журналистам, копирайтерам и людям, которые зарабатывают ведением блогов. Очевидно, что фейковая информация и её распространение уже становятся своеобразным видом заработка для представителей этих профессий.

Фейки для людей, занимающихся контентом — это своеобразный нравственный вызов и от того, как профессиональное сообщество отреагирует на него, будет зависеть информационная реальность будущего.

По пессимистичным прогнозам, “масса” фейковой информации превысит объемы реальной. В особенности это коснется социальных сетей, где уже созданы многомиллионные армады фейковых аккаунтов под управлением ботов.

В перспективе ожидается падение спроса на разработчиков на 5% и рост потребности рынка в ИТ-менеджерах и людях, способных работать на стыке ИТ и бизнеса. Такой персонал уже через 3-4 года будет составлять более 40% штата в мировых ИТ-гигантах.

Все эти тенденции будут характерны и для российского рынка. Последний будет иметь ряд особенностей, о которых ниже.

Уровень развития информационных технологий России на данный момент

Сегодня рынок информационных технологий России достаточно динамично растет. Несмотря на печальные события 2015-го года, связанные с санкционной рецессией, к прошлому году объем рынка ИТ достиг 733 млрд рублей. Сегодня ИТ рынок один из самых устойчивых в стране. Для специалистов это означает востребованность их услуг работодателями.

При этом уровень развития информационных технологий в России отстает от прочих развитых стран мира, так как российский ИТ-рынок в большей степени ориентирован на аутсорсинг.

Наиболее мощные российские ИТ-компании удовлетворяются вторичной ролью подрядчиков по разработке и не считают необходимым выпускать собственные продукты.

Структура российского ИТ-рынка по данным IDC

Важной локальной тенденцией в России является запоздалое, но бурное развитие электронного ритейла. Он едва ли может сравниться с китайскими и американскими площадками, но скорость роста электронной коммерции, которая прибавляет по 20 -30% ежегодно, не могут не впечатлять.

Для фрилансеров и прочих специалистов это означает, что в России их будут ждать в том числе и в сфере е-коммерс, которая будет почти гарантированно расти до 2021-го года и растёт сейчас.

Одной из локальных Российских тенденций является развитие альтернативных средств корпоративной коммуникации с особыми способами защиты. Такие инициативы иногда получают государственную поддержку и активно продвигаются через СМИ.

В остальном тенденции те же, что в остальном мире. Некоторые из мировых трендов доходят с опозданием, но в целом картины совпадают.

Вывод: проблемы и прогнозы развития российского рынка ИТ

Основной проблемой российского рынка и развития современных информационных технологий в России является вторичность и ориентированность на аутсорсинг. Очень многие известные продукты создаются силами российских специалистов, которые работают на сторонние компании.

Так, по данным РБК, в России на рынок IT-аутсорсинга приходится приблизительно одна пятая рынка IT-сервисов (выше только в Беларуси и Индии). Другой существенной проблемой становится вторичность и заимствование. Когда речь идет о копировании стандартов, продуктов и сервисов.

Большинство прогнозов сходятся во мнении, что российский ИТ рынок продолжит интегрироваться в мировой. Некоторые предрекают появление сильных, крупных продуктовых компаний, но такие оценки были и в 2007-м — 2008-м, однако этого не произошло.

Сегодня рано говорить о том, что в ближайшее время каменщиков заменят 3D принтеры, особые сканеры лишат рабочих мест врачей-диагностов, а особые терминалы вытеснят кассиров. В России это произойдет значительно позже. При этом можно смело утверждать, что основные тенденции не пройдут мимо, а, соответственно, рынку понадобится армия штатных специалистов и фрилансеров.

Алгоритмы ранжирования поисковых систем постоянно развиваются и совершенствуются. Главные цели этого развития - обеспечение высокого качества поиска для пользователей и создание максимальных трудностей для манипулирования поисковой выдачей оптимизаторами сайтов.

Данные цели взаимосвязаны, так как качество поиска напрямую зависит от возможности или невозможности повлиять на него заинтересованным лицам.

Когда поисковые системы Яндекс и Google только начинали свое развитие, их алгоритмы ранжирования были примитивны, что позволяло довольно просто манипулировать ими.

В те далекие времена на релевантность страницы оказывали высокое влияние:
- мета-теги ;
- плотность ключевых слов на странице;
- теги выделения.

Это была золотая пора для дорвейщиков всех разновидностей, которым не составляло никакого труда добывать килотонны целевого трафика без особых усилий, ухудшая при этом общее качество поиска.

В результате, поисковые системы перестали учитывать мета-тег Keywords и, по всей видимости - Description, который теперь используется лишь для формирования сниппета в Google. Так же снизилась значимость других факторов внутренней оптимизации, которые позволяли злостно манипулировать поисковой выдачей.

Затем оптимизаторами было установлено, что количество внешних ссылок на сайт, а так же их анкоры влияют на позиции сайта в результатах поиска. Сразу же появились тысячи каталогов сайтов и программы автоматического добавления в них (самая известная программа такого рода - AllSubmitter).

Это были золотые времена для спамеров. Поисковые системы довольно быстро забанили большую часть каталогов сайтов, резко понизив эффективность прогонов по каталогам, которые стали массово использоваться оптимизаторами.

После этого эффективные попытки манипулирования поисковой выдачей стали, главным образом, заключаться в покупке ссылок с обычных сайтов, созданных не на каталожных скриптах.

Это были золотые времена сателлитчиков. Очень скоро поисковые системы научились распознавать грубую работу по продаже ссылок и ввели санкции в виде фильтра или бана для сайтов, созданных исключительно для продажи ссылок. Причем в некоторых случаях санкции могут касаться сайтов, на которые ссылки закупаются.

Все этапы развития поисковых систем представляют собой следующую логическую цепочку:

1. Создается некоторый базовый алгоритм ранжирования.

2. Оптимизаторы выявляют в нем слабые места и начинают массово манипулировать поисковой выдачей.

3. Поисковые системы серьезно корректируют алгоритм ранжирования, изменяя степень влияния тех или иных факторов.

4. Оптимизаторы анализируют эти изменения, приспосабливаются к новым условиям и вновь начинают массово манипулировать поиском.

Однако эта игра все же когда-нибудь закончится. Дело в том, что алгоритмы ранжирования поисковых систем в последнее время не только меняют значимость различных факторов, но и изменяются качественно вообще.

Мало того, что актуальным становится комплексный учет сотен различных факторов, так ещё упраздняется единая формула ранжирования, вместо которой начинает использоваться матричная система. Пример тому - алгоритм Яндекса «Снежинск» .

По новой системе, для каждого отдельного запроса генерируется своя формула ранжирования, которая может быть совершенно не похожа на формулу ранжирования по другим запросам. Если раньше можно было довольно просто выявить какие-то общие зависимости в принципах ранжирования поисковой системы, то в дальнейшем общих зависимостей просто не будет.

Платные инструменты для продвижения сайтов скорее всего останутся, но их использование с большой вероятностью станет экономически нецелесообразно. Именно такая ситуация наблюдается сейчас в англоязычном секторе интернета.

В недалеком будущем для продвижения сайта наибольший эффект будет оказывать совокупность следующих основных факторов:

Большой массив качественного контента (уникального и полезного);
- траст сайта;
- возраст сайта;
- разумная внутренняя оптимизация.

Какое-то особое техническое продвижение, основанное на выявлении слабых мест в алгоритмах ранжирования, скорее всего, потеряет актуальность. По крайней мере, все к этому идет.

Статьи по теме .

Обмен информацией в обществе осуществляется главным образом в текстовой форме. Поэтому не случайно, что весьма значительную долю информационных ресурсов современных информационных систем составляет текстовая информация. Разработкам эффективных технологий хранения, обработки и поиска текстовой информации стало уделяться большое внимание уже на ранних стадиях развития информационных систем. Активные исследования и практические разработки в этой области начались еще в 50-х годах прошлого века, с того времени, когда средства вычислительной техники обеспечили возможность ввода-вывода текстовой информации.

Среди информационных систем, имеющих дело с текстовой информацией, наиболее распространенными являются системы текстового поиска. Их задача заключается в том, чтобы находить в хранимой в компьютере коллекции текстовых документов на естественном языке такие документы, которые интересуют пользователя.

Развитие систем текстового поиска стимулировалось в значительной мере потребностями информационной поддержки научных исследований и образования, разработками автоматизированных библиотечных систем. Однако в последние годы они все активнее используются также в управлении компаниями и во многих других сферах деятельности.Поиск информации с помощью компьютеров имеет уже почти полувековую историю. Первые автоматизированные информационные системы начали разрабатываться еще в 50-х годах прошлого века, и главной их функцией был именно поиск информации. Поэтому их назвали информационно-поисковыми системами (ИПС).

В зависимости от характера поддерживаемых информационных ресурсов эти системы было принято разделять на две категории: фактографическиеи документальные. Фактографические ИПС оперировали фактами, представленными в виде сущностей реального мира и их свойств, и позволяли находить сущности, обладающие заданными пользователем свойствами, а также свойства заданных сущностей. Когда в начале 1960-х годов начали зарождаться технологии баз данных, стало ясно, что информационная система этой категории представляет собой частный случай системы базы данных. В результате это направление в области информационного поиска постепенно было «поглощено» технологиями баз данных.

Документальные ИПС предназначены для хранения и поиска документов, содержащих тексты на естественных языках. Такие ИПС и представляют собой ранние системы текстового поиска.

Разрабатывавшиеся в этот период системы текстового поиска назывались дескрипторными ИПС. В таких системах содержание каждого текстового документа и пользовательских поисковых запросов описывается наборами слов или словосочетаний, называемых дескрипторами. В процессе поиска ИПС оперирует не самими текстовыми документами, а такими их «заместителями», которые в большинстве систем формируются вручную авторами документов, экспертами в предметной области документов и другими лицами. Сопоставление наборов дескрипторов, представляющих в системе документы, с набором дескрипторов, представляющим пользовательский запрос, позволяет находить требуемые пользователю документы. ДескрипторныеИПС обладают относительно несложными механизмами поиска, но качество поиска является сравнительно невысоким.

Одной из наиболее распространенных областей применения дескрипторных систем был библиографический поиск. В таких системах хранятся коллекции библиографических описаний документов, и система позволяет находить публикации заданного автора, публикации, выпущенные указанным издательством и/или вышедшие в некотором году и т.п. Многие библиографические дескрипторные ИПС используются до настоящего времени.

В процессе развития средств вычислительной техники компьютеры обрели устройства внешней памяти прямого доступа достаточно большого объема, значительно повысилась производительность процессоров. Это позволило создать и практически использовать в документальных ИПС более совершенные технологии, называемые технологиями полнотекстового поиска.

Благодаря возможности хранения и обработки в таких системах полных текстов документов удалось в большой мере автоматизировать процессы лингвистического анализа и поиска документов. Были разработаны подходы к автоматизации составления ряда используемых при этом словарей и тезаурусов. В технологиях полнотекстового поиска важное место занимают статистические методы анализа документов. Первоначально в полнотекстовых системах обеспечивался главным образом контекстный поиск, т.е. поиск документов, тексты которых содержат вхождение заданного в пользовательском запросе контекста. Позднее стал использоваться поиск по булевскому критерию. Были разработаны также различные более тонкие модели поиска.

На протяжении всей истории систем текстового поиска активно проводились научные исследования в этой области. Большое влияние на развитие систем текстового поиска оказали новаторские исследовательские проекты и разработки экспериментальных прототипов полнотекстовых поисковых систем, выполненные в 60-х годах прошлого века. Этот период характеризуется значительными продвижениями в разных аспектах организации систем текстового поиска и используемых в них методов. В настоящее время перспективные разработки в рассматриваемой области концентрируются вокруг авторитетной международной конференции по текстовому поиску ТRЕС (Техt Retrieval Соnfегеnсе), учрежденной в 1992 г. в США Американским национальным институтом по стандартам и технологиям (NIST).

Активное развитие технологий текстового поиска и информационных потребностей пользователей стимулировали трансформацию ИПС из систем текстового поиска в системы более общего класса, которые имеют дело не только с текстовыми документами, но и с документами, содержащими информацию иной природы. В таких системах (их называют мультимедийными) содержание их объектов поиска - документов - составляет сочетание информационных ресурсов, представленных в различных средах, - текстовых элементов, статических изображений, аудиоданных (музыкальные произведения, текст, произнесенный голосом, и т.п.), мультфильмов, видеоклипов и т.п.

Вероятно, для того чтобы различать системы текстового поиска и поисковые системы, оперирующие этими иными видами информационных ресурсов, в последние годы наряду с термином информационно-поисковая система (Information Retrieval System) стал употребляться термин система текстового поиска (Техt Search System или Техt Retrieval System).

Поскольку пользователи предъявляют к системам текстового поиска довольно высокие требования, современные технологии текстового поиска стали весьма сложной синтетической областью исследований и разработок. Эта область охватывает большой спектр проблем - от теории информационного поиска до методов удовлетворения потребностей пользователей в сборе, организации, хранении, поиске и распространении информации. К ней относятся также проблемы обеспечения интерфейсов между пользователями и средствами управления ресурсами неструктурированной или слабоструктурированной информации, поддерживаемой в компьютерной среде. В системах текстового поиска находят применение как аналитические, так и эмпирические подходы.

Значительное место в технологиях текстового поиска занимает обработка естественного языка, т.е. компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относят к области искусственного интеллекта.

В современных технологиях текстового поиска используется не только аппарат лингвистики для анализа текстов, но и статистические методы, математическая логика и теория вероятностей, кластерный анализ, методы искусственного интеллекта, а также технологии управления данными.

Работы по информационной супермагистрали, в частности связанные с созданием электронных библиотек, развернувшиеся во многих странах мира в середине 1990-х годов, в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как обнаружение информации в глобальной компьютерной сети, текстовый поиск в Веб, мультиязыковой поиск.

За свою полувековую историю развития технологии текстового поиска сделали огромный шаг от простейших дескрипторных информационно-поисковых систем к изощренным системам полнотекстового поиска, от поисковых систем к системам с более богатой функциональностью. Ресурсы современных вычислительных систем позволяют хранить огромные объемы информационных ресурсов в системах текстового поиска, осуществлять в них не только технические, но и алгоритмически сложные процедуры обработки хранимых коллекций документов - их классификацию, кластеризацию, глубинный анализ текстов, перевод документов с одного языка на другой и т.д.

Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных систем, называемых системами управления документами, которые широко используются в настоящее время во многих крупных коммерческих компаниях и других организациях. В таких системах важная роль отводится не только методам обработки естественного языка, созданным для работы с текстовыми документами, но и организации групповой разработки документов, их хранения, распространения и конечно же технологиям текстового поиска.

Развитие технологий текстового поиска в последние годы довольно интенсивно продолжается благодаря активным исследованиям и разработкам, проводимым во многих странах. Сформировалась индустрия коммерческого программного обеспечения для систем текстового поиска. Такие системы разрабатываются и широко используются и в нашей стране.

Как уже отмечалось, технологии текстового поиска имеют дело с информацией, представленной на естественных языках. Содержательное разнообразие такой информации довольно велико - это могут быть статьи, опубликованные в газетах и журналах, разнообразные технические руководства, отчеты, книги, диссертации, письма, законодательные акты и пр.

Основная единица информации в системах текстового поиска называется документом. Документ - это не юридическая сущность, а содержательно законченная идентифицируемая уникальным образом единица информации, представленная на каком-либо естественном языке. В раннихИПС документ рассматривался как атомарная (неделимая) единица. Для системы он выступал как «черный ящик». В более развитых системах текстового поиска содержание документа доступно системе для обработки и анализа.

Полнотекстовые системы текстового поиска оперируют электронными документами, т.е. документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерный лингвистический анализ и обработка текстовых документов возможны лишь в случае, если программно-доступны отдельные элементы текстового документа. Поэтому совершенно недостаточно просканировать текстовый документ на бумажном носителе и сохранить полученное его факсимиле в памяти компьютера в виде графического файла какого-либо формата. Необходимо иметь документ в оцифрованном виде, т.е. в таком формате, что каждая литера текста этого документа программно-доступна. Система может, таким образом, оперировать элементами содержания оцифрованного документа. Представление текстового документа в оцифрованном виде может быть создано, например, с помощью:

Сканирования его с бумажного носителя и использования программы распознавания оптических символов (Optikal Character Recognition – OCR);

Генерации текста программным путем распознавателями голоса или какими-либо другими способами.

Совокупность хранимых в системе документов по-разному называется в разных системах (поисковый массив, архив и т.п.). В последнее время для этой цели часто используется термин «коллекция документов». Каждая система текстового поиска, вообще говоря, может поддерживать несколько различных коллекций документов.

Документы хранятся в системе текстового поиска для того, чтобы удовлетворять информационные потребности пользователей. Представление информационных потребностей пользователя в форме, воспринимаемой программным обеспечением системы текстового поиска, называется пользовательским запросом (или просто запросом). Необходимым компонентом содержания пользовательского запроса является описание тех свойств, которыми обладают документы, интересующие пользователя. Это описание естественно называть критерием поиска.

Следует подчеркнуть, что единицей гранулярности поиска, т.е. наименьшей единицей информации, которая может выдаваться пользователю в результате обработки заданного им запроса, в большинстве систем текстового поиска является именно документ, а не какая-либо его порция. Как правило, в результате обработки пользовательского запроса система выдает множество результирующих документов, удовлетворяющих заданному в запросе критерию.

Критерии поиска в пользовательских запросах могут иметь различную форму. Например, это может быть набор термов (слов или словосочетаний), содержащихся в требуемых документах, или термов, соединенных символами булевских операторов. В последнем случае булевский оператор интерпретируется как условие одновременного (оператор «И») вхождения связываемых им слов в документ, альтернативного вхождения (оператор «ИЛИ») или отсутствия вхождений (оператор «НЕ») следующего за ним терма. В более сложных случаях роль критерия поиска может выполнять предложение на естественном языке или даже пример документа, удовлетворяющего информационным потребностям пользователя. Анализируя такой документ, система выделит термы для формирования некоторого «внутреннего» вида этого пользовательского запроса.

Хранящиеся в системе документы, которые соответствуют пользовательскому запросу, называются релевантными.

Релевантность документа не обязательно должна оцениваться в терминах двузначной логики («да - нет»). В некоторых развитых системах используются более тонкие оценки, которые вычисляются как значения специально подобранной числовой функции (функции релевантности), принимающей значения в интервале . В таких случаях уместно говорить о степени релевантности документа, понимая ее как значение этой функции. Некоторые системы текстового поиска выдают пользователю множества документов, полученных в результате обработки запросов, упорядочивая документы по убыванию степени релевантности. Такое упорядочение найденных документов называют их ранжированием. Пользователь более эффективно может анализировать ранжированное множество результирующих документов запроса. С большой вероятностью наиболее интересующие его документы из числа найденных находятся в начале выводимого списка документов.

В силу различных причин, связанных, в частности, с трудностями автоматизации понимания естественного языка, а также с неточностью отображения информационных потребностей пользователя в запросе, в результате обработки пользовательского запроса могут быть найдены документы, не соответствующие информационным потребностям пользователя. Такое явление называется информационным шумом.

Важными характеристиками качества поиска в системах текстового поиска являются полнота и точность поиска. Полнота поиска определяет отношение количества релевантных документов, выдаваемых в результате обработки пользовательских запросов, к количеству фактически имеющихся в системе релевантных документов. Для количественной оценки точности поиска может служить доля релевантных документов во множестве результирующих документов запроса.

2. Принципы текстового поиска

Рассмотрим теперь основные принципы построения современных систем текстового поиска. Разнообразие используемых здесь технологий вызвано различиями подходов, используемых для представления смысла хранимых в системе документов на естественных языках и информационных потребностей пользователей, многообразием критериев релевантности документов пользовательским запросам.

Источники сложности современных систем текстового поиска. В отличие от технологий ранних информационно-поисковых систем развитые современные технологии текстового поиска обеспечивают поиск интересующих пользователя документов на основе их информационного содержания, а не только по наборам дескрипторов или значениям каких-либо атрибутов, ассоциированных с этими документами (год издания, автор, издательство и т.п.). Эти атрибуты, хотя и могут, в частности, быть уникальными идентификаторами документов, но никак не зависят от их содержания.

Основные проблемы технологий текстового поиска связаны со сложностью однозначной автоматической интерпретации содержания текстов документов и формулировок информационных потребностей пользователей на естественном языке. Высказывания на естественном языке часто обладают двусмысленностью и избыточностью. Необходимо учитывать синонимию и омонимию терминов, многообразие грамматических форм элементов языка. Смысловые связи между словами в предложении часто представляются в неявной форме. Динамична лексика естественных языков, довольно часто во многих предметных областях появляются новые понятия и термины.

Указанные особенности приводят к отсутствию какой-либо регулярной структуры у текстовых документов на естественном языке. Поэтому данные, представляющие информационные ресурсы такой природы, называют неструктурированными.

Смысловое сопоставление содержания хранимых в системе документов и выраженных на естественном языке пользовательских запросов является довольно трудной задачей. Именно этим и объясняются сложности решения вопроса о том, соответствует ли рассматриваемый документ информационным потребностям пользователя в современных системах текстового поиска.

Для управления данными такой природы необходимо использовать иную, чем в системах баз данных, технику управления данными, хотя некоторые элементы управления данными, используемые в системах баз данных, применимы и для систем текстового поиска.

Представления документов. Коллекции документов, хранимых в системах текстового поиска, могут быть довольно крупными. Довольно большой объем могут иметь и содержащиеся в документах тексты. Поэтому нереально рассчитывать на то, что система текстового поиска сможет анализировать полные тексты хранимых документов в процессе обработки пользовательских запросов, даже если эта система базируется на очень мощном компьютере. Производительность такой системы была бы не слишком высока.

Выход из положения заключается в том, чтобы в процессе обработки пользовательского запроса работать не с самими документами, а с некоторыми структурированными представлениями их содержания, которые называют представлениями документов (в некоторых публикациях их называют также представителями документа). Использование представления документа вместо непосредственно самого документа позволяет избежать трудоемкого процесса просмотра и анализа полного его содержания на стадии поиска и вместе с тем использовать преимущества структурированного представления для повышения эффективности поиска.

В современных системах текстового поиска используются различные подходы к построению представлений хранимых документов. От характера используемых представлений документов существенно зависит качество поиска - его точность, полнота, производительность и другие характеристики. Поскольку введенные в систему текстовые документы остаются, как правило, неизменными на протяжении всего времени их существования в системе, построение представления каждого имеющегося в системе документа можно осуществлять однократно на этапе его ввода в систему.

Индексирование документов. Представление документа обычно конструируется на основе множества свойств (атрибутов) этого документа. В простых системах текстового поиска эти атрибуты, как уже указывалось, вообще не являются какими-либо компонентами содержания документа. В качестве таких атрибутов могут использоваться какие-либо внешние (по отношению к тексту документа) его характеристики, и совсем не обязательно, чтобы они идентифицировали его уникальным образом. Можно, например, использовать регистрационный номер документа в архиве, дату его регистрации, название организации - получателя документа, указание места его хранения и пр. В качестве таких внешних атрибутов документов могут также использоваться рубрики классификаторов документов или элементы метаданных Дублинского ядра.

Дублинское ядро (Dublin Core - DC) - это набор элементов метаданных, смысл которых описан вербально и зафиксирован в спецификации определяющего его стандарта. В терминах значений этих элементов можно описывать содержание различного рода текстовых документов и документов, представленных в иных средах. Такое описание будет однозначно пониматься всем сообществом, использующим DC для представления документов и пользовательских запросов.

Дублинское ядро находит все более широкое распространение в последние годы. Привлекательность такого подхода связана с его простотой, чтоконечно же оборачивается ограниченностью его возможностей.

Первоначальная версия Дублинского ядра, которая включала 13 элементов, была предложена на состоявшемся в 1995 г. в Дублине (США) симпозиуме, организованном On-line Computer Library Center (OCLC) и National Center for Supercomputing Applications (NCSA) для описания информационных ресурсов библиотечных систем, в частности информационных ресурсов Веб и т.п. Развитие Дублинского ядра поддерживается специально учрежденной для этой цели организацией - Инициативой по метаданным Дублинского ядра (Dublin Core Metadata Initiative - DCMI).

Текущая версия спецификаций Дублинского ядра DC 1.1 была принята в качестве стандарта DCMI в 1999 г. Она включает 15 элементов метаданных. К ним относятся:

Title (название ресурса);

Creator (лицо, организация или служба, ответственные за подготовку содержания ресурса);

Subject (тема, обсуждаемая в содержании ресурса);

Description (описание содержания ресурса в свободной форме);

Publisher (лицо, организация или служба, обеспечивающие доступ к ресурсу);

Contributor (другие участники подготовки содержания ресурса помимо указанного в Creator)",

Date (дата создания или предоставления доступа к ресурсу);

Format (характер представления ресурса);

Language (язык представления ресурса);

Coverage (область пространства, времени и т.д., к которой относится содержание ресурса);

Rights (права интеллектуальной собственности на ресурс и т.п.). Достигнутое соглашение о составе элементов метаданных Дублинского ядра фиксирует состав принадлежащих ему элементов. Однако на вербальном уровне трудно однозначным образом приписать каждому из них точный смысл. Например, элемент Date в различных случаях может иметь разный смысл - дата публикации страницы в Веб, дата последнего обновления этой страницы и т.д.

По этой причине в 2000 г. для Дублинского ядра DMCI была предложена концепция квалификаторов и опубликован их первоначальный состав.

Квалификаторы - это уточнители семантики элементов метаданных Дублинского ядра и их значений в различных конкретных случаях их применения. Например, для элемента Date можно указать, что имеется в виду время создания ресурса, время его доступности или время, в течение которого его содержание имеет силу, и т.д. Для значения элемента Relation можно указать, что оно представлено в формате URL.

Если квалификатор, указанный для некоторого элемента метаданных Дублинского ядра, оказался неизвестным для приложения Веб, то он должен игнорироваться.

Принятый DMCI в 2000 г. набор квалификаторов включает квалификаторы двух категорий: квалификаторы, которые уточняют семантику элементов метаданных ядра, и квалификаторы, определяющие способ кодирования значений его элементов, что позволяет адекватным образом их интерпретировать.

В настоящее время ведется работа по уточнению как приведенного состава набора элементов метаданных, так и их квалификаторов. На основе спецификаций DC 1.1 в 2001 г. был принят национальный американский стандарт ANSI/NISO Z39.85-2001.

В системах контекстного полнотекстового поиска атрибуты представления документа - это термы, извлеченные из его содержания, - слова, словосочетания и т.п., или значения каких-либо специально подобранных функций, вычисленные на основе этих извлеченных термов.

В любом случае ассоциированные с документом атрибуты, идентифицирующие документ и/или характеризующие его содержание, называются его индексирующими свойствами. На основе индексирующих свойств документов в системе текстового поиска строится вспомогательная структура данных, позволяющая по их значениям или по значениям некоторой функции, использующей их в качестве аргументов, эффективным образом (без полного просмотра содержания документов и без полного их перебора) обнаруживать в системных коллекциях документ или документы, которым эти атрибуты соответствуют, и при необходимости осуществлять быстрый доступ к этим документам. Такая вспомогательная структура данных называется индексом, а процесс назначения документу указанных атрибутов - индексированием документа.

В ранних системах текстового поиска использовалось простейшее представление документов, которое имело большую популярность благодаря его простоте, хотя и не могло обеспечить высокого качества поиска. В качестве такого представления служила совокупность слов или словосочетаний лексики предметной области системы, характеризующая содержание данного документа. Эти слова и словосочетания называются дескрипторами. Представление документа в дескрипторных системах называется поисковым образом документа.

ИПС, в которых используется рассматриваемый подход, называются дескрипторными системами. Такие системы используются до настоящего времени. Индексирование документа в них сводится к назначению для него совокупности дескрипторов.

Индексирование документов в системах текстового поиска может осуществляться на основе их названий, аннотаций или полного текста. Оно может производиться вручную авторами документов, экспертами в предметной области системы, подготавливающими документы к вводу в систему, или автоматически системными механизмами на основе анализа документов.

Методы представления и индексирования документов в современных развитых системах текстового поиска используют довольно трудоемкие вычислительные процедуры, поэтому они могут быть реализованы только автоматически.

Представление пользовательских запросов. Формирование структурированных представлений содержания пользовательских запросов является другой важной задачей систем текстового поиска. Точно так же, как в процессе поиска система оперирует структурированными представлениями документов вместо самих документов, она использует вместо заданного пользователем запроса его структурированное представление, которое конструируется в процессе обработки этого запроса. Представление запроса строится на основе тех же принципов, что и представления документов в данной системе, поскольку иначе их невозможно было бы сопоставлять.

Например, в дескрипторных системах текстового поиска в качестве представления запроса также используется совокупность дескрипторов, характеризующих содержание запроса. В таких системах представление запроса называется поисковым образом запроса.

Критерии релевантности документов. В процессе обработки пользовательского запроса системе необходимо оценивать релевантность очередного рассматриваемого документа. Для решений этого вопроса его представление должно сопоставляться по некоторому критерию релевантности (критерию близости) с представлением запроса.

Вид критерия близости зависит от подхода, используемого в системе для формирования представлений документов и запросов. В дескрипторных системах обычно используются теоретико-множественные критерии. Например, документ признается релевантным, если множество дескрипторов поискового образа запроса является подмножеством множества дескрипторов поискового образа документа. Другие варианты критерия - указанные множества дескрипторов равны или их пересечение не пусто. В продвинутых системах текстового поиска используются более сложные критерии близости.

Общие принципы текстового поиска. Современные системы текстового поиска используют довольно широкий спектр подходов к представлению и индексированию хранимых документов, к представлению пользовательских запросов, к оценке релевантности документов. Однако как в простых, так и в продвинутых системах используются некоторые общие принципы организации поиска. Эти общие принципы заключаются в следующем.

При вводе документа в систему осуществляется индексирование документа и строится его представление, которое будет далее выступать заместителем этого документа в процессе функционирования системы при обработке пользовательских запросов. Поскольку представление документа в достаточной мере формализовано, исключается необходимость анализа его полного текста каждый раз при обработке запросов. Представление документа остается неизменным в течение всего периода существования документа в системе, поскольку содержание документа не изменяется.

Далее, на основе индексирующих свойств конкретных документов, полученных извне системы или выявленных самой системой путем анализа содержания документов, система формирует и поддерживает индекс для каждой коллекции хранимых в ней документов. Она также обеспечивает актуализацию индекса при пополнении коллекции или, что случается сравнительно редко, при исключении документов из коллекции.

При поступлении в систему пользовательского запроса для него также строится соответствующее представление. Метод его построения аналогичениспользуемому для построения представлений документов.

Наконец, собственно поиск заключается в том, что каким-либо эффективным образом (не прямым перебором, а обычно с помощью рационально организованного индекса документов коллекции) осуществляется сопоставление представления запроса с представлениями хранимых в системе документов по принятому и системе критерию близости. В некоторых случаях для этих цепей вводится специальная метрика. Результаты обработки запросов представляются в виде множества найденных релевантных документов (результирующего множества документов).

Хотя на практике используются различного рода представлении документов и пользовательских запросов, указанные общие принципы текстового поиска используются в самых различных системах.

3. Средства лингвистической поддержки

При обработке полнотекстовых документов в системах текстового поиска приходится иметь дело со средствами обработки естественного языка. Эти средства представляют собой довольно сложный и важный функциональный компонент таких систем.

Средства обработки естественного языка в системах текстового поиска позволяют выделять из анализируемых текстовых документов и пользовательских запросов термы (слова, словосочетания или фразы) - носители их содержания, выявлять зависимости между этими термами, принимать во внимание их концептуальные связи в контексте данной предметной области, строить на этой основе представления документов, трансформировать поисковые запросы пользователей в удобную для реализации поиска форму, осуществлять расширение запросов для повышения полноты поиска.

Для выполнения указанных функций в большинстве систем рассматриваемого класса используются комплексы средств лингвистической поддержки. Такой комплекс может включать различные словари, тезаурусы, онтологические спецификации предметной области системы.

Системные словари. В системах текстового поиска, имеющих дело с обработкой естественного языка, могут поддерживаться словари общеязыковой лексики и лексики предметной области. Такие словари служат для морфологического анализа текста, для обеспечения отождествления слов в различных грамматических формах в процессе поиска, а также для построения некоторых видов представлений документов и запросов.

Тезаурусы. Важную роль в анализе и формировании формализованного представления текстовых документов играют специальные словари, называемые тезаурусами. Тезаурус - это словарь основных понятий языка, обозначаемых отдельными словами или словосочетаниями, с определенными семантическими связями между ними.

Тезаурус может быть общеязыковым (например, тезаурус русского языка) или ориентированным на какую-либо предметную область. Лексика тезауруса включает множество слов и/или множество фраз. Виды поддерживаемых семантических связей между ними могут быть зависимыми или независимыми от конкретной предметной области. Обычно такие связи определяют синонимы, омонимы, антонимы понятий языка, поддерживают между ними отношения вида «целое - часть», «род - вид», «используется для», «работает в» и т.д.

В настоящее время применяются два способа создания тезаурусов - ручной и автоматический. Тезаурус, созданный вручную, может быть универсальным, независимым от конкретной коллекции документов. Однако, к сожалению, разработка тезауруса вручную является весьма дорогостоящим, кропотливым и трудоемким делом, требующим значительного времени. Поэтому на практике часто используют автоматическое создание тезаурусов. Методы решения этой задачи начали разрабатываться еще в начале 60-х годов прошлого века. Автоматическое создание тезаурусов осуществляется обычно на основе заданных коллекций текстовых документов, поэтому такие тезаурусы предназначены для работы именно с этими коллекциями.

В системах, использующих тезаурус, он позволяет, например, при поиске по ключевым словам расширять запрос, включая в него синонимы первоначально заданных пользователем ключевых слов и обеспечивая тем самым более полный поиск. Могут быть отождествлены синонимы в документе и в запросе. Тезаурусы также часто используются в процессе ручного или автоматического индексирования документов.

Онтологии. Для адекватной интерпретации пользователем и/или системой содержания текстовых документов и поисковых запросов, представленных на естественном языке, система должна располагать контекстом, который определяет основные понятия предметной области и различного рода семантические связи между ними. Это описание не зависит от содержащихся в системных коллекциях конкретных документов и представляет собой спецификацию концептуализации предметной области системы. Выраженная явным образом такая спецификация называется онтологией предметной области. Онтологии получили в последние годы широкое распространение в разнообразных информационных системах, основанных на знаниях, в инженерии" знаний, в решении проблем семантической интеграции информационных ресурсов и т.д.

Онтология предметной области может поддерживаться в системе с различной степенью формализованности. В простейшем случае она представляется в виде некоторого вербального описания. Тогда она предназначена для использования человеком на стадии индексирования документов и при формулировке запросов. В более сложном случае онтология представляется в формализованном виде на языках представления знаний, допускающих логический вывод. Такие системы называют интеллектуальными.

Еще на ранней стадии развития систем текстового поиска начали использовать представление онтологии в форме иерархических классификаторов.Такие описания на каждом иерархическом уровне поддерживают отношение эквивалентности на множестве классифицируемых сущностей, обеспечивающее его разбиение на попарно непересекающиеся классы. При этом сущности соседних уровней иерархии обычно находятся в отношении «целое - часть» или «род - вид».

Другой неформальный способ описания онтологии, который довольно широко применяется в системах текстового поиска, - это представление ее в форме тезауруса предметной области системы.

Для формального описания онтологии в развитых системах используются языки логики первого порядка. Они допускают возможности логического вывода. Довольно широкое распространение получил для представления онтологии язык указанной категории KIF (Knowledge Interchange Format), разработанный в начале 1990-х годов в Лаборатории систем знаний (KSL) Стэнфордского университета.

Одной из последних разработок, посвященных созданию средств формального описания онтологии, является стандарт языка определения онтологии для информационных ресурсов Веб - Web Ontology Language. Работу над этим стандартом ведет Рабочая группа по онтологиям для Веб консорциумаW3C. Указанный язык, несомненно, найдет применение в интеллектуальных системах поиска информационных ресурсов в среде Веб второго поколения.

4. Модели поиска

Наиболее развитые технологии текстового поиска обеспечиваются в настоящее время полнотекстовыми системами. Как уже было показано, существуют различные подходы к построению таких систем. Эти различия связаны не только с разнообразием форм информационных потребностей пользователей, но и, главным образом, с различием способов представления полнотекстовых документов и пользовательских запросов в системе.

Понятие модели поиска. Ключевым понятием, характеризующим технологию поиска в той или иной конкретной системе, является модель поиска.Под моделью поиска понимается сочетание: способа формирования представлений документов; способа формирования представлений поисковых запросов; вида критерия релевантности документов.

Разнообразие функциональных возможностей различных систем текстового поиска связано именно с различием реализованных в них моделей поиска.

Простейшие модели поиска. Во многих системах используются простейшие модели поиска. К их числу относятся, например, рассмотренные выше модели поиска дескрипторных ИПС и систем, использующих Дублинское ядро.

Другим примером простейших моделей поиска являются модели, основанные на классификаторах. В модели, основанной на классификаторе, документы представляются идентификаторами классов в иерархической структуре классификатора, к которым относится данный документ. Представление запроса в простейшем случае также представляет собой идентификатор интересующего пользователя класса заданного классификатора. Критерием релевантности документа является условие, что класс документа совпадает с каким-либо классом в представлении запроса или является его подклассом.

В более сложном случае в моделях поиска, основанных на классификаторе, допускается указание в запросе нескольких классов классификатора. При этом релевантными считаются документы, принадлежащие какому-либо из указанных в запросе классов или его подклассу. Такая модель поиска близка к рассматриваемой далее булевской модели.

Модели контекстного поиска. Несколько более сложный характер имеют модели контекстного поиска. Применение этих моделей стало возможным, когда достаточно высокой производительности достигли процессоры вычислительных машин и вырос объем их внешней памяти прямого доступа. В моделях контекстного поиска используется представление документа как совокупности всевозможных встречающихся в его тексте слов и словосочетаний, не считая так называемых стоп-слов. Стоп-слова - это служебные слова (предлоги, союзы и т.п.), которые встречаются практически в любом документе. Поиск документов, содержащих такие слова, привел бы к выдаче полной коллекции документов в ответ на запрос. Поэтому такие слова не могут использоваться в качестве индексирующих свойств документов.

В системах рассматриваемого класса строится индекс по всем встречающимся в документах словам и словосочетаниям, кроме стоп-слов. При этом для построения индекса слова, выделенные из текста документа, приводятся сначала к «каноническому виду» с помощью поддерживаемых в системе словарей и средств грамматического разбора. Пользовательский запрос также подвергается грамматическому разбору, в процессе которого из запроса также выделяются встречающиеся в его тексте слова и словосочетания. Документ считается релевантным, если какие-либо слова или словосочетания из запроса встречаются с точностью до грамматических форм в тексте документа.

Иногда используется более жесткий критерий релевантности - вхождение в текст документа всех названных в запросе слов и словосочетаний и т.д.

Булевские модели поиска. В системах текстового поиска широко используются булевские модели поиска. Пользователь может формулировать запрос в виде булевского выражения с использованием операторов И, ИЛИ, НЕТ. Термы булевского выражения могут быть различными в разных вариациях булевских моделей поиска. Это может быть, например, условие вхождения данного слова или словосочетания (с точностью до грамматических форм) в текст документа в булевском расширении контекстной модели поиска. В булевском расширении модели поиска по классификаторам термами выражения могут быть условия принадлежности документа данному классу классификатора. В булевской модели поиска с использованием Дублинского ядра термом может быть равенство, описывающее тот факт, что некоторый элемент метаданных для рассматриваемого документа имеет заданное в запросе значение.

Критерием релевантности данного документа запросу в булевских моделях поиска является истинность булевского выражения, заданного в запросе.

Векторные модели поиска. Наиболее широкое применение в развитых системах текстового поиска имеют векторные модели поиска. Использование таких моделей требует значительно больших вычислительных ресурсов по сравнению с другими моделями, однако они обеспечивают существенно более высокое качество поиска.

В векторных моделях предполагается, что документы и запросы представляются векторами. В простейшем случае координаты вектора соответствуют термам текста - словам или словосочетаниям, принадлежащим словарю системы, который представляет общеязыковую лексику или лексику предметной области. Каждому терму из такого словаря сопоставляется свое измерение в векторном пространстве. Размерность векторов, представляющих документы и пользовательские запросы, в точности равна количеству измерений в этом пространстве.

Координате вектора присваивается единичное значение в том случае, когда соответствующий ей терм встречается в данном документе или, соответственно, в пользовательском запросе. В противном случае координате вектора присваивается нулевое значение. Поскольку размер словаря может быть очень большим, а документы или тексты запросов содержат существенно меньшее количество содержащихся в нем термов, такие векторы оказываются очень разреженными. Поэтому нужно использовать какую-либо технику сжатого их представления.

Для оценки степени релевантности документа запросу (меры их близости) в векторных моделях поиска используются какие-либо векторные функции, аргументами которых выступают представляющие их векторы. Например, можно использовать в качестве такой меры косинус угла между вектором документа и вектором запроса. Важно заметить, что, поскольку ненулевые координаты этих векторов соответствуют только термам, входящим в текст документа и текст запроса, на значение функции - меры в обоих этих случаях - оказывают влияние только термы, общие для документа и запроса.

Для повышения управляемости векторных моделей поиска часто усложняют эти модели. Вводятся веса термов, характеризующие их значимость. Значения этих весов используются в качестве координат вектора документа, если его текст включает соответствующие термы. Таким образом, вхождения различных термов в текст документа оказывают различное влияние на значение функции близости документа и запроса. Существуют разные подходы к выбору указанных весов. Чаще всего для этой цели используют произведение частоты вхождения терма в данный документ и частоты его вхождения во все документы коллекции в целом. Взвешиваться могут также и термы запроса.

Различия между конкретными векторными моделями поиска сводятся именно к различным способам назначения весов термов и выбора мер близости. Векторные модели позволяют ранжировать результирующее множество документов запроса.

5. Состояние разработок систем текстового поиска

Системы текстового поиска в последние годы стали активно использоваться в самых различных областях деятельности. В то время как первоначально они разрабатывались главным образом как инструмент для библиотечного дела, в настоящее время они нашли применение в различных организациях для работы с их текстовыми информационными ресурсами. Особенно интенсивно технологии текстового поиска начали развиваться с появлением глобального информационного пространства Веб.

Круг проблем в области текстового поиска. В настоящее время проблематика текстового поиска стала довольно обширной. Она охватывает различные области теории и разработки систем текстового поиска, такие, как:

Развитие конкретных моделей поиска;

Методология проведения экспериментов, тестирования и оценки систем;

Методы реализации текстового поиска;

Подходы к интеграции технологий текстового поиска и баз данных;

Поиск в среде Веб;

Методы сжатия данных;

Оценка эффективности обработки запросов;

Обработка естественного языка;

Методы классификации и кластеризации текстовых документов;

Приложения информационного поиска в электронных библиотеках;

Глубинный анализ текстов;

Технологии индексирования и поиска мультимедийной информации;

Интерфейсы «человек - компьютер» и т.д.

Расширение функциональных возможностей текстовых систем.

Разработчики систем текстового поиска уделяют большое внимание не только совершенствованию механизмов выполнения их базовых функций, но и развитию ряда дополнительных возможностей, позволяющих существенным образом увеличить эффективность поиска, повысить управляемость системы, обеспечить более комфортные условия для работы пользователя. Перечислим некоторые такие возможности.

Повышение точности поиска. В формулировке пользовательского запроса не все термы могут быть равнозначными. Некоторые системы текстового поиска позволяют пользователю придать веса используемым в запросе термам с тем, чтобы охарактеризовать их значимость в запросе. Эта информация используется при вычислении оценок релевантности документов информационным потребностям пользователя, и тем самым существенно повышается точность поиска.

Ранжирование результирующих документов запроса. В силу рассмотренных ранее причин системы текстового поиска не могут гарантировать строгого удовлетворения информационных потребностей пользователя в результате выполнения поисковых запросов. Количество результирующих документов обычно бывает значительным. Поэтому очень важно упорядочить документы, выдаваемые системой пользователю, таким образом, чтобы в начале списка находились документы, которые, вероятно, в большей мере представляют интерес для пользователя. Операция такого рода называется ранжированием документов. Развитые системы текстового поиска обладают механизмами, обеспечивающими такую возможность. В зависимости от реализуемой ими модели поиска, предусматривается упорядочение множества документов, выдаваемых в результате обработки пользовательского запроса, по некоторым оценкам степени их релевантности запросу или вероятности удовлетворения информационных потребностей пользователя.

Обратная связь релевантности - важная функция, позволяющая повысить эффективность поиска требуемых пользователю документов. Дело в том, что результаты обработки запроса могут не удовлетворять пользователя. В таких случаях во многих системах текстового поиска пользователю предоставляется возможность уточнить запрос. Для этого он может дать оценку релевантности полученных документов - указать, какие из них он считает релевантными или нерелевантными.

Поскольку количество результирующих документов может быть довольно большим, пользователю предлагается оценить хотя бы несколько первых документов в ранжированном списке, т.е. тех документов, которым система назначила наивысшие оценки степени релевантности. Система может использовать термы этих документов для формирования нового, расширенного запроса, который, скорее всего, будет точнее выражать информационные потребности пользователя.

Такой итерационный процесс обработки запроса и модификации его с помощью анализа данных, полученных на основе обратной связи пользователя с системой, может повторяться до тех пор, пока пользователь не будет удовлетворен результатами поиска. Обратная связь релевантности используется в системах, основанных на различных моделях поиска.

Автоматическое расширение пользовательских запросов. Имеется в виду расширение представления запроса, первоначально предложенного системе пользователем. Эта возможность также служит для повышения эффективности поиска.

Исходное представление запроса может пополняться за счет:

Синонимов термов, содержащихся в запросе, если система располагает тезаурусом, поддерживающим отношение синонимии;

Термов, которые находятся с термами запроса в некоторых других семантических отношениях, определенных тезаурусом предметной области,например представляют часть понятия, соответствующего некоторому терму запроса, и т.п.;

Термов результирующих документов, оцененных пользователем как релевантные или нерелевантные, в системах, обеспечивающих обратную связь релевантности;

Часто встречающихся орфографически ошибочных форм некоторых термов запроса и т.д.

Автоматическое индексирование документов. Исследования, проведенные еще на ранних стадиях развития систем текстового поиска, показали, что автоматическое индексирование документов не уступает по качеству ручному индексированию. Поэтому в современных развитых системах используется автоматическое индексирование.

Мулътиязыковой поиск. Некоторые системы текстового поиска позволяют осуществлять поиск в коллекциях, содержащих документы, представленные на нескольких естественных языках. Одной из сложных проблем, которые при этом возникают, является идентификация языка, на котором представлен обрабатываемый документ или его фрагменты.

Кросс-языковой поиск. Существуют такие системы текстового поиска, в которых возможны ситуации, когда информационные потребности пользователя определены на одном языке, а документы коллекции, в которой должен осуществляться поиск, представлены на другом языке. Эта задача пока еще является в значительной мере исследовательской, хотя она уже довольно часто встречается на практике, например в системах международных организаций, транснациональных компаний или какой-либо организации в стране, где существует несколько государственных языков.

Основная проблема кросс-языкового поиска состоит в сопоставлении документа и пользовательского запроса, представленных на разных языках.Для ее решения необходимо использовать перевод документов, перевод запросов либо перевод того и другого вместе. При этом используются разные подходы - пословный перевод по двуязычному словарю, «ручной» перевод с поддержкой компьютера, автоматический машинный перевод полного документа или части документа.

Текстовый поиск в системах баз данных. Интеграция ресурсов баз данных и коллекций текстовых документов, а также использование инструментария систем баз данных для реализации систем текстового поиска уже давно востребованы практикой разработки информационных систем.

Действительно, текстовые документы могут обладать различными структурированными характеристиками, и в таких случаях может потребоваться не только традиционный поиск по содержанию документов, но и поиск по значениям таких ассоциированных с документами внешних атрибутов. Поддержка связей между ассоциированными с документами атрибутами и соответствующими им документами, а также поиск документов по значениям ассоциированных с ними атрибутов вполне вписываются в обычные технологии баз данных. Кроме того, механизмы среды хранения СУБД могут быть использованы и для хранения самих документов.

Вместе с тем информационные ресурсы, которыми оперируют системы баз данных, часто включают наряду со структурированными данными также и связанные с ними текстовые документы. Поэтому необходимость текстового поиска возникает и в среде традиционных систем баз данных. В связи с указанными причинами традиционные СУБД стали оснащаться механизмами текстового поиска по содержанию документов.

Технологии текстового поиска поддерживаются в настоящее время многими реляционными и объектно-реляционными серверами баз данных, например СУБД DB2 компании IBM, Oracle компании Oracle Corp., и SQL- Server 7.0 и SQL- Server 2000 компании Microsoft Corp. Нужно заметить, однако, что в большинстве таких СУБД механизмы текстового поиска не обеспечивают реализации продвинутых моделей поиска, которые обсуждались выше. Чаще всего дело ограничивается поддержкой булевской модели поиска, иногда с расширением запросов, с механизмами полнотекстового индексирования и с некоторыми другими дополнительными возможностями.

Поиск текстовых ресурсов в Веб. С ростом объема информационных ресурсов Веб проблема использования технологий текстового поиска в этой среде становится все более актуальной. Навигационный доступ к информационным ресурсам Веб не обеспечивает достаточно оперативного доступа к ним.

При реализации технологий текстового поиска в Веб учитываются специфика Веб как среды поиска, особенности поддерживаемых в ней информационных ресурсов, а также поведения пользователя при взаимодействии с Веб.

Ранние поисковые системы Веб, называемые также поисковыми машинами Веб, обеспечивали простейший контекстный поиск. Позднее стали появляться реализации булевских моделей поиска. В последние годы интерес к проблемам текстового поиска в Веб значительно вырос. Разными коллективами проводятся многочисленные и разнообразные исследования в этой области. В настоящее время существует целый спектр систем текстового поиска для Веб. Среди них имеются системы универсальные и ориентированные на определенные предметные области, системы международного и национального масштаба. К их числу относятся крупнейшая многоязыковая поисковая система AltaVista, системы Yahoo!, Google, поисковая система по русским страницам Веб Яndex и многие другие. Они различаются областью действия - составом сканируемых веб-серверов, организацией пользовательских интерфейсов, функциональными возможностями механизмов поиска. Все они поддерживают различные версии булевской модели поиска. Некоторые системы обеспечивают ранжирование результирующего множества документов, поддерживают обратную связь релевантности. Система AltaVista реализует возможности поэтапного сокращения области поиска. После проведения поиска пользователю предоставляется гистограмма, характеризующая статистику найденного множества документов по классам. Пользователь может отобрать интересующие его классы. Далее поиск повторяется в рамках идентифицированного таким способом подмножества информационных ресурсов, доступных системе.

Весьма серьезных новых достижений в развитии систем текстового поиска в среде Веб можно ожидать в связи с интенсивными разработками платформы XML - технологической платформы Веб нового поколения. Важно заметить, что системы текстового поиска в Веб, основанные на стандартах платформы XML, обеспечивают уменьшение гранулярности поиска. Объектами поиска при этом вовсе не обязательно должны быть полные документы. Поисковая система может выдавать по запросам пользователей интересующие их фрагменты документов. Кроме того, представление текстовых информационных ресурсов Веб средствами XML позволяет использовать различные средства описания их семантики и на этой основе существенно снизить уровень информационного шума при обработке пользовательских запросов.

Новые требования к системам текстового поиска. Новые условия применения и рост потребностей пользователей выдвигают новые, более высокие требования к системам текстового поиска. Перечислим главные из них:

Обеспечение способности систем текстового поиска эффективно работать с очень большими коллекциями документов;

Разработка методов существенного улучшения представления смысла документов и пользовательских поисковых запросов;

Обеспечение возможностей для совместной обработки текстовых документов с документами иной природы - статическими изображениями, аудио, видео и др.;

Разработка эффективных методов поиска не только в статических коллекциях, но и в потоках документов;

Создание методологии оценки систем текстового поиска, построение текстовых коллекций, проведение экспериментов.

Контрольные вопросы

2. Какие системы назывались фактографическими ИПС?

3. Какие системы называются документальными ИПС?

4. На каких принципах основаны дескрипторные ИПС?

5. Какие условия были необходимы для создания технологий полнотекстового поиска?

6. Какие новые возможности обеспечиваются системами полнотекстового поиска?

7. Каким образом трансформировались функциональные возможности документальных ИПС под влиянием развития систем текстового поиска и информационных потребностей пользователей?

8. В связи с чем наряду с термином «информационно-поисковая система» стал использоваться термин «система текстового поиска»?

9. Какие задачи относятся к области обработки естественного языка?

10. Какие инструментальные средства используются в современных системах текстового поиска?

Ответы на вопросы необходимо направлять на электронную почту

КОВРОВСКАЯ ГОСУДАРСТВЕННАЯ ТЕХНОЛОГИЧЕСКАЯ АКАДЕМИЯ

Информационно-аналитическая справка по информатике

на тему:«Современные поисковые системы, тенденции развития одного из лидеров рынка Яndех».

Выполнил: студент 1-го курса

3 академической группы

Макаров Иван

Вступление. 3

Основная часть. 4

Заключение. 11

Вступление.

Я́ндекс - российская ИТ-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является восьмой среди крупнейших поисковых сайтов мира по количеству обработанных поисковых запросов (1,290 млрд, статистика за август 2009 г.) и вторым крупнейшим неанглоязычным поисковым сервером после китайского Baidu.

Сайт компании был открыт 23 сентября 1997 года. 2000 год - год образования компании «Яндекс». Учредителем Яндекса является CompTek (фирма, разработавшая поисковую систему Yandex и осуществлявшая его поддержку). Компания вышла на самоокупаемость в 2002 году, оборот за 2006 год - 72,6 млн долларов, чистая прибыль - 29,9 млн., за 2005 год - 35,6 млн долларов, чистая прибыль - 13,6 млн.

Основным и приоритетным направлением компании является разработка поискового механизма, но за годы работы Яндекс стал мульти-порталом. В 2009 году в копилке Яндекса - более 30 сервисов. Самыми популярными являются: Яндекс.Новости, Яндекс.Фотки, Яндекс.Игрушки и другие.

Главный офис компании находится в Москве. У компании есть офисы в Санкт-Петербурге, Екатеринбурге, Одессе, Симферополе и Киеве. В середине июня 2008 года компания объявила об открытии Yandex Labs - офиса в США, штат Калифорния.

Основная часть.

История создания компании.

Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яndex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и «контрастность» слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.

Чуть позже в разделе «Сказки» (наблюдения за содержанием русского Интернета) появилась первая сказка Рунета - «Web - гуманизм или чернуха?». А в разделе «Числа» - первая оценка объема Рунета, 5 тысяч серверов и 4 Гб текстов.

Через два месяца, в ноябре 1997 года, был реализован естественно-языковый запрос. Отныне к Yandex.Ru можно обращаться просто «по-русски», задавать длинные запросы, например: «где купить компьютер», «генетически модифицированные продукты» или «коды международной телефонной связи» и получать точные ответы. Средняя длина запроса в Yandex.Ru сейчас - 2,7 слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.

В 1998 году на Yandex.Ru появилась возможность «найти похожий документ», список найденных серверов, поиск в заданном диапазоне дат и сортировка результатов поиска по времени последнего изменения. За этот год «объем» Русского Интернета удвоился, что привело к необходимости оптимизации поисковых механизмов. И тогда, и сейчас (при объеме в 200 Гб) скорость поиска на Yandex.Ru - доли секунды.

За 1999 год Рунет вырос на порядок, как в объемах текстов, так и в количестве пользователей. Это был год бурного развития и для Yandex.Ru. Новый поисковый робот позволил оптимизировать и ускорить обход сайтов Рунета. Сегодня поисковая база Yandex.Ru вдвое больше, чем у ближайших конкурентов.

Новый робот позволил предоставить пользователям новые возможности - поиск по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям к картинкам), ограничение поиска на группу сайтов, поиск по ссылкам и изображениям, а также выделять документы на русском языке. Появился поиск в категориях каталога и впервые в Рунете было введено понятие «индекс цитирования» - количество ресурсов, ссылающихся на данный.

В течение всего года продолжалась работа по количественному и качественному анализу Рунета. Был открыт НИНИ-индекс (индекс «Непостоянства Интересов Населения Интернет»), показывающий динамику изменения интересов пользователей Интернета. Открылся поисковый Форум и новый сервис - подписка на запрос, то есть можно оставить свой запрос на Yandex.Ru и регулярно получать по электронной почте информацию о появлении новых и/или измененных документов, соответствующих этому запросу. К началу учебного года был открыт «Семейный Яndex», фильтрация результатов поиска от мата и порнографии.

Происхождение слова «Яндекс».

Сегодня «Яндекс» - слово из повседневного обихода пользователя интернета. В Сети часто встречается «А что, Яндекс уже отменили?», «Одиночество - это когда с днем рождения первым поздравляет Яндекс», «Все вопросы к Яндексу». Многим уже кажется, что так было всегда. В некотором роде это правда - Яндекс действительно появился одновременно с массовым интернетом, когда доступ в сеть перестал быть уделом избранных технических специалистов. Но само слово «Яндекс» - искусственное, имеет своих авторов и свою историю.

1993 году Аркадий Волож, будущий генеральный директор будущей компании «Яндекс», и Илья Сегалович, будущий директор по технологиям компании, разрабатывали, как потом выяснилось, главную технологию - поиск неструктурированной информации с учетом русского языка.

Разработку надо было как-то назвать. Илья помнит, как выписывал столбиком разные производные от слов, описывающих смысл технологии. Довольно быстро стало понятно, что search («поиск») по-русски звучит слишком неблагозвучно и удачной комбинации на его основе не сделаешь. Слово index подходило больше. Так в списке названий появился yandex - yet another indexer («еще один индексатор» или Языковой иНдекс). Вариант понравился и Илье, и Аркадию - легко произносится, легко пишется. Кроме этого, Аркадий предложил букву «Я» в названии - специфически русскую - русской и оставить, для наглядности. Так было изобретено слово «Яndex». А файл программы, соответственно, назывался yandex.exe.

В 1996 году, когда впервые широкой публике был предложен поиск как технология, а не как часть контентного продукта (до этого были Международный классификатор изобретений и Библейский компьютерный справочник), линейку программ назвали Яndex и объясняли это название как Языковый iNDEX. Первыми программами в линейке стали Яndex.Site (поиск по одному собственному сайту - этот продукт сейчас называется Яndex.Server) и Яndex.Dict (морфологическая приставка к AltaVista, единственной поисковой системе, которая в то время умела хоть как-то работать с кириллицей).

Но, конечно, широкое распространение слово «Яндекс» получило c сентября 1997 года, после запуска поисковой системы www.yandex.ru. С тех пор пользователи системы предлагают нам свои трактовки. Например, Тёма Лебедев, готовясь к рисованию первой версии главной страницы сайта Яндекса, сказал: «А, я понял, если в слове index первое „I“ перевести на русский, это будет „Я“, то есть так и получится „Яндекс“». Авторы честно признались, что об этом не думали, но - хорошая трактовка, принимается. Потом кто-то в Сети предложил другой вариант, увидев две стороны интернета, ИНЬдекс и ЯНдекс. У этого слова уже появились производные, так, сотрудников Яндекса часто называют «яндексоиды» и реже - «яндексовцы».

Поиск «Яндекса».

Поиск Яндекса позволяет искать по Рунету, Уанету, и Казнету (c 14 октября 2009 года) документы на русском, украинском, белорусском, румынском, английском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении. С начала 2006 года поиск «Яндекса» установлен на портале Mail.ru.

Помимо веб-страниц в формате HTML, Яндекс индексирует документы в форматах PDF (Adobe Acrobat), Rich Text Format (RTF), двоичных форматах Microsoft Word, Microsoft Excel, Microsoft PowerPoint, SWF (Macromedia Flash), RSS (блоги и форумы).

Отличительная особенность Яндекса - возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов. Так, например, для операции исключения можно указать область действия: запрос A ~~ B найдёт документы (страницы), в которых присутствует А, но не присутствует В, а запрос А ~ Б - документы, где слово Б не присутствует со словом А в одном предложении. Аналогично, оператор & ищет сочетания ключевых слов в предложении, а && - во всём документе.

Оператор! позволяет отключить морфологию для конкретного слова, а!! позволяет указать нормальную форму, что позволяет обойти некоторые проблемы связанные с омонимией. Например запрос!!Иванов будет находить Иванова и Ивано́вых, но не Ивана.

По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличатся, так как обновление баз для этих результатов происходит не одновременно.

Если по запросу найдено очень много ссылок, страница результатов предлагает ограничить диапазон поиска - по региону (то есть по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.

Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. Последние официально объявленные изменения произошли в марте 2004 г., апреле 2005 г. и январе 2007 г.; по неофициальным сведениям, их значительно больше (например, последнее в августе-сентябре 2007 г.).

В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам (реже - по целым семействам запросов). Против поискового спама, не отсеиваемого автоматически, применяется полуавтоматическая и ручная модерация выдачи (при помощи т. н. «белых оптимизаторов»), а также прямой отказ от индексации «злонамеренных» сайтов.

Собственники, руководство и показатели деятельности.

Более 30 % компании, по собственным данным, принадлежит фондам инвестиций ru-Net Holdings и Baring Vostok Capital Partners, 15 % - фонду Tiger Technologies, около 30 % - основателям компании и 20 % - менеджерам и другим миноритарным акционерам.

В середине сентября 2009 года стало известно, что материнская компания «Яндекса» - голландская компания Yandex N. V. выпустила приоритетную акцию, которая была передана Сбербанку за символический 1 евро. Единственное право, которое даёт акция - накладывать вето на продажу более 25 % акций компании.

Руководство: ркадий Волож - генеральный директор, Илья Сегалович - технический директор, Елена Колмановская - главный редактор, Алексей Третьяков - коммерческий директор, Светлана Кондрашова - директор по рекламе.

Все сервисы «Яндекса».

Информационно-поисковые:

Поиск и ya.ru

Каталог - каталог веб-сайтов с сортировкой по индексу цитирования. Пополняется вручную редакторами каталога, имеется возможность платной регистрации.

Новости - главные новости дня, полученные из основных СМИ, представленных в Интернете. Есть возможность поиска по новостям, а также подписки на новости по заданному поисковому запросу.

Яндекс.XML - при помощи этого сервиса можно делать автоматические поисковые запросы к Яндексу в формате xml.

Поиск по блогам и форумам - поиск по ресурсам, имеющим RSS-представление, а также рейтинг актуальных запросов, популярных категорий и новостей.

Маркет - поиск предложений по продаже товаров и услуг, подбор моделей.

«Медитативный» поиск - единственный в мире поисковый сервис, в котором есть кнопка «Найти», но нет поисковой строки.

Словари - энциклопедии, справочники, словари-переводчики.

Картинки - поиск изображений.

Видео - поиск видео.

Карты - карты Европы и России, карты крупных городов РФ (с точностью до дома), поиск по карте, а также возможность "побродить" по улицам некоторых городов.[источник?]

Адреса - поиск контактной информации по названиям фирм и организациий.

Афиша - информация о доступных мероприятиях: кино, театр, концерты, спорт, клубы и т.д.

Погода - прогноз погоды.

Телепрограмма - программы центральных, региональных и спутниковых каналов ТВ.

Расписания - расписания поездов и самолётов.

Персонализированные:

Яндекс.Видео - видеохостинг и поиск по видео.

Почта - электронная почта.

Я.ру - блоговый сервис.

Яндекс.Фотки - фото-хостинг.

Спамооборона - фильтрация спама.

Народ - бесплатный хостинг для персональных интернет-страниц, а также служба хранения файлов.

Яндекс.Деньги - платёжная система, позволяющая оплачивать товары и услуги в Интернете.

Закладки - система хранения закладок, интегрированная с «Яндекс. Баром».

Подписки - подписка на новости.

Лента - онлайновый RSS-ридер

Яндекс.Директ - система размещения контекстной рекламы с оплатой по кликам.

Кубок - регулярные соревнования по поиску в Интернете.

Города - Интернет-индексы городов России.

Тариф - поиск по тарифам интернет-провайдеров.

Открытки

Весна - автоматическая генерация философских эссе.

Интернет - измеряет скорость интернет соединения.

Mirror - Зеркало основных дистрибутивов ОС Linux, а также FreeBSD и других проектов.

Яндекс. Локальная сеть - предоставляет возможность пользоваться всеми сервисами Яндекса не по федеральному, а по локальному тарифу.

Метрика - позволяет измерять трафик, анализировать поведение пользователей и оценивать эффективность рекламных кампаний.

Программные продукты:

Спам-фильтр Спамоборона для корпоративного использования (платный).

Программа для поиска файлов Yandex Desktop Search на компьютере.

Программа мгновенного обмена сообщениями Я.Онлайн на основе Jabber. Позволяет также получать уведомления о новых письмах из Яндекс. Почты, о новых событиях с сайтов Одноклассники.ru и ВКонтакте.

Программа Punto Switcher - автоматический переключатель раскладки.

Виджеты для операционных систем Mac OS X и Windows Vista, а также для браузера Opera: Поиск, Пробки, Часы, Новости.

Яндекс ICQ - специальная версия клиента ICQ c символикой и интеграцией некоторых сервисов от Яндекса.

Интересеые факты.

1)Средняя длина запроса в Yandex.Ru сейчас - 2,7 слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.

2)Яндекс появился до www.yandex.ru. Слово Яндекс придумали в 1993 году, а публично оно было произнесено в 1996 году и означало тогда не компанию и не поисковую машину, а технологию поиска по собственному серверу и морфологическую приставку к поисковой системе Altavista.com.

3)www.yandex.ru запустили для демонстрации возможностей технологии Яндекс, о заработках на рекламе никто не думал.

4)Слоган «Найдётся всё» придумали в 2000 году. В этом же году Яндекс запустил первую рекламу интернет-сайта на российском телевидении.

5)По данным самого «Яндекса», около 80 процентов его аудитории - из России, около 3 процентов - из Европы, чуть более 1 процента - из США.

6)Часть сотрудников технической поддержки Яндекса действует под коллективным псевдонимом «Платон Щукин».

Заключение.

Итак, теперь мы имеем полную информацию о «Яндексе». Знаем, кто руководит им, как он работает изнутри, что представляет собой история развития компании и много другое. Теперь мы с легкость можем понять, почему «Яндекс» является лидером на российском и мировом рынке. Главной причиной успеха «Яндекса» я считаю то, что поисковик отлично справляется со сложностями русского языка. Именно поэтому поисковики, которые были разработаны под английский язык, не могут так же хорошо индексировать и ранжировать русскоязычные документы. Вторым преимуществом я вижу креативные, доброжелательные, веселые слоганы, которыми «Яндекс» привлекает пользователей к использованию своих сервисов, Тематические картинки, которые размещает «Яндекс» около своей поисковой строки, гораздо доступнее для русского пользователя.

, тенденция роста числа предложений сохранится. Присутствующие сегодня на рынке электронные платежные системы ... еще одно знаковое событие: компанией Paycash было заключено соглашение с самой крупной поисковой системой ...
  • Приволжский федеральный округ: современное состояние и перспективы развития (на примере Республики Татарстан)

    Курсовая работа >> Экономика

    ... тенденциями дальнейшего развития . ... лидером . ... развитие одного из важнейших... комплексом поискового и пилотажно... рынок . Развитие ... современных технологий, высокопроизводительного обору­дования, современных ... супертоксикантами; - развитие системы мониторинга земель...

  • Современные социологические проблемы физической культуры и спорта

    Реферат >> Социология

    Для популяризации политических лидеров , партий, ... совокупная субъект-объектная система социально-педагогических... творческой поисковой деятельности... рынок и государство. Рынок ... Тенденции развития современного олимпийского движения Россия является одной из ...

  • Тенденции развития нефтеной промышленности в мировой экономике

    Реферат >> Экономика

    Мировой рынок нефти: тенденции развития и... уже проведенных поисково -разведочных работ, ... Предварительная оценка. Лидером в мировом потреблении... является одним из важнейших элементов современных мирохозяйственных... мировой экономической системе , во времена...