На Главную E-mail
   
 
Нескучный сад 2 (49)
 
Подписка   Где купить   Редакция   Помочь журналу
Контактная информация  

По благословению Святейшего Патриарха Московского и всея Руси Алексия II

Нескучный сад - Журнал о православной жизни

Отдел распространения:

+7 (495) 943-04-98
+7 (495) 943-04-99

Редакция:

+7 (495) 237-58-53
 
 
 
Разделы сайта

 

 
 
Дополнительно:
 Фраза полностью
 Любое из слов
 Во всех полях
 Только в заголовках

  Где можно приобрести наш журал:
  Наши партнеры:
   
  Новости в формате RSS:
 
 
  Главная тема №6 (23)'2006

Найдется все: война роботов

27.11.06  19.00 Версия для печати

На наших глазах создается новый мир – виртуальный – это интернет. Чтобы быстро ориентироваться в нем, придуманы поисковые системы. Оказывается, отправной точкой для создания известнейшей поисковой интернет-системы стала Библия. О том, как это произошло, а также о том, что можно, а чего нельзя найти в Сети, нашему корреспонденту рассказал директор по технологиям и разработке компании «Яндекс» Илья СЕГАЛОВИЧ



И.Сегалович активно участвует в благотворительных мероприятиях "Детей Марии" - посещении детских домов и больниц, сборе подгузников для сиротских учреждений и т.п.




-- Илья, с чего началась работа над системой поиска в интернете? Как появился Яндекс?
-- Мой школьный друг Аркадий Волож в 90-м году загорелся идеей сделать поисковую систему, то есть такую компьютерную программу, которая могла бы искать статьи по каталогу Международной классификации изобретений. В России архив изобретений и патентов был создан в XVIII веке и благодаря нашим ученым материала в нем накопилось много, так что компьютерный поиск по архиву был очень востребован. Я присоединился к команде Аркадия Воложа, и мы вместе сделали несколько версий поисковой системы «Справочник Международной классификации изобретений». Чтобы продемонстрировать обществу наши возможности, мы решили сделать компьютерный поиск по самому значимому русскому тексту, с нашей точки зрения, -- Библии. В работе над «Библейским компьютерным справочником» нам помогал Сергей Касьян, выпускающий редактор журнала «Альфа и Омега», он был у нас консультантом. (В 1995 году при помощи нашей программы Сергей подготовил второй том «Симфонии»). Компьютерный поиск по Библии по сути был очень похож на «бумажную Симфонию»: вводишь слово и программа выдает текст, где оно упоминается в Священном Писании. Разница с книгой лишь в размере и в скорости поиска информации.
Это была знаковая работа, показавшая, что есть востребованный русский текст, по которому можно вести контекстный поиск, а лучше всех это делаем мы. В 1995 году в стране оживилась экономика, появились первые деньги. Примерно тогда же мы подключились к интернету и поняли, что делать компакт-диски и справочники -- это замечательно, но гораздо более востребованным русским текстом, ужасным в смысле орфографии, пунктуации и содержания, но от этого не менее любимым народом, оказался текст всего, что есть в интернете. 1996-м году мы сделали первую версию поисковой программы, которая искала только по ограниченному набору сайтов, а в 1997-м запустили Яндекс.ру – поиск по всему интернету.

-- Сколько страниц в рунете – русскоязычной части интернета?
-- Мы знаем про несколько миллиардов страниц, а в архиве нашей поисковой системы храним чуть больше миллиарда ста миллионов. Во всем интернете на два порядка больше. У самых больших западных поисковых систем число страниц в архиве поиска измеряется десятками миллиардов. Двадцать миллиардов страниц, например. А мы пока ищем по одному миллиарду.

-- По какому принципу работает поиск в интернете?
-- Поиск состоит из двух программ. Первая круглосуточно ищет и обновляет информацию, вторая классифицирует, подготавливает ее для пользователя. По интернету непрерывно бродит наш робот (программа), он отслеживает все ссылки, изменения и заносит информацию в архив. То есть все страницы найдены заранее, а когда пользователь направляет нам запрос, робот просто выбирает нужное из своего архива и выдает вам готовую информацию. Именно поэтому поиск при помощи Яндекса такой быстрый – не больше нескольких секунд, и те зависят от скорости вашего интернета. Все поисковые операции выполняет программа-робот. Но есть несколько десятков программистов, которые создают многие кусочки этого робота. Некоторые называют его «искусственным интеллектом», так как робот может принимать решения и на основе результатов самосовершенствуется.

-- Существует ли какая-то разница между поисковиками?
-- Поисковик -- это очень сложная система, состоящая из десятков программ, из нескольких десятков тысяч строк кода. Команда программистов в разных компаниях пишет ее, основываясь на собственных методах и разработках. Поэтому и результат получается у всех свой: у кого-то лучше, у кого-то хуже.
-- Каким образом «робот» определяет адекватность своего ответа запросу пользователя?
-- Например, на страничке, которую мы выдаем в ответ на ваш запрос, должны быть те слова, которые вы набрали в запросе. Эти слова должны стоять рядом. Если они далеко друг от друга, то, скорее всего, этот текст про другое. Возможно, на найденной страничке есть заголовок, и он соответствует запросу, что тоже важно. Если на страничку ставят ссылки из разных мест, содержащих слова запроса, это тоже хорошо. Особенно если из авторитетных сайтов. Кроме того, чем более авторитетна страница, с которой сослались на ваш сайт, тем выше сайт в ранге. А вот если на ваш сайт никто не поставит никакой гиперссылки, то этот сайт по поиску найти нельзя.

-- Какой самый частый запрос в Яндексе?
-- Есть частый набор запросов. Например «работа», но какая работа имеется в виду, не понятно. Обычно эти запросы мало осмыслены без контекста. Люди часто набирают слова с ошибками и их смысл не всегда ясен. Но потом уточняют, корректируют запрос. Мы эти последовательные исправления собираем, если они часто повторяются, робот их запоминает и в будущем сразу выдает то, что нужно пользователю. Например, запрос «жизнь» часто соответствует запросу газета «Жизнь». Но это нельзя понять, не посмотрев в историю запросов по слову «жизнь». Там видно, что люди, которые ищут желтую газету, вместо того, чтобы набрать «Газета «Жизнь»», набирают сначала «жизнь», а потом дополняют. Мы учитываем на будущее, что такой запрос часто про средство массовой информации, а вовсе не про философию. Хотя хотелось бы ответить по-философски!


-- А как ваш «робот» может оценить полезность информации для человека?
-- У нас уже много лет ведется каталог сайтов. Есть команда людей, которые просматривают все странички в интернете глазами, хотя и при помощи роботов. Они относят сайты к разным категориям, классифицируют, дают описание. Внутри этого каталога существует автоматически вычисляемый рейтинг. Этот каталог помогает роботу выделять качественные сайты от сайтов малополезных. Кроме каталога у нас есть команда асессоров, людей, отслеживающих результаты работы поиска, и оценивающих, в какой степени найденная страничка соответствует запросу. Вся эта информация учитывается и является для робота обучающим материалом. Никакого прямого воздействия на результат поиска человек не оказывает, но люди помогают собирать данные, на которых робот учится.

-- Какими поисковыми навыками должен обладать человек, чтобы найти необходимую информацию? И чего нельзя найти в интернете?
-- Задача Яндекса -- сделать так, чтобы человек, обладающий минимумом навыков, мог найти все, что ему нужно. А чего нельзя найти? Того, чего там нет. В интернете нет многих личных данных, нет специализированной информации, например результатов геологических или геофизических съемок или некоторых видов финансовых документов, многих книг и журналов. Но, зачастую, это дело времени.

-- На ваш взгляд, Интернет -- это большая помойка или это большая энциклопедия?
-- И то, и то. А жизнь -- это что? Чернуха или позитив? Зависит от взгляда. Для человека, склонного оценивать все негативно, интернет -- помойка. Для человека, который настроен на решение задач, а не на брюзжание, это кладезь знаний. В интернете есть авторитетные официальные сайты, на которых много качественной информации, и им вполне можно доверять.

-- Раньше письма писали на берестяных грамотах, и теперь мы можем узнать, как в XII веке жили крестьяне в Новгородской области. А сколько лет проживет виртуальная информация?
-- Цифровая информация вечна. Архивы будут храниться всегда. Форматы меняются, и это может создавать определенные проблемы. Цифровая информация -- это единицы и нули. Но чем проще информация, тем она долговечнее. Владельцу нужно только раз в десять лет переносить информацию с одного носителя на другой. И тогда потери данных быть не может. Вы записали на флэшку, с нее сбросили на компьютер, с компьютера послали письмо, и у вашего приятеля есть копия, а кто-то выложил на сервер. Чем больше копий, тем надежнее. Даже если случится неприятность и сервер погибнет, у вас останутся копии в ноутбуке или архив на дисках, в телефоне, в конце концов. Кстати, у берестяных грамот тоже есть проблемы с хранением! Большая часть грамот безвозвратно испорчена.

-- Посещаемость сайтов -- это реальная величина или виртуальная?
-- Абсолютно реальная. Бывают разные способы накрутить посещаемость при помощи специальных программ, но обычно с этим борются наши роботы. Одни роботы пытаются имитировать человека, приходящего на малопосещаемый сайт, другие пытаются определить, робот это был или человек, например, если слишком много запросов приходит с одного адреса или слишком они похожи по каким-то признакам. В некотором смысле в интернете ведется война роботов. Интеллектуальная война. Хотя напрямую на рейтинг сайта в поисковике посещаемость не влияет. Рейтинг становится выше в зависимости от цитируемости сайта другими авторитетными источниками в интернете.

-- Вы назвали вашего робота – «искусственный интеллект», а что это значит?
-- Признаюсь, я не очень люблю термин «искусственный интеллект» из-за того, что его слишком часто используют для рекламы программ, якобы имитирующих процессы, происходящие в мозге человека. Мы не делаем никакого специального упора на этом, однако Яндекс – это крупнейшая на территории России компьютерная система, нацеленная на понимание человека, иными словами демонстрирующая некоторые признаки, присущие человеческому интеллекту. Пока нам это не так хорошо удается, как хочется, но мы знаем, куда двигаться.


Мы сделали в «Яндексе» несколько запросов по «религиозным» словам. Некоторые результаты, которые выдает интернет-робот, нас удивили.
Слово «исповедь» в октябре запрашивали в «Яндексе» 5817 раз. На наш аналогичный запрос в первой строке поисковик выдал сайт «Российской газеты» и статью «Исповедь для протокола», на втором месте была сетевая игра Darcklan с возможностью купить магические меч или булаву, на третьем -- предложение купить воспоминания «Исповедь актрисы», на четвертом -- «исповедь» школьника с нетрадиционной ориентацией, на пятом -- «исповедь» злостного нарушителя дорожных правил и т. д. Итого в первых десяти строчках поисковика мы не нашли ни одной ссылки на сайт, где можно почитать об исповеди в православном понимании.
«Храм» запрашивали 36 335 раз за месяц. Почти все ссылки из первого десятка приводят на сайты православных храмов (на первом месте -- московский храм мц. Татианы), кроме четвертой -- был предложен религиоведческий сайт и пятой -- сайт о байкерах «Мотохрам». Казалось бы, сайт храма Христа Спасителя должен быть где-то среди первых, но он оказался лишь на сорок седьмом месте. Зато отсыл на приходской сайт немноголюдного храма Воскресения Христова в Кадашах был в «Яндексе» шестым.
35 774 раза пользователи искали в «Яндексе» «веру». На наш запрос первой выпала ссылка на центр «Вера» -- курсы иностранных языков. Вторым шел сайт диакона Андрея Кураева, потом сайт Би-би-си с фотографией девочки Веры, четвертым «Яндекс» выдал христианскую газету «Вера-Эском», пятой -- страницу поэтессы Веры Павловой на сайте журнала «Новый мир», потом сайт движения «Вера и Свет». Далее шли сайт журналистки Веры Камши и официальный сайт общины бахаи в России.
Слово «Христос» в поиске набирали 14 735 раз. Самое важное для христиан имя, но первая ссылка привела нас на статью в «НГ-религии» «Рождество без Христа. Санта-Клаус меняет пол, ориентацию и цвет кожи». Второй была ссылка на малоизвестный православный сайт эстонского священника, третьей -- на сайт секты Виссариона, бывшего милиционера, который выдает себя за Христа, четвертая ссылка привела на сайт диакона Андрея Кураева, далее шли протестантские и сектантские сайты, а десятым в списке оказалось православное братство свт. Алексия, митрополита Московского. Такие популярные и цитируемые сайты, как «Православие.ру» или «Седмица.ру» в первую десятку не попали.

Илья СЕГАЛОВИЧ объяснил, почему так происходит:
-- Чем больше данных в распоряжении робота, тем точнее выполняется задание. При этом речь идет о данных, хранящихся только в интернете, а Интернет, хотя и интенсивно наполняется содержанием и все больше и больше соответствует реальной жизни, все же далеко не полон. В этой ситуации небольшой сайт (например, сайт православного священника Бориса Мерлина в Эстонии) может быть, в силу своего возраста и «внутриинтернетного» авторитета, важнее новых сайтов крупных или официальных религиозных организаций.
Кроме того, противоречие между желаемым и наблюдаемым ответом поисковой системы часто кроется в неполноте «картины мира», сложившейся у пользователя. Так, например, запрос «исповедь», если судить по статистике, у заметной массы пользователей ассоциируется с конкретными произведениями («исповеди» алкоголиков, знаменитостей, преступников и так далее). Это не значит, конечно, что в числе произведений на первой странице не должно быть, скажем, ссылки на «Исповедь» Льва Толстого. В «Яндексе», кстати, можно уточнить запрос по рубрикам -- так, выбрав рубрики «Общество», а затем «Христинство» (список рубрик, соответствующих запросу, перечислен внизу страницы), мы получим гораздо более адекватный ответ.
Слово «вера» -- слишком многозначное, и поисковая система скорее будет его ассоциировать с человеческим именем, а не с религиозным понятием. Можно считать удачей, что уже на первой странице оказалась ссылка на Православный миссионерский форум или христианскую газету «Вера».
По ассоциациям пользователей, по запросу «храм» действительно желательно показывать ссылку на сайт храма Христа Спасителя. Но, к сожалению, веб-мастер сайта www.xxc.ru запретил сайт к индексации при помощи специальных директив в файле robots.txt, а наш текущий алгоритм полностью исключает такие сайты из поиска. Мы понимаем, что иногда это происходит по ошибке или незнанию веб-мастера, поэтому работаем над тем, чтобы такие сайты, пусть в ограниченном виде, находились в поиске (к моменту публикации статьи на сайте "НС", сайт храма Христа Спасителя был уже на законном первом месте при соответствующем поиске - редакция). В остальном запрос отрабатывается «Яндексом» вполне адекватно: это и несколько сайтов конкретных храмов, и такой, например, сайт, как «Храмы России» (www.hramy.ru) с базой данных, описаниями и фотографиями большого количества храмов.
Запрос «Христос», кроме тех сайтов, что назвали вы, выдает статью из народной энциклопедии «Википедия» и несколько страниц на сайтах православной направленности (упомянутый выше священник из Эстонии в их числе). Что касается сайта pravoslavie.ru, очевидно, на этом сайте нет странички, более точно отвечающей этому запросу. По крайней мере, по этому запросу такой странички не видно ни при поиске по сайту, ни при поиске в других поисковых системах.

Беседовала Екатерина СТЕПАНОВА
Графика Ивана СОЛОВЬЕВА

Код для размещения ссылки на данный материал:


Как будет выглядеть ссылка:
Найдется все: война роботов

На наших глазах создается новый мир – виртуальный – это интернет. Чтобы быстро ориентироваться в нем, придуманы поисковые системы. Оказывается, отправной точкой для создания известнейшей поисковой интернет-системы стала Библия. О том, как это произошло, а также о том, что можно, а чего нельзя найти в Сети, нашему корреспонденту рассказал директор по технологиям и разработке компании «Яндекс» Илья СЕГАЛОВИЧ

Журнал Нескучный сад
 

Оценка читателей

4
голосов: 44
1 2 3 4 5

Отзывы

  • ,Белла 2007-04-11
    не знаю что тут не понятного но тема мне понравилась

  • Алексей 2007-03-09
    На самом деле нравственные основы у "Яндекса" совсем непонятные. На рождественских чтениях к примеру прозвучала информация, что яндекс рекламирует за деньги сайты абортариев. А сайт аборты.ру отказывается включить в свой каталог - тут ему деньги не нужны.

  • иван петрович четатель-форумов 2007-01-05
    яндекс с 1 марта 2007 года перестанет выдавать в результатах поиска сайты сексуального характера, если поисковый запрос был сделан с 6.00 до 23.00 часов (по местному времени региона пользователя, сделавшего запрос).
    В ночное время эротические сайты продолжат отображаться в результатах поиска в обычном режиме.

    Как рассказал Джинсе технический директор Яндекса Илья Сегалович, предстоящие изменения в поисковой выдаче связаны прежде всего с тем, что в России всё больше детей становятся пользователями интернета. "Сейчас идут подключения целыми школами в очень многих регионах России. У многих детей и подростков появляются свои компьютеры с выходом в интернет. Дети очень любопытны, они ищут сайты по самым разным запросам, и мы хотим их оградить от ресурсов, где содержится эротика или насилие. Поэтому мы решили создать альтернативные результаты поиска", - сказал Сегалович.
    Ограничить выдачу сайтов, в контенте которых присутствуют жестокость и насилие, Яндекс, по словам Сегаловича, планирует в июле-августе 2007 года.

    "Сейчас мы ведем переговоры с поисковыми системами Google и Rambler. И уже можно официально заявить, что они предпримут аналогичные действия для ограждения детей и подростков от порно-ресурсов в интернете. У альтернативного поиска большие перспективы", - подвёл итог Илья Сегалович.
    http://jinsa.ru/news/33.html

  • Dr.Moo 2006-12-11
    ИМХО, весьма интересная и познавательная статья. Описывать принципы работы поисковых роботов с точки зрения философии несколько некорректно. А спрашивать, например, какие-такие нравственные основы у "Яндекса" - вообще глупо. В общем, побеседовали со специалистом по его теме. Он её прекрасно раскрыл. Давайте всё же оставим кесарю - кесарево, а техникам - поисковых роботов. ИМХО, так будет правильно...

  • Alkaline 2006-12-11
    Забавно, читаю статью - и не понимаю, почему для иллюстрации технического процесса взяты такие неоднозначные и не нейтральные слова, из религиозной темы. Ладно, читаю комментарии - опять ничего не понимаю, в особенности Lizza, которая фиг знает что сказала (а фразу VT я вообще понял превратно, как если бы он поругал теорему Пифагора за излишнюю ясность и простоту). Поднимаю глаза к адресной строке - вижу название "Нескучный сад" - и возникает образ развлекательного портала, на худой конец - информационно-популярного. И только открутив страницу к началу увидел приписку в названии - "... о делах милосердия". Смеялсо! Статья не на месте, судари! Либо ее название должно быть исправлено (напр., на "Проблема индексации религиозных сайтов поисковыми системами").

  • Lizza 2006-12-11
    2VT i redaksia NS: mne kazhetsa, eta tendentsia projavliaetsa vse 4ashshe. Vot i v teme pro gorod obe stati tozhe takie! V prezhnikh ## bylo ne tak!!

  • VT 2006-12-09
    ИМХО статья рассмотрена не с точки зрения интересов верующего или интересующегося верой человека, а с точки зрения технического специалиста. как мне кажется. в статье можно было больше уделять внимания вопросам именно философским, а не тому, как робот яндекса собирает, анализирует и выдает информацию.

Ваш отзыв
Поля, отмеченные звездочкой, должны быть обязательно заполнены.

Ваше имя: *

Ваш e-mail:

Отзыв: *

Введите символы, изображенные на рисунке слева:

Если данная комбинация символов кажется вам неразборчивой, кликните на рисунок для отображения другой комбинации
 
   
  Новости милосердия.ru