ОТЧЁТ_12_К

Минобрнауки России

федеральное государственное бюджетное

образовательное учреждение

высшего профессионального образования

«Санкт-Петербургский государственный технологический институт

(технический университет)»

Кафедра менеджмента и маркетинга

Отчет о лабораторной работе (№12)

по информатике

ВыполнилПринял

Студент уч. гр. 6381Преподаватель

Канева К.В.Ташбаев В.В.

Санкт-Петербург

2014

Цель работы.

Познакомиться с основными поисковыми системами сети Интернет. Овладеть навыками работами в поисковых системах. Научиться выбирать оптимальную поисковую систему с учетом специфики поставленных задач.

Вопрос №1.

Что такое поисковые машины? Назовите основные части программного комплекса.

Ответ:

Поисковые машины – это комплекс специальных программ для поиска в сети.

Основные части программного комплекса:

1.Робот spider (паук). Автономно работающая программа, которая перебирает страницы сайтов, стоящих в очереди на индексацию. Она скачивает на диск поискового сервера содержимое исследуемых страниц.

2.Робот crawler (“путешествующий” паук). Его задача — собирать все ссылки на исследуемой странице, находить среди них новые, неизвестные поисковой системе, и добавлять их в список ожидающих индексации.

3.Индексатор. Обрабатывает страницы из очереди на индексацию. Для этого он составляет “словарь” странички, запоминает “частоту” использования слов. Особо отмечает ключевые слова, используемые в заголовках, выделенные в тексте жирным шрифтом. Помещает все это в особый файл — “индекс”.

4.База данных. Хранит ссылки на страницы, словарь встречаемых на странице слов и много другой информации, которая необходима для формирования результатов поиска.

5.Система обработки запросов и выдачи результатов. Принимает запрос пользователя, формирует запрос к базе данных, получает оттуда результат и передает его пользователю.

Вопрос №2.

Что такое каталоги? Перечислите их достоинства и недостатки

Ответ:

Каталоги — традиционное средство организации информации. Наверное, всем нам приходилось встречаться с библиотечными каталогами, каталогами товаров. Каталоги используются во множестве систем. Практически везде, где необходимо хранить и организовывать информацию.

Одна из основных задач, с которой сталкиваются составители каталогов — создать естественную, интуитивно понятную рядовому пользователю рубрикацию. К сожалению, данную задачу можно решить только с той или иной степенью приближения. Мир непрерывен, строгих границ в нем не существует. Один и тот же сайт можно рассматривать под разными углами зрения и видеть разные его функции. Каталоги формируются людьми-редакторами, которые прочитывают страницы, отсеивают неподходящие и классифицируют узлы по темам.

К недостаткам каталогов можно отнести следующее:

Во-первых, неоднозначность структуры — это явный минус каталожной организации информации (хотя он и несколько сглаживается тем, что в каждом крупном каталоге реализован поиск по каталогу).

Во-вторых, каталоги делают люди. Их полнота и качество зависят от количества и квалификации людей, занятых работой в каталоге, их личных вкусов и пристрастий. Неровность наполнения рубрик — характерная черта всех каталогов.

В — третьих, трудоемкость ручной рубрикации ограничивает объем каталогизируемой информации.

В тоже время безусловными достоинствами каталогов является то, что информация в нем хранится упорядоченно, в соответствии с элементарной человеческой логикой и релевантность найденных страниц при поиске в каталоге обычно на порядок выше, чем при поиске поисковыми системами.

Как было сказано выше, из-за того, что каталоги создаются вручную, они охватывают намного меньше ресурсов, чем поисковые машины. В Web сейчас, по самым скромным оценкам, насчитывается миллиард страниц (причем их число ежедневно увеличивается на миллион). Большинство поисковых машин не подошли сколько-нибудь близко к тому, чтобы проиндексировать всю Сеть. Исключением является Google (для России www.google.ru), который претендует именно на эту цифру — миллиард страниц, частично или полностью охваченных его индексами. Самый большой каталог — Open Directory Project (www.dmoz.org) — на этом фоне кажется крошечным: в него занесено лишь около 2 млн. страниц.

В 1994 г., когда начинался бурный рост «Всемирной паутины», выбор средств поиска в Сети был весьма ограниченным: Yahoo (www.yahoo.com). Этот сервер и по сей день остается краеугольным камнем исследования Web, но как каталог он столкнулся сейчас с жесткой конкуренцией со стороны Open Directory Project.

Многие каталоги весьма полезны, но с учетом всех обстоятельств предпочтение стоит отдать Open Directory Project. Проект Open Directory Project, инициированный компанией Netscape, реализуется усилиями редакторов-добровольцев со всего мира, которых насчитывается более 24 тысяч и которые проиндексировали около 2 млн. узлов b расклассифицировали их по более чем 200 тыс. категорий. Любой поисковый сервер может получить лицензию Open Directory Project и использовать его базу данных при обработке запросов, и на многих это сделано: AltaVista (www.altavista.com), HotBot (www.hotbot.com), Lycos (www.lycos.co.uk) и около сотни других серверов ныряют туда за ссылками.

Можно было бы ожидать, что, коль скоро каталог Open Directory Project создается силами добровольцев, качество результатов будет колебаться. Но в результате мы получаем хорошо организованные списки относящихся к теме страниц с четкими описаниями каждой ссылки. А узел Open Directory Project производит такое же впечатление, как Google: это «чистый поиск» без отвлекающих моментов типа ссылок на магазины.

Какой каталог ни выбрать, у всех есть одно преимущество перед поисковыми машинами: их можно систематически просматривать, пользуясь иерархической системой меню.

Вопрос №3.

Перечислите классы метапоисковых систем.

Ответ:

Метапоисковые системы бывают двух классов. К первому классу относятся метапоисковые системы, располагающиеся на публичном онлайн-ресурсе. А ко второму метапоисковые системы, которые инсталлируются на персональный компьютер.

Одной из наиболее популярных метапоисковых систем, относящихся к первому классу является система Vivisimo (http://www.vivisimo.com/). Vivisimo – англоязычная система, однако она корректно работает и с русским контентом – но, к сожалению, проиндексированных русских сайтов не так уж и много, поэтому результаты русскоязычного поиска оставляют желать лучшего.

Второй класс — метапоисковые машины, устанавливаемые на компьютеры пользователей. Они удобны и могут настраиваться на круг запросов и интересов конкретного человека. Сейчас можно найти несколько десятков систем этого класса, но, к сожалению, англоязычных. Одна из популярнейших таких систем — Copernic Agent (http://copernic.com), программа компании Copernic Technologies. Это мощное и понятное средство, позволяющее самостоятельно выбирать тематические категории, поисковый и предметный домен, задавать состав глобальных поисковых машин. К русскоязычным метапоисковым системам можно отнести разработанную фирмой Convera Technologies и адаптированную с учетом специфики русского языка систему Convera.

Как правило, более сложный алгоритм поиска существенно влияет на время обработки результатов. Поэтому метапоисковые системы особенно полезны для корпоративных сетей.

Вопрос №4.

Дайте определение интеллектуальной поисковой системы.

Ответ:

Интеллектуальная поисковая система — это одна из лучших поисковых систем. В поисковике реализована функция мульти поиска. Интеллектуальный поисковик содержит собственную базу ресурсов, но помимо этого позволяет выполнять поиск сразу по всем наиболее популярным поисковым системам.

Механизм отбора результатов в этой поисковой машине отличается от большинства принятых методов обнаружения сайтов. Дело в том, что движок этого сервиса использует кластеризацию результатов. А что такое кластеризация, мы рассмотрим в другом вопросе.

Рисунок 1 — Интеллектуальная поисковая систем «Нигма«

Вопрос №5.

Как группируются результаты поиска в интеллектуальной поисковой системе?

Ответ:

Результаты поиска группируются в так называемые «кластеры». Каждый кластер — это группа сайтов, относящихся, по мнению поисковой системы, к общей тематике. Используется частотная кластеризация по ключевым словам, поэтому названия кластеров — это тоже ключевые слова, которые пользователь может использовать для расширения своего запроса. Интеллектуальный алгоритм объединяет кластеры в иерархию (пока двухуровневую), которая позволяет представить их в более компактном виде.

Кластеризация полученных от внешней поисковой системы документов является первым этапом создания системы, формирующей уточняющие вопросы.

Рисунок 2Кластеризация

Вопрос №6.

Назовите основные элементы поисковых страниц.

Ответ:

На первой странице поисковой системы мы видим основные элементы поисковых страниц:

поле поиска, куда необходимо внести ключевую фразу, при помощи которой мы задаем условия поиска необходимой нам информацию;

кнопка «искать», на которую надо нажать для начала поиска;

таблица найденных результатов, появляющаяся после того, как поисковая машина выполнила наш запрос.

Вопрос №7.

Какие элементы содержит каждый результат поиска?

Ответ:

Каждый результат поиска содержит:

Заголовок найденной страницы.

Отрывок из текста страницы.

Полный URL.

Размер страницы, дата последнего изменения.

Ссылка на копию страницы в базе поисковой машины.

Похожие документы.

Рубрика каталога или рейтинга поисковой машины.

Вопрос №8.

Назовите преимущества использования языка запросов?

Ответ:

Все крупные поисковики имеют специальный язык запросов, дающий широкие функциональные возможности для детализации поиска и экономии времени. Знание операторов языка запросов не только существенно облегчит вам жизнь, но и поможет находить информацию, добыть которую только с помощью простых запросов практически невозможно.

Язык запросов — мощный инструмент, который позволяет искать информацию, учитывая следующее:

только на определенном сайте (или группе сайтов);

опубликованную в строго заданном временном диапазоне;

опубликованные на каком-либо из языков (например, русском).

При помощи языка запросов, можно искать текст на определенных участках страниц (в ссылках, в заголовках, в ключевых словах и др).

Вопрос №9.

Существует ли общепринятый стандарт для операторов языка поисковых систем?

Ответ:

К сожалению, не существует общепринятого стандарта для операторов языка поисковых систем. Даже для основных операций разные поисковые системы имеют разные обозначения.

Предыдущий:

Следующий: