ОТЧЁТ_12_К
Минобрнауки России
федеральное государственное бюджетное
образовательное учреждение
высшего профессионального образования
«Санкт-Петербургский государственный технологический институт
(технический университет)»
Кафедра менеджмента и маркетинга
Отчет о лабораторной работе (№12)
по информатике
ВыполнилПринял
Студент уч. гр. 6381Преподаватель
Канева К.В.Ташбаев В.В.
Санкт-Петербург
2014
Цель работы.
Познакомиться с основными поисковыми системами сети Интернет. Овладеть навыками работами в поисковых системах. Научиться выбирать оптимальную поисковую систему с учетом специфики поставленных задач.
Вопрос №1.
Что такое поисковые машины? Назовите основные части программного комплекса.
Ответ:
Поисковые машины – это комплекс специальных программ для поиска в сети.
Основные части программного комплекса:
1.Робот spider (паук). Автономно работающая программа, которая перебирает страницы сайтов, стоящих в очереди на индексацию. Она скачивает на диск поискового сервера содержимое исследуемых страниц.
2.Робот crawler (“путешествующий” паук). Его задача — собирать все ссылки на исследуемой странице, находить среди них новые, неизвестные поисковой системе, и добавлять их в список ожидающих индексации.
3.Индексатор. Обрабатывает страницы из очереди на индексацию. Для этого он составляет “словарь” странички, запоминает “частоту” использования слов. Особо отмечает ключевые слова, используемые в заголовках, выделенные в тексте жирным шрифтом. Помещает все это в особый файл — “индекс”.
4.База данных. Хранит ссылки на страницы, словарь встречаемых на странице слов и много другой информации, которая необходима для формирования результатов поиска.
5.Система обработки запросов и выдачи результатов. Принимает запрос пользователя, формирует запрос к базе данных, получает оттуда результат и передает его пользователю.
Вопрос №2.
Что такое каталоги? Перечислите их достоинства и недостатки
Ответ:
Каталоги — традиционное средство организации информации. Наверное, всем нам приходилось встречаться с библиотечными каталогами, каталогами товаров. Каталоги используются во множестве систем. Практически везде, где необходимо хранить и организовывать информацию.
Одна из основных задач, с которой сталкиваются составители каталогов — создать естественную, интуитивно понятную рядовому пользователю рубрикацию. К сожалению, данную задачу можно решить только с той или иной степенью приближения. Мир непрерывен, строгих границ в нем не существует. Один и тот же сайт можно рассматривать под разными углами зрения и видеть разные его функции. Каталоги формируются людьми-редакторами, которые прочитывают страницы, отсеивают неподходящие и классифицируют узлы по темам.
К недостаткам каталогов можно отнести следующее:
Во-первых, неоднозначность структуры — это явный минус каталожной организации информации (хотя он и несколько сглаживается тем, что в каждом крупном каталоге реализован поиск по каталогу).
Во-вторых, каталоги делают люди. Их полнота и качество зависят от количества и квалификации людей, занятых работой в каталоге, их личных вкусов и пристрастий. Неровность наполнения рубрик — характерная черта всех каталогов.
В — третьих, трудоемкость ручной рубрикации ограничивает объем каталогизируемой информации.
В тоже время безусловными достоинствами каталогов является то, что информация в нем хранится упорядоченно, в соответствии с элементарной человеческой логикой и релевантность найденных страниц при поиске в каталоге обычно на порядок выше, чем при поиске поисковыми системами.
Как было сказано выше, из-за того, что каталоги создаются вручную, они охватывают намного меньше ресурсов, чем поисковые машины. В Web сейчас, по самым скромным оценкам, насчитывается миллиард страниц (причем их число ежедневно увеличивается на миллион). Большинство поисковых машин не подошли сколько-нибудь близко к тому, чтобы проиндексировать всю Сеть. Исключением является Google (для России www.google.ru), который претендует именно на эту цифру — миллиард страниц, частично или полностью охваченных его индексами. Самый большой каталог — Open Directory Project (www.dmoz.org) — на этом фоне кажется крошечным: в него занесено лишь около 2 млн. страниц.
В 1994 г., когда начинался бурный рост «Всемирной паутины», выбор средств поиска в Сети был весьма ограниченным: Yahoo (www.yahoo.com). Этот сервер и по сей день остается краеугольным камнем исследования Web, но как каталог он столкнулся сейчас с жесткой конкуренцией со стороны Open Directory Project.
Многие каталоги весьма полезны, но с учетом всех обстоятельств предпочтение стоит отдать Open Directory Project. Проект Open Directory Project, инициированный компанией Netscape, реализуется усилиями редакторов-добровольцев со всего мира, которых насчитывается более 24 тысяч и которые проиндексировали около 2 млн. узлов b расклассифицировали их по более чем 200 тыс. категорий. Любой поисковый сервер может получить лицензию Open Directory Project и использовать его базу данных при обработке запросов, и на многих это сделано: AltaVista (www.altavista.com), HotBot (www.hotbot.com), Lycos (www.lycos.co.uk) и около сотни других серверов ныряют туда за ссылками.
Можно было бы ожидать, что, коль скоро каталог Open Directory Project создается силами добровольцев, качество результатов будет колебаться. Но в результате мы получаем хорошо организованные списки относящихся к теме страниц с четкими описаниями каждой ссылки. А узел Open Directory Project производит такое же впечатление, как Google: это «чистый поиск» без отвлекающих моментов типа ссылок на магазины.
Какой каталог ни выбрать, у всех есть одно преимущество перед поисковыми машинами: их можно систематически просматривать, пользуясь иерархической системой меню.
Вопрос №3.
Перечислите классы метапоисковых систем.
Ответ:
Метапоисковые системы бывают двух классов. К первому классу относятся метапоисковые системы, располагающиеся на публичном онлайн-ресурсе. А ко второму метапоисковые системы, которые инсталлируются на персональный компьютер.
Одной из наиболее популярных метапоисковых систем, относящихся к первому классу является система Vivisimo (http://www.vivisimo.com/). Vivisimo – англоязычная система, однако она корректно работает и с русским контентом – но, к сожалению, проиндексированных русских сайтов не так уж и много, поэтому результаты русскоязычного поиска оставляют желать лучшего.
Второй класс — метапоисковые машины, устанавливаемые на компьютеры пользователей. Они удобны и могут настраиваться на круг запросов и интересов конкретного человека. Сейчас можно найти несколько десятков систем этого класса, но, к сожалению, англоязычных. Одна из популярнейших таких систем — Copernic Agent (http://copernic.com), программа компании Copernic Technologies. Это мощное и понятное средство, позволяющее самостоятельно выбирать тематические категории, поисковый и предметный домен, задавать состав глобальных поисковых машин. К русскоязычным метапоисковым системам можно отнести разработанную фирмой Convera Technologies и адаптированную с учетом специфики русского языка систему Convera.
Как правило, более сложный алгоритм поиска существенно влияет на время обработки результатов. Поэтому метапоисковые системы особенно полезны для корпоративных сетей.
Вопрос №4.
Дайте определение интеллектуальной поисковой системы.
Ответ:
Интеллектуальная поисковая система — это одна из лучших поисковых систем. В поисковике реализована функция мульти поиска. Интеллектуальный поисковик содержит собственную базу ресурсов, но помимо этого позволяет выполнять поиск сразу по всем наиболее популярным поисковым системам.
Механизм отбора результатов в этой поисковой машине отличается от большинства принятых методов обнаружения сайтов. Дело в том, что движок этого сервиса использует кластеризацию результатов. А что такое кластеризация, мы рассмотрим в другом вопросе.
Рисунок 1 — Интеллектуальная поисковая систем «Нигма«
Вопрос №5.
Как группируются результаты поиска в интеллектуальной поисковой системе?
Ответ:
Результаты поиска группируются в так называемые «кластеры». Каждый кластер — это группа сайтов, относящихся, по мнению поисковой системы, к общей тематике. Используется частотная кластеризация по ключевым словам, поэтому названия кластеров — это тоже ключевые слова, которые пользователь может использовать для расширения своего запроса. Интеллектуальный алгоритм объединяет кластеры в иерархию (пока двухуровневую), которая позволяет представить их в более компактном виде.
Кластеризация полученных от внешней поисковой системы документов является первым этапом создания системы, формирующей уточняющие вопросы.
Вопрос №6.
Назовите основные элементы поисковых страниц.
Ответ:
На первой странице поисковой системы мы видим основные элементы поисковых страниц:
поле поиска, куда необходимо внести ключевую фразу, при помощи которой мы задаем условия поиска необходимой нам информацию;
кнопка «искать», на которую надо нажать для начала поиска;
таблица найденных результатов, появляющаяся после того, как поисковая машина выполнила наш запрос.
Вопрос №7.
Какие элементы содержит каждый результат поиска?
Ответ:
Каждый результат поиска содержит:
Заголовок найденной страницы.
Отрывок из текста страницы.
Полный URL.
Размер страницы, дата последнего изменения.
Ссылка на копию страницы в базе поисковой машины.
Похожие документы.
Рубрика каталога или рейтинга поисковой машины.
Вопрос №8.
Назовите преимущества использования языка запросов?
Ответ:
Все крупные поисковики имеют специальный язык запросов, дающий широкие функциональные возможности для детализации поиска и экономии времени. Знание операторов языка запросов не только существенно облегчит вам жизнь, но и поможет находить информацию, добыть которую только с помощью простых запросов практически невозможно.
Язык запросов — мощный инструмент, который позволяет искать информацию, учитывая следующее:
только на определенном сайте (или группе сайтов);
опубликованную в строго заданном временном диапазоне;
опубликованные на каком-либо из языков (например, русском).
При помощи языка запросов, можно искать текст на определенных участках страниц (в ссылках, в заголовках, в ключевых словах и др).
Вопрос №9.
Существует ли общепринятый стандарт для операторов языка поисковых систем?
Ответ:
К сожалению, не существует общепринятого стандарта для операторов языка поисковых систем. Даже для основных операций разные поисковые системы имеют разные обозначения.