Поиск информации в Интернете
Informacijos paieška Internete
Поиск информации в Интернете
Благодаря повсеместному развитию и применению компьютерных технологий в настоящее время в той или иной электронной форме находится информация всех областей человеческой деятельности: наука, производство, коммерция, литература, развлечения и т.д. Сеть Интернет имеет совместимость с различными электронными сетями и базами данных и позволяет получить удобный доступ практически к любому виду информации. Для миллионов людей разных профессий Интернет стал необходимым инструментом в работе и универсальным средством развлечения в часы досуга.
В связи с этим возникает потребность в программных ссредствах, эффективно решающих проблемы поиска необходимой пользователю сети Интернет информации. Эти средства должны быть: максимально просты в обращении, осуществлять поиск во всех информационных ресурсах, доступных через Интернет, обеспечивать как можно большую релевантность, то есть соответствие найденной информации задаче поиска, быстро приспосабливаться к условиям постоянного обновления информации и образования новых узлов сети.
По способу представления информации источники можно разделить на следующие основные категории:
Web-страницы являются сегодня основным и наиболее распространенным типом информационных ресурсов в Сети. Этот ресурс представляет собой страницы так называемого ггипертекста, то есть текста, который может содержать в себе ссылки. Взаимосвязанная логически и посредством ссылок совокупность гипертекстовых страниц, расположенная в одном месте, представляет собой единицу, называемую сайтом (site).
В процессе просмотра гипертекстовой страницы с помощью специальной программы – броузера – пользователь мможет осуществить переход на другую страницу, расположенную, возможно, совсем в другом месте. Таким образом, все Web-страницы в Интернете оказываются связаны между собой достаточно произвольным образом. Такой способ представления информации получил название Всемирной паутины (World Wide Web, или WWW).
Следует отметить, что, помимо собственно текста и ссылок, Web-страница может содержать информацию, представленную в произвольной форме: графической, звуковой, видео и т.д.
Стандартом de facto на представление данных в Интернете является язык HTML – Hyper Text Markup Language, который распознается броузером. Такие формы представления информации, как аудио- и видеоинформация в режиме реального времени, также доступны с WWW-страниц, но требуют применения дополнительных программных средств.
Gopher является другим гипертекстовым стандартом, практически не развивающимся сегодня, поскольку поддерживает только текстовую форму представления информации. Стандартные броузеры нормально „понимают“ этот формат.
Базы данных ттакже могут иметь интерфейс в Интернете, иными словами, могут быть доступны через Сеть. Базы данных могут содержать произвольную информацию: публикации, табулированные данные и т.д.
В настоящий момент не существует какого-либо стандартного способа доступа к базам данных по сети Интернет. Наиболее прогрессивным способом является доступ к базам данных с помощью все тех же стандартных броузеров, так как этот способ обеспечивает максимальную потенциальную аудиторию потребителей информации.
Хотя, с точки зрения занимаемых ресурсов и времени доступа, хранение информации в базах данных осуществляется гораздо более эффективно, ччем в формате HTML, для организации такого доступа со стороны базы данных необходимо использование специального программного обеспечения, осуществляющего преобразование данных к формату HTML „на лету“, то есть в процессе исполнения конкретного пользовательского запроса.
Высокая ценность и большой объем информации, обычно размещаемой в базах данных, а также затраты на организацию доступа к данным со стороны Сети обусловливают в большинстве случаев платность доступа к базам данных в сети Интернет.
Файловые серверы являются традиционным способом хранения данных в Интернете и представляют собой компьютеры, часть дискового пространства которых доступна по Сети. Доступ к данным на таком сервере осуществляется с помощью специальных программ, поддерживающих протокол передачи файлов (FTP – File Transfer Protocol). Данный протокол в общем случае требует авторизации, то есть идентификации пользователя, запросившего доступ к данным. Для осуществления доступа к файлам со стороны произвольного пользователя Сети обычно используется так называемый анонимный вход (anonymous). Этот протокол обычно поддерживается стандартными броузерами.
Существует несколько способов поиска информации в интернете:
1. Непосредственный поиск с использованием гипертекстовых ссылок
Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью броузера.
Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, „ручной“ просмотр Web-страниц часто оказывается единственно возможным на ззаключительных этапах информационного поиска, когда механическое „копание“ уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников, также относится к этому виду поиска.
2. Использование поисковых машин
Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов сети, подлежащих детальному рассмотрению.
Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.
3. Поиск с применением специальных средств
Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.
Одна из технологий этого метода основана на применении специализированных программ – спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.
Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен.