Главная    Почта    Новости    Каталог    Одноклассники    Погода    Работа    Игры     Рефераты     Карты
  
по Казнету new!
по каталогу
в рефератах

Поиск информации в Интернете

ачения. Основываясь на этой закономерности, можно предложить следующую методику.
Составление списка ключевых слов
Для составления оптимального набора ключевых слов используют процедуру, основанную на применении законов Зипфа, которая заключается в следующем: берут любой текст-источник, близкий к искомой теме, т.е. "образец", и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ. Анализ текста производится таким образом:
 Удаление из текста стоп-слов.
Вычисление частоты вхождения каждого слова и составление списка, в котором слова расположены в порядке убывания их частоты.
Выбор диапазона частот, лежащего в середине списка, и отбор из этого диапазона слов, наиболее полно соответствующих смыслу текста.
Составление запроса к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.
Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения слов запроса в документ), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными, причем документ-источник может находиться далеко от начала.
Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике), - некоторые поисковые машины (AltaVista) позволяют это использовать. Таким образом, вместо единой иерархической структуры терминов мы получаем пакет таблиц, которые могут расширяться и модифицироваться отдельно.
Отбор поисковых машин
Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.
Всего известно около 180 поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и тому подобное. Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.
Составление и выполнение запросов к поисковым машинам
Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой). На основе тезауруса формируются запросы к выбранным поисковым серверам, после чего возможно уточнение запроса с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска. Данные с ресурсов, признанных релевантными, собираются для последующего анализа.
Формирование запросов
Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена.
Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится пробная реализация запросов - как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.
Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной "интеллектуальности" запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.
Анализ ресурсов и сбор информации
Первичный анализ ресурсов основывается на аннотациях - в случае их наличия, и в необходимых случаях - на ознакомлении с информационным наполнением ресурса. Информация с отобранных источников извлекается с использованием соответствующих конкретному источнику методов, что может потребовать значительных коммуникационных, вычислительных и дисковых ресурсов.
В русскоязычной части Интернета в настоящее время доступен ряд ресурсов, предоставляющих вторичную информацию, как правило, в табулированной форме. Предоставление информации для публикации в подобных источниках является более дешевым вариантом для компаний, не имеющих собственного представительства в Интернете.
Владение пользовательскими инструментами и техникой

Следует не забывать о команде Find броузера. Если ваш броузер имеет в меню Файл, Правка или Вид команду Find (Найти), используйте ее для обнаружения трудноуловимых ключевых слов страницы. Чтобы отыскать слово, которое вам нужно, воспользуйтесь комбинацией клавиш CTRL+F в вашем броузере и введите искомое ключевое слово.
Необходимо так же фиксировать результаты ссылками и закладками:
1. Сохраняйте ссылки на важные и часто посещаемые страницы, используя команду Добавить в "Избранное". Используйте подобные механизмы для регистрации предварительных результатов поиска в процессе беглого отбора с целью дальнейшего подробного изучения.
2. Поддерживайте свою персональную коллекцию ссылок в рабочем состоянии: актуализируйте и систематизируйте ее, удаляйте устаревшие и ненужные.
3. Некоторые машины поиска, например AltaVista, позволяют отмечать закладкой успешный результат поиска. Благодаря этому позднее можно вернуться к данной подборке документов и просмотреть ее.
4. Существуют специализированные программные средства - интегрируемые модули расширения для стандартных броузеров, которые индексируют информационные ресурсы ранее посещаемых узлов. Они способны выполнять полнотекстовый поиск документов на любом узле, включая результаты обработки запросов.
Сохраняйте копии важных документов. Активно используйте команды контекстного меню Сохранить объект как… и Сохранить рисунок как… и команду меню Файл - Сохранить как… для создания копий необходимой вам информации из сети Интернет на локальном ресурсе вашего ПК. Этим вы решите некоторые проблемы:
1) изменчивости и недолговечности WWW (когда со своих адресов со временем исчезают страницы и целые сайты),
2) концентрации внимания исключительно на целях определенного этапа поиска (например отбор адресов или предварительный просмотр найденной информации),
3) экономии времени on-line подключения и перевод изучения отобранных материалов в режим off-line.
Отключайте вывод изображений. Если вы не желаете видеть многочисленные рекламные заставки и для вас важен не дизайн сайтов, а их содержательная информация, измените заданный режим просмотра в броузере на режим вывода только текста (исключив возможности мультимедиа). Это значительно увеличит скорость поиска. При этом, если возникнет необходимость быстрого просмотра важной графической информации, воспользуйтесь пунктом контекстного меню Показать рисунок, кликнув для его вызова правой кнопкой мыши в место невыведенного рисунка.
Заключение

В сети Интернет хранится очень большой объем информации по различной тематике в виде статей в электронных газетах, отчетов, справочников, графических изображений, аудио- и видео-файлов и многого другого. Путешествуя по Интернет, можно найти любую информацию, не выходя из дома или офиса, иначе говоря, если какие-либо данные вводились когда-либо в компьютер, то вероятнее всего их можно найти где-то на необозримых просторах Интернет. Для этого нужен только непосредственно сам компьютер, подключенный к Интернет с установленной специальной программой – браузером, предназначенной для просмотра содержимого Web-страниц.
С появлением World Wide Web (WWW) - гипертекстовой информационной системы, опутавшей весь мир, связавшей сотни и сотни компьютеров, тысячи и тысячи страниц гипертекстовых документов - без высокоэффективных средств поиска просто не обойтись. Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Список литературы

Гармашов М. Ю., Коротков А. М. Подготовка учащихся к продуктивной деятельности в дидактической компьютерной среде. - Волгоград, 2001.

Норенков И.П. Управление знаниями в информационно-образовательной среде. - М.: МЭСИ, 2000.

Путилов Г.П. Концепция построения информационно-образовательной среды технического вуза. - М.: МГИЭМ, 1999.

Средства поиска информации в INTERNET // Афанасий-биржа (Тверь). - 28 марта 1997.

Усков В.Л. Дистанционное инженерное образование на базе Internet / Библиотечка журнала "Информационные технологии", 2000, № 3.
 

12
скачать работу

Поиск информации в Интернете

 

Отправка СМС бесплатно

На правах рекламы


ZERO.kz
 
Модератор сайта RESURS.KZ