Релевантность
Шкалы оценки
В релевантности есть две шкалы оценки - основная и дополнительная.
Предварительная шкала включает в себя оценки "404" (страница так или иначе не открывается), "вирус" (вас на страницу не пускает ваш антивирус) и "спам" (страница так или иначе обманывает пользователя или попросту является интернет-мусором).
Основная шкала содержит шесть оценок: Витальный, Полезный, Релевантный+, релевантный-, нерелевантный, "не про то"("глупый"). Из них первые три - положительные оценки, а три последние - отрицательные.
Основная шкала оценки 404
Оценка «404» предусмотрена для случаев, когда по какой-то причине не удаётся открыть документ, который нужно оценить. Например:
- с сайтом нет соединения или он уже не существует,
- выдаетСЯ'ошибка i -е только 404, но и 500 и т.д.),
- выдается ошибка MySQL, PostgreSQL, РНР, Perl и т.д. При этом навигационная часть документа может отображаться, но вместо содержимого, которое должно отвечать на запрос — ошибка.
- написано «сайт на реконструкции», «сайт скоро откроется» и т.п.
Прежде, чем ставить 404, нужно посмотреть копию в IE и Google. Если страница спамная, тогда оценка ей будет не «404», а «спам».
Если страница не открывается, мы не можем ее оценить. Но даже если документ уже удален навсегда, в момент генерации он мог быть очень хорошим. Ставя оценку «Нерелевантный», мы дадим поисковому алгоритму ошибочный критерий оценки. Поэтому нужна оценка «Не открывается».
Тонкости оценки
- А если страница закрыта для незарегистрированных? Она именно что не открывается. Но пост в блоге, например, хозяин может закрыть в любой момент. Запись проиндексировалась, когда была открыта. Что ставить?
А. 404
Вирус
Эта оценка введена для того, чтобы асессоры могли не рисковать домашними компьютерами и не заходить на заражённые страницы. Оценку "вирус" можно ставить, если ваш антивирус сигнализирует об опасности.
Положительные оценки. Витальный
Витальный сайт - это официальный источник информации о предприятии, товаре, услуге, сервисе или о человеке. Также Витальные страницы есть у городов, законов, официальных документов (в том числе инструкций) и художественных произведений.
Далеко не каждый запрос предполагает существование Витального сайта. Например, не может быть витальных сайтов по запросам "погода", "гостиница в Москве", "туры в Египет", "вода в офис" и т.д., потому что эти товаоы/услуги поедлагаются множеством ооганизаиий. и соеди них нет пеовоисточника.
По запросу «безопасность Субару» страница http://www.subaru.ru/technoioqy/safetv Витальной не будет, так как безопасность - это не товар.
Примеры:
- Для запроса «лесотехническая академия г. Екатеринбург» витальной является главная страница официального сайта академии;
- Для запроса «adobe photoshop» витальной является http://www.adobe.com/products /photoshopfamily.html - внутренняя страница сайта разработчика, посвященная конкретному продукту.
- Для официальных документов: для России Витальными мы считаем страницы 1) на сайте соответствующего ведомства, 2) на сайте «Российской газеты» и 3) на сайте http://www.kremiin.ru Подробнее о законах
Специфика Беларуси
- Для запроса "Dark Knight" Витальным будет официальный сайт фильма http://thedarkkniqht.warnerbros.com/dvdsite/
- Для запроса "волны гасят ветер" - текст книги, выложенный на официальном сайте - http://www.rusf.ru /abs/books/vqvOO.htm
- Для запроса какого-либо города Витальным будет официальный сайт администрации города.
Тонкости оценки
- Сколько может быть витальных сайтов по запросу?
А. В норме - один. Но есть случаи, в которых их количество больше.
- по запросу нужен официальный документ. См. выше: для официального документа может быть три витальных страницы.
- по запросу есть больше одной поисковой потребности. Например, по запросу "шишкин лес" ищут как питьевую воду (витальный сайт http://www.cone-forest.ru). так и телепрограмму для детей (витальный сайт http://www.shishkinles.ru). Поисковые потребности и витальные сайты по ним обычно указываются в аннотации к запросу.
- в задании оказались зеркала сайта. Что такое зеркало сайта?. Например, по запросу "Дима Билан" сайты http://www.biiandima.com и http://www.bilandima.ru
- ищут человека. У человека может быть несколько уникальных сайтов. Например, у писателя Лукьяненко есть официальный сайт http://www.lukianenko.ru/rus и блог http://dr-piliulkin.liveiournal.com, оба они Витальны по запросу. Будьте внимательны! В последнее время увеличивается количество сервисов, где люди заводят аккаунты.
Витальным мы считаем ЖЖ человека. Myspace может быть полезным или рел+, миниблог Твиттер будет
рел+, как и профиль в Контакте или в Фейсбуке
(единственное исключение - профиль самого создателя Фейсбука).
- главная страница сайта может располагаться в корне домена (например, по адресу yandex.ru), а может находиться в подкаталоге (например, по адресу www.htc.com/ru/ вместо www.htc.com). Во втором случае, как правило, попытка набрать в браузере имя домена (www.htc.com) приводит либо к автоматическому перебрасыванию пользователя на страницу с подкаталогом (что помечаем как спам на соответствующей шкале), либо показу промежуточной страницы, на которой обычно отображается красивая заставка или предлагается выбрать язык сайта. Так как мы знаем, что большинство пользователей Яндекса русскоязычные и пришли за информацией, а не заставкой, мы хотим находить не только симпатичную страницу в корне, но и страницу с конкретной информацией на русском языке. Обе страницы, и главная, и страница с заставкой, будут Витальными. Примеры: http://www.hermitaqemuseum.org/ и http://www.hermitaqemuseum.org/htmi Ru/index.html по запросу «Эрмитаж», http://www.sacred2.com/landinqpaqe/index en.html и http://www.sacred2.com/ru.html по запросу «sacred 2».
- В выдаче несколько страниц с Витального сайта. Они все витальны?
А. Нет. Витальна только одна, главная (см. выше про возможные исключения). Оценка остальных страниц зависит от того, насколько они полезны по запросу.
- Может ли на одном сайте быть несколько Витальных страниц?
А. Может, если эти страницы находятся на одном положении в "иерархии" сайта и одинаково соответствуют запросу, а одной "объединяющей" страницы нет.
Пример: запрос "осипов алексей ильич лекции". На сайте есть страница с аудиолекциями и страница с. видеолекциями. Пользователь не указал, какие именно лекции нужны. Страницы одинаково соответствуют запросу, обе являются официальными, на сайте они совершенно равноправны: http://www.aosipov.ru/video/ и http://www.aosipov.ru/audio/ Обе они Витальны, а главная страница сайта - Полезна (т.к. сайт посвящён человеку, а не лекциям).
Запрос "рено меган". На официальном сайте одной страницы для всех Рено Меганов - нет. Но одинаково
соответствуют запросу официальные страницы, посвящённые вариантам Рено Мегана:
http://www.renault.ru/renault-ranqe/ranqe-paqe-vp/meaane-coupe/
http://www.renault.ru/renault-ranqe/ranqe-paqe-vp/new-meaane/
http://www.renault.ru/renault-ranqe/ranqe-paqe-vp/meqane-sedan/
http://www.renault.ru/renault-ranqe/ranqe-paqe-vp/meqane-estate/
Все они Витальны.
Обратный пример: если то, о чём говорится в запросе - самое главное и, по сути, единственное, что представляет сайт, то Витальной будет главная страница сайта, а не внутренняя.
Запрос "телефоны Нокиа", Вит http://www.nokia.ru/, а не http://www.nokia.ru/products Запрос "лодки Колибри", Вит http://www.kolibriboats.com. а не внутренние страницы.
- В выдаче несколько страниц с Витального сайта. Они абсолютно одинаковы по содержанию, но у них разные урлы. Например: http://www.phpmvadmin.net/home раде и
http://www.phpmvadmin.net/home paae/index.php и http://win.mail.ru/cqi-bin/splash и http://mail.ru/
А. Абсолютно одинаковые страницы получат одинаковые оценки. Получается, что в таких парах страниц обе страницы Витальны.
- В выдаче 2 внешне абсолютно одинаковые на вид страницы с разными доменами, они могут быть оценены как витальные? Например: http://dumpinq.com.ua/ и http://dempinq.com.ua/
А.Мы видим, что все ссылки с одного ведут на другой - то есть реально существует только один сайт, а от другого только морда. Оба сайта витальны, но второй должен быть помечен как спам.
- У некоторых компаний витальный сайт один. Другие создают несколько сайтов, по сайту для каждого региона. Как тут быть?
А. Нужно оценивать страницу в соответствии с указанным регионом. При этом регион, указанный непосредственно в запросе, имеет преимущество перед регионом, указанным в скобках. Так, по запросу «МТС Питер»(Москва) Витальным будет сайт http://www.spb.mts.ru/mts for clients.htm
- Ищут певца. Его официальный сайт почти не содержит информации. Но есть отличный сайт, сделанный фанатами. Там есть всё. Можно оценить фанатский сайт как Витальный?
А. Нет. Официальные сайты часто серьезно проигрывают (по содержанию и информативности) сайтам, созданным любителями. Тем не менее, даже малоинформативный официальный сайт (или его русскоязычная версия в случае сайта иностранного певца) будет Витальным. Это единственный безусловно авторитетный источник информации.
- Есть два официальных сайта - один на русском, другой на английском. Какой из них Витален?
А. Если запрос на кириллице, то Витален русский сайт, а английский - рел-.
Если запрос задан латиницей, то Витальны оба сайта.
Если из запроса очевидно, что его задавали не просто латинскими буквами, а на английском языке
(пример: [official site of fc zenit in English]), - то Витален англоязычный сайт, а русскоязычный рел-
- Есть официальный сайт на английском. А на русском - только фан-клуб. Какой из них Витален?
А. Витален сайт на английском.
- Запрос вида "скачать программу", например "скачать файрфокс". На сайте есть внутренняя страница, посвящённая продукту, но его можно скачать и с главной: http://www.mozilla-russia.org и http://www.mozilla- russia.org/products/firefox. Какая страница Витальна?
А. Витальна внутренняя страница, посвящённая непосредственно продукту. Главная - Полезна.
- Я вижу страницу со ссылкой на Витальный сайт. Как её оценить?
А. Зависит от контента этой страницы. Если страница соответствует теме запроса, даёт ценную информацию - её оценка Релевантный+ или Полезный. Если страница просто содержит ссылку, но сама по себе не имеет никакого отношения запросу и без этой ссылки вы бы оценили ее как Нерелевантную, то за наличие ссылки на витальный оценку странице повышать не нужно, нужно оценивать ее точно так же, как если бы ссылки не было. Такая страница может получить любую оценку, в т.ч. Нерел или Не про то.
- У продукта есть раздел на сайте производителя и свой собственный отдельный сайт. Вот по запросу «несквик» — http://www.nesguik-club.com/ru и www.nestle.ru/products/coffe/cacaonesquik/Default.aspx Они оба Витальны?
А. Да.
- В выдаче нет витальной страницы, но есть другие страницы с витального сайта. Как быть?
А. У нас есть опция "добавить урл". Витальную страницу ОБЯЗАТЕЛЬНО нужно добавить! (за исключением заданий по дооценке и переоценке)
Положительные оценки. Полезный
Полезный ресурс не только отвечает на запрос, но и даёт пользователю сопутствующую тематическую информацию. Оценки Полезный заслуживает сайт, который выгодно отличается от прочих объёмом информации. Например:
- по запросу "А.С. Пушкин" сайт даёт биографию, полное собрание сочинений, критику, анализ.
- по запросу «тесты по правилам этикета» сайт предлагает не только тесты, но и описание правил этикета, по возможности, для разных стран и эпох.
- по запросу «телефоны Nokia» выдаётся страница с описаниями и фотографиями всех моделей телефонов фирмы Nokia, обзором цен на них и отзывами пользователей (например, http://market. vandex.ru/guru.xml?CMD=-RR=9,0,0,0-PF=1801946%2BEQ%2Bsel%2B1871151-VIS=560- CAT ID=160043-EXC=1-PG=10&hid=914911
Если ищут институт - Полезны сайты факультетов, подразделений ит.п.
Тонкости оценки
Оценка Полезный - очень важная, она имеет большой вес в наших метриках и мы хотим, чтобы асессоры ставили ее вдумчиво. Мы просмотрели множество страниц, которым были поставлены оценки Полезный, и не все из них кажутся нам справедливыми.
Мы попытались выявить области, в которых чаще всего встречаются ошибки с оценкой Полезный. Ниже приводятся страницы, которые по нашему представлению заслуживают оценки Полезный, а также примеры страниц, которые с нашей точки зрения не стоило оценивать как Полезные,
Организации, услуги, товары и тп ([Ювелирные украшения]; [бары и рестораны])
ПОЛЕЗНЫЕ:
1) хорошие агрегаторы, на которых представлено много полезной информации.
Примеры:
[бары и рестораны] (для соответствующего региона) - Полезными можно оценить урлы: http://www.elru/food/places/.
тк здесь можно выбрать ресторан удобным способом - по типу кухни, по району, по ценовой категории. Для каждого заведения есть рейтинг по качеству, средний счет и полные контакты - таким сервисом удобно пользоваться, его действительно можно назвать полезным.
По запросу [мебель] из Украины Полезным можно назвать ресурс http://www.ukrmebel.com По запросам про хендмейд полезным можно назвать ресурс http://www.livemaster.ru/
РЕЛЕВАНТНЫЕ +:
- Отдельные сайты фирм в соответствующем регионе http://www.iuwelir.ru
- Списки визиток без дополнительной информации об объектах, которая может быть интересна пользователю:
http://www.khabarovskadm.ru/diqital khv/info/veliow paqes/index.php?ELEMENT 1D=2588 - здесь только список названий кафе с адресами, ни отзывов, ни фото, ни цен нет, полезной такую страницу назвать нельзя.
Обратите внимание на колдунщики карт:
Если пользователя интересуют об объекте только контакты, колдунщик вполне может быть полезен.
Например, по запросу [военкоматы] урл http://maps.vandex.ru/?text=%D0%B2%D0%BE%D0%B5%D0%BD%D0%BA%D0%BE%D0%BC%D0%B0%D1%82&where=%D0%A1%D0%B0%D0%BD%D0%BA%D1%82-
%D0%9F%D0%B5%D1 %82%D0%B5%D1 %80%D0%B1 %D1 %83%D1 %80%D0%B3&sll=30.3135%2C59.9385&sspn=1.36941 %2C0.629672
можно оценить как Полезный, так как на нем представлена в максимальном объеме вся информация, которая может интересовать человека по такому запросу - контакты и месторасположение на карте.
В то же время, по запросу [рестораны и бары] человека интересуют не только адреса, но и другая информация: кухня, ценовая категория, отзывы, фото и тп. Тогда просто множества точек на карте ему будет недостаточно, и, например, урл http://maps.qooqle.ru/maps?hl=ru&redir esc=v&um=1 &ie=UTF- 8&a=%D1 %80%D0%B5%D1 %81 %D1 %82%D0%BE%D1 %80%D0%B0%D0%BD%D1 %8B+%D1 %81 %D0 %B0%D0%BD%DQ%BA%D1 %82-%DQ%BF%D0%B5%D1 %82%D0%B5%D1 %80%D0%B1 %D1 %83%D1 %80%D0%B3%D0%B0&fo=1 &al=ru&hq=%D1 %80%D0%B5%D1 %81 %D1 %82%D0%BE%D1 %80%D0 %B0%D0%BD%D1%8B&hnear=%D0%B3%D0%BE%D1%80%D0%BE%D0%B4+%D0%A1%D0%B0 %D0%BD%D0%BA%D1 %82-%D0%9F%D0%B5%D1 %82%D0%B5%D1 %80%D0%B1 %D1 %83%D1 %80 %DQ%B3&view=text&ei=3V4QTOOAJsSKOKDR2IYN&sa=X&oi=local qroup&ct=more-results&resnum=1& ved=OCDAQtQMwAA стоит оценивать как Релевантный +, но не Полезный.
РЕЛЕВАНТНЫЕ -:
1) К Релевантным- относим отдельные примитивные визитки компаний.
КАК НЕ СТОИТ ОЦЕНИВАТЬ: как Полезные не стоит оценивать страницы отдельных организаций или примитивные списки визиток:
По запросу [ювелирные украшения] страницы
будут просто Рел+, но не Полезны.
По запросу [бары и рестораны] страница со списком примитивных визиток http://www.khabarovskadm.ru /digital khv/info/vellow paqes/index.php?ELEMENT ID=2588 будет Рел+, но не Полезна.
Онлайн-сервисы, например:
- Погода
- Онлайн-переводчики
- Онлайн-карты
КАК НЕ СТОИТ ОЦЕНИВАТЬ:
Как Полезные не стоит оценивать страницы со вторичным контентом, на которых просто установлен сервис от другой компании.
http://perevod.biqmir.net/ - переводчик от Гугл и от Прагмы http://mediaua.com.ua/perevod - переводчик от Прагмы http://translate.meta.ua/ - переводчик от Прагмы
Википедия
Википедия - очень хороший ресурс, и многие статьи в Википедии действительно информативны и могут быть оценены как Полезный.
Однако стоит помнить, что:
- Статья в Википедии, как любая другая теоретическая информация, уместна в топе не по всем запросам (см. инструкцию по Товарным запросам);
- Статьи в Википедии бывают разного качества - есть полные и информативные, а есть Ледописанные, неполные, некачественные статьи.
Поэтому не стоит ставить оценку Полезный только из-за того, что перед вами статья из Википедии - важно оценить релевантность конкретной статьи.
КАК НЕ СТОИТ ОЦЕНИВАТЬ:
- По запросу [АВК Киев] не стоит оценивать как Полезную статью в википедии http://ru.wikipedia.orq/wiki/ %D0%90%D0%92%D0%9A - краткое описание, никакой полезной информации о компании нет
- По запросу [metallica дискография] не стоит оценивать как Полезную статью в википедии http://en.wikipedia.orq/wiki/Metallica discography , т.к. статья на английском не нужна по русскоязычному запросу
- По запросу [«молот-прикамье официальный сайт»] не стоит оценивать как Полезную статью в википедии http://ru.wikipedia.orq/wiki/%D0%9C%D0%BE%D0%BB%D0%BE%D1%82-%D0%9F%D1%80 %D0%B8%D0%BA%D0%B0%D0%BC%D1%8C%D0%B5 , так как статья незавершенная и очевидно неполная - оценки Полезный точно не заслуживает
-По запросу [фольксваген] не стоит оценивать как Полезную статью в википедии http://ru.wikipedia.org /wiki/Volkswaqen. см. инструкцию по Авто
Вообще страницы с большим количеством текста:
Не стоит ставить оценки Полезный всем страницам, на которых представлено много текста. То, что текста много, не говорит о том, что он релевантен запросу. Поэтому всегда нужно внимательно просматривать содержание текста.
КАК НЕ СТОИТ ОЦЕНИВАТЬ:
По запросу [Ерденевская средняя школа] не стоит оценивать как Полезный страницу http://www.web- resurs.ru/studv/links2061.html - при внимательном прочтении текста становится ясно, что страница посвящена не школе, а сайту школы, и не имеет никакого отношения к запросу.
Запросы на «скачать»:
По запросам такого типа очень редко можно встретить по-настоящему Полезный ресурс. Помимо искомого объекта, у Полезной страницы должны быть:
-удобная навигация
-логично структурированные данные
https://pset.yandex.ru/wiki/-view?page=relevance
-Duoiviw/i\nwo i d oixa'ia i d wco ddw^o r\ai nct'i v\ in
-страница в целом должна быть приятна (если страница сразу закидывает пользователя сотней порнобаннеров, она вряд ли будет приятна пользователю)
Например:
- по запросу музыкальной композиции Полезный может быть тогда, когда у композиции есть несколько исполнений, и все они (или многие из них), можно скачать на странице.
Так, по запросу [besame mucho] страницы http.V/patefon.knet.ru/besame.htm и http://cawa.ru/2009/02 /26/besame-mucho-sonq-translation-text-mp3 можно назвать Полезными.
- по запросу исполнителя Полезный - это полное (или почти полное) собрание сочинений.
Например, по запросу «скачать Высоцкий» содержание коллекции «лучшие песни Высоцкого» рел+, а полное собрание его песен - полезно.
КАК НЕ СТОИТ ОЦЕНИВАТЬ:
Не стоит оценивать как Полезные страницы такого рода:
http://www.izone.ru/text/pdf/adobe-reader-download.htm
http://soft.softodrom.ru/ap/CheMax-p1931
http://www.ladoshki.com/?qetpocketpcfile&id=7554 - все эти страницы вполне заслуживают оценки Релевантный+, но не более того.
http://mediadisc.ru/index.php?artist=2pac по запросу [2рас скачать] тоже заслуживает оценки Рел+, но не Полезный: можно скачать только альбомы целиком, отдельные песни выбрать нельзя, ссылки разбиты на несколько частей.
Положительные оценки. Релевантный+
Релевантный+ документ отвечает запросу, предоставляет искомую информацию.
Тонкости оценки
- Оцениваю запрос вида "имя человека". Понятно, как оценивать, если ищут "звёзд" и просто известных людей. А если по такому запросу людей несколько и все - неизвестные?
А. Если таких людей несколько, то все они релевантны запросу. Важно также помнить, что такие запросы мы не считаем локализуемыми, т.е. при оценке не нужно обращать внимание на то, из какого региона задан запрос и в каком регионе живёт человек, которого ищут.
Если понятно, что ищут некоего известного человека, а у него есть тёзки, то известный человек Витален, а малоизвестные тёзки - не выше Рел-.
- В оценке релевантности ищут картинки. Достаточно ли одной хорошей картинки, чтобы считать документ релевантным?
А. Это зависит от запроса. По запросу "картинка Мона Лиза" одной картинки достаточно, по запросу "фотографии Парижа" для Рел+ картинок должно быть как минимум две.
- Если в запросе говорится о песне, какой ответ будет Релевантным+?
А. Зависит от вида запроса. Если запрос - это просто название песни, то Рел+ будет и текст, и клип, и возможность скачать, и возможность послушать. Если указано "песня такая-то, mp3", то рел+ только возможность скачать полную версию трЗ-файла бесплатно, без регистрации.
Вообще, при потребности скачать что-либо Релевантным+ будет только свободное и бесплатное скачивание.
- Ищу mp3. Скачать смог, но перед этим мне пришлось сделать несколько кликов и ввести капчу.
Должен ли я снизить оценку?
А. Зависит оттого, какая страница попала в задание.
К примеру, по запросу "скачать Корни Это ты объявила войну" страница http://www.zavcev.net/paqes /309/3095R shtml Роповантня+ хотя ло начала окачивания ешё ппоклик и кяпча Лопр в том что страница - основная "каталожная" карточка песни на сайте. Здесь можно выбрать формат скачивания или прослушать песню. А вот http://www.zavcev.net/paqes/20/2093.shtml будет, конечно, Рел-, хотя в списке ниже мы видим ссылку на нужную песню. Это карточка другой песни.
Аналогично с сайтом http://www.mp3share.ru. Здесь http://www.mp3share.ru/mp3/10713.html - основная карточка песни. А такой список - http://www.mp3share.ru/artist/448.html - будет Рел-.
Если в задании - основная карточка песни, а ссылка "скачать" ведёт на файлообменник (Летитбит, Депозитфайлз, Народ или другой) - это тоже Рел+
- А если по запросу типа "скачать" выдаётся торрент, какая должна быть оценка?
А. Если можно скачать нужный торрент без регистрации - рел+, с регистрацией - рел-.
- Запрос типа "скачать программу". У программы множество версий, но конкретная версия в запросе не указана. Как оценивать?
А. Рел+ будет только самая последняя версия, остальные - рел-.
При этом считаем, что значимыми в определении версии для программы являются первые два числа (самое первое и после точки). Т.е. если последняя версия программы 9.3.6.25, то все версии вида 9.3.* (* - любые цифры) будут рел+, а версии 9.2.3.12 - уже рел-.
- Запрос типа "скачать". На странице есть ссылка на скачивание программы (например, на файлообменник), но эта ссылка неактивная. Т.е., чтобы пройти по этой ссылке, ее нужно скопировать и руками вставить в строку поиска. Как оценивать?
А. Оценку стоит снизить до Рел-, тк пользоваться такой ссылкой неудобно.
- Запрос типа "скачать". На странице предлагают скачать программу, но она разбита на огромное количество частей. Как оценивать?
А. Оценку стоит снизить до Рел-, тк пользоваться такой страницей неудобно.
- Ищут книгу или реферат. Найден текст, который выложили постранично, и в выдачу попала не первая страница. Как её оценивать?
А. Рел+ будет только начальная страница текста.
Но обращайте, пожалуйста, внимание на то, что ищут: конкретно текст или отдельную главу из него или, возможно, цитату. Если запросу соответствует часть текста, то она и будет Релевантна+, а первая страница - рел-. (Примеры: 1) запрос "полезные ископаемые Алтая", в выдаче книга "Полезные ископаемые России", где ресурсам Алтая посвящена одна из внутренних глав, 2) "сердце бонивура экзекуция" - рел+ та глава романа, где описывается экзекуция, другие страницы рел-).
Это правило распространяется и на те случаи, когда кроме постраничной выкладки есть ссылка на архив с полной версией документа.
Q: Ищут текст песни, а в выдаче ролик, на котором показываются слова песни, как оценить?
А: Такой документ не заслуживает оценки выше рел-, так как если человек хотел текст песни, такой документ его не удовлетворит.
Например, по запросу "Morcheeba - Enjoy the Ride (lyrics)"
УРЛ: http://www.voutube.com/watch?v=1CTBOskmXaE He заслуживает оценки выше Рел-.
- Ищут лекарство. Как оценивать?
А. Если в запросе не сказано прямо, что хотят купить (нет пометки "купить", "цена", "в таком-то городе"), то считаем, что ищут только информацию о лекарственном препарате. А если из запроса ясно, что пользователь хочет именно купить препарат, то оцениваем по такой схеме: Релевантны+ ответы из региона запроса, релевантны- предложения по стране (для того, чтобы пользователь мог приблизительно сориентироваться по ценам), другие страны - нерелевантны.
Отрицательные оценки. Релевантный-
Релевантный- документ соответствует теме запроса, но на сам запрос не отвечает.
Краткие описания фильмов, которые обычно можно найти на dvd или кассетах, следует оценивать как Релевантные-.
Для запроса «скачать
- .mp3» страница, на которой необходимо сначала зарегистрироваться, является Релевантной-. Это справедливо и для платных сайтов, исключения - только очень редкие ценные записи. Релевантны- предложения скачать файл с помощью е-мула.
Если на сайте выложен лишь фрагмент трека (это можно определить по размеру файла, который показывается в начале скачивания: некоторые записи могут весить 8000-1000 кб, но менее 500 кб - это фрагмент), оценка - не выше Релевантный-.
По запросу «коды городов по московской области» страницу http://www.pkod. ru/cites.php?id=17778 следует оценить как релевантную-, т.к. представлен только код Орехово-Зуево.
По запросу «прически знаменитостей» страница http://fishki.net/comment.php?id=19287 Релевантна-, потому что это пародии.
Для запроса «в какое время года лучше рожать» релевантным- будет, например, ответ на форуме: «Я думаю, что лучше всего рожать весной!» безо всякого объяснения. Такой запрос задают, скорее всего, при планировании семьи, и вряд ли на столь серьезный шаг повлияет мнение какого-то анонима на форуме. Пользователь, скорее всего, хочет увидеть статистику по сезону рождения ребенка (заболеваемость, активность, одаренность), мнение врачей, детальную дискуссию на каком-либо женском форуме, где пользователи обосновывают свое мнение.
Для запроса «карта-схема города Твери» релевантным- будет либо карта не того типа (топографическая или др.), либо карта одного района Твери вместо всего города, либо карта в слишком мелком масштабе. Ни один из Этих вариантов не дает полный ответ пользователю, но в некоторых (редких) случаях он может решить его задачу.
Одиночные новости стоит оценивать положительно, если они свежие и релевантны запросу. Однако, при этом надо будет ответить на вопрос "через сколько эта новость устареет?", и в открывшейся оценке по актуальности поставить соответствующую оценку. Как правило, одиночные новости считаем устаревающими через месяц. Устаревшие одиночные новости по теме релевантны-. Лента новостей (или колдунщик) по интересующей теме может быть Релевантна-i-.
Визитки предприятий (страницы, где указаны контакты и профиль) по запросу этих предприятий следует оценивать как релевантные-.
Подробно об оценке визиток
мобильные версии сайтов (wap, pda и прочие) оцениваются не выше рел- (если только из запроса не следует, что ищет именно их.)
Отрицательные оценки. Нерелевантный
Нерелевантный документ не отвечает на поставленный вопрос. Например:
По запросу «пляжи Москвы» Нерелевантен документ о пляжах в Греции.
По запросу «аренда автомобилей в Новгороде» страница http://www.business.su/news.php?rzd=a27& qoroda=62&start= 1 является Нерелевантной, потому что вообще не соответствует теме запроса. Вместо предложений по аренде на странице представлены автоновости.
По запросу «популярный нудистский курорт в Черногории» страница http://www.croatiatourinfo.ru/ Нерелевантна, т.к. предложено общее описание отдыха в Хорватии.
По запросу «аренда автомобиля в Новгороде» страница http://bluesrnobil.nn.ru Нерелевантна, т.к. представленная фирма занимается не арендой, а тюнингом автомобилей в Новгороде.
Отрицательные оценки. Не про то (Глупый)
Порой в выдаче оказываются документы, которые содержат слова запроса, но смысл запроса в них искажается, оборачивается абсурдом. Почему такое происходит:
- из-за омонимии (графическое и (или) фонетическое совпадение слов (и вообще знаков, знакосочетаний и словосочетаний), имеющих различный смысл и (или) значение.) Пример. Запрос [Толстой], находим "все о раке толстой кишки"
- из-за поиска других форм слова, которые полностью меняют смысл запроса.
Пример: Запрос [Толстой], находим Толстый майор ходил перед фронтом.
- из за разрыва словосочетания, которое составляет смысловую единицу, а при разрыве смысл теряется.
- из-за похожих названий разных объектов
- пропущено важное слово из запроса.
Как определить, что перед вами не просто нерелевантный документ, а глупый?
- Надо понять, про что запрос, то есть какой главный объект поиска, тематика запроса
- Если ответ нерелевантен запросу, но в целом про тот же объект - это просто нерел. А если он про вообще что-то не то - так это и есть «не про то».
Например:
[месяца по английски] - понятно, что тут хотят узнать перевод слов (названий месяцев) на английский язык. То есть главная тема запроса - перевод.
http://content.mail.ru/paqes/p 25131.html - это просто нерел, потому что в широком смысле тема запроса сохраняется, хотя ответа на запрос на странице нет.
http://www.reddavs.ru/club/note/390/%D0%A4otosessii-beremennvh-%D0%A4otos emka-beremennyh - а это уже не Про то, потому что страница не имеет к тематике запроса вообще никакого отношения http://ru.wikipedia.orq/wiki/%D0%98%D0%B3%D1%80%D0%BE%D0%BA %D0%BC%D0%B5%D1%81 %D1%8F%D1%86%D0%B0 %D0%90%D0%9F%D0%9B - тоже не про то, потому что тематике запроса также не соответствует.
http://dirtv.ru/comments/234736 - и это не про то, потому что тоже не соответствует общей теме запроса
[драка в раде видео] хотят посмотреть видео драки в Верховной Раде. http://censor.net.ua/ru/video news/view/161734
/shest reqionalov poltora qoda ne povavlvavutsva v parlamente qlavnvvi proqulschik ahmetov video тут, хотя и нет видео драки, тематика страницы - бездействие депутатов, то есть в целом, страница по теме, по нерелевантна. То есть это "нерел".
http://video.biqmir.net/show/204041 - а эта страница вообще не имеет никакого отношения к тематике запроса, это "не про то"
Ещё примеры:
- Запрос [где находилась троя]
Документ содержит текст: «По факту ДТП в Адлере, где погибли три ...
04.11.2008, Сочи 15:17:23 По факту автомобильной аварии в пАдлере, в результате которой погибли три человека и еще трое были ранены, возбуждено...»
Город "Троя" превратился в слова «трое людей».
http://www.rbc.ru/rbcfreenews/20081104151723.shtml - оценка Глупый, Не про то http://www.netzor.orq/video/139888-kripto-v-poiskax-troi-2011-satrip.html - Нерелевантный
- [ким жуй]
В выдаче: «Ким жевал стебель сахарного тростника»
Имя “жуй” перепутали с глаголом “жевать". http://liqhthouse.nsvs.bv/lib/kiplinq/kim.shtml - Не про то, Глупый
- [саундтрек фильм знаки]
В выдаче: «Музыка / Сборники/ саундтреки / SQD.RU - скачать музыку Amelie From Montmartre .... Говоря это, он, несомненно, уже был знаком с талантом Йанна Тирсена (собственно, данный саундтрек - сборник лучших композиций Тирсена, начиная с 1995 года) и знал, что с такой музыкой фильм заставит переживать даже закоренелых циников, как бы они»
В тексте ответа не различили, что перед нами не “знак”, а “знакомый”.
http://sad.ru/music/mix/amelie from montmartre music by vann tiersen - He про то, Глупый http://musicforum.ru/lofiversion/index.php/t45929.html - Нерелевантный (фильм другой, но смысл не искажен).
- [англо-русский колледж]
В выдаче: “Русско-английский и Англо-русский словарь по бизнесу Polyglossum ...переводчиков, бизнесменов, специалистов, преподавателей и учащихся институтов и колледжей. Вместе с этим словарём чаще всего покупают” - искали колледж, а нашли словарь для учащихся колледжей. Разрыв словосочетания, оценка Глупый.
- [мягкий сорт кожи]
В выдаче: “Уход за кожей шеи и декольте домашними средствами Если у вас сухая чувствительная кожа, то препараты для ее очищения могут включать в себя мягкие сорта детского мыла, гели для душа максимально деликатного ..." - искали мягкий сорт кожи, а нашли уход за кожей мягкими сортами мыла. Разрыв словосочетания, оценка Глупый.
- [алевтина гердт]
В выдаче: “Список кавалеров ордена «За заслуги перед Отечеством» III степени - Википедия16 сентября 1996 года, № 1357 - Гердт Зиновий Ефимович, артист кино, город Москва. 3 октября 1996 года, № 1416 - Гинзбург Виталий Лазаревич... 14 апреля 2000 года, № 676 - Федулова Алевтина Васильевна, председатель Союза женщин России, город Москва.” - искали Алевтину Гердт, а нашли Зиновия Гердта и Алевтину Федулову. Разрыв Фамилии и имени является очень важным частным случаем разрыва словосочетания и всегда заслуживает оценки Глупый.
Если документ, выданный по запросу, выглядит нелепо и абсурдно - ему тоже стоить поставить оценку "Не про то" (например, выдача главной страницы Рамблера по запросу «сказка о Золушке»),
Дополнительная шкала оценки
Спам
Поисковый спам - это вредоносные и сорные сайты и страницы. Обман пользователя, бессмыслица, замусоривание хороших сайтов - в этом повинен спам. Поисковый спам обесценивает интернет как источник информации и заставляет поисковые системы тратить силы и время на его искоренение, а не на повышение качества поисковых результатов.
Цель спамера - продвинуть свою страницу в первые строки выдачи. Наша цель - помешать ему в этом. Как оценивать
Существует множество видов спама. Некоторые из них представляют собой спам в "чистом виде", но другие могут находиться на достаточно ценных или просто релевантных запросу страницах. Поэтому оценка "спам" вынесена в дополнительную шкалу.
- Перемещение страниц
Если фактический урл отличается оттого, который есть в задании (при этом отличается существенно: происходит смена хоста), то фактический урл в интерфейсе подсвечивается красным цветом.
ВАЖНО: смена адреса сама по себе не есть спам, однако есть некоторые спамные страницы, на которых происходит и редирект тоже. Поэтому в случае смены хоста урл подсвечивается, чтобы обратить внимание асессора на эту смену адреса. То есть красный урл - не всегда спам, а лишь повод посмотреть на сайт внимательнее, на предмет проверки, а не дорвей ли он.
Перемещения страниц бывают разной природы:
- Дорвеи, т.е. сайт или вео-страница, перенаправляющая посетителей на другой сайт. Другой цели существования у дорвея нет: на нём нет никакого ценного контента.
Дорвеи бывают двух видов: с автоматическим редиректом и без него.
Дорвей с редиректом примечателен тем, что адрес страницы в адресной строке самопроизвольно меняется. Перенаправление пользователя на другой сайт происходит автоматически. Иногда оно бывает мгновенным.
Дорвей всегда перебрасывает пользователя на какую-то страницу, которую он не искал (часто это порно), на разный мусор, который явно не несёт никакой пользы никому (кроме его создателей). Часто конечной страницей, на которую приводит дорвей, тоже является какой-либо спам. Вообще, дорвеи достаточно уродливы для того, чтобы вопроса в их спамности не возникало, когда они попадаются в оценку. Однако попадаются они редко, поскольку все поисковые системы достаточно успешно с ними борются.
Дорвей без редиректа требует кликнуть по ссылке, чтобы перенаправление произошло. Например: http://mv.opera.com/seksvkontakte/bloq/
Дорвей - это спам всегда, с редиректом он или без.
- Серверный редирект.
Изменение адреса страницы или полное удаление контента с неё может и не являться злонамеренным действием. Крупные интернет-площадки часто манипулируют структурой сайта и даже доменными именами. Аналогично поступают сознательные и опытные вебмастера при переносе контента.
Один из частых примеров такого редиректа - создание промосайтов под актуальный продукт (новый тариф у сотового оператора, новый ноутбук и т.д.) Когда сайт выполнит свою функцию, на нём выставляют редирект.
Пример: http://somebodvelsesDhone.com/ - промосайт Nokia для нового телефона. Как сайт выглядел раньше, можно посмотреть здесь: http://wklondon.tvpepad.com/welcome to optimism/2008/10/somebodv- elses-phone.html
Теперь длинная цепочка редиректов приводит нас на http://europe.nokia.com/home
Встречаются внутренние редиректы там, где страницу переместили. Пример: mail.google.com или http://www.ioblist.ru/ (этот сайт купил холдинг Мейла и теперь он редиректит на сервис работа на сайте mail.ru).
Если случился какой-либо редирект, мы оцениваем итоговую страницу по релевантности. Спам за саму по себе смену адреса не ставим.
Ещё один вариант - зеркала сайта, которые функционируют неправильно:
На http://www.kasperskvlab.ru/ главная страница функционирует как зеркало основного сайта, но все ссылки ведут на http://www.kasperskv.ru/ - в этом отличие таких сайтов от настоящих зеркал, навигация которых полностью повторяет основной сайт и никуда не перекидывает.
Такие страницы получают оценку по релевантности и спам.
Информация для спам-асессоров
- Результаты поиска и выводы по тэгу
Результаты поиска по вебу всегда получают оценку "спам" на предварительной шкале и оценку по релевантности - на основной.
Результаты поиска по сайту получают оценку "спам" только тогда, когда на сайте есть альтернативный
uiuuuu naavn ai\v\v\ 1ЧСМС1 ирии, icim и 1ал далее/.
Примеры: ищем аптеки на сайте http://www.btk-online.ru Результаты поиска http://www.btk-online.ru/search /?btk all=1&r=&subr=&txt=%E0%EF%F2%E5%EA%E0&BooklD=search&[oc= - спам, т.к. те же результаты можно получить с помощью выдачи по тэгу http://www.btk-online.ru/btk/?subr=169 Ищем дуэт арф на music.privet.ru http://privet.ru/search/music/?qo=1 &auerv=%D0%B4%D1 %83%D1 %8D %D1 %82+%D0%B0%D1 %80%D1 %84&ss=music&x=0&v=0 - спам, т.к. возможна навигация с помощью тэгов: http://music.privet.ru/taqs/?taq=%D0%B4%D1%83%D1%8D%D1%82+%D0%B0%D1%80%D1%84
Ещё примеры:
http://www.okov.net/index.php?autocom=mp3base&q-%CC%E8%EA%E0+%CD%FC%FE%F2%EE%ED по запросу "Мика Ньютон - Выше чем любовь- Нежность" = спам + нерел, потому что ни слушать, ни скачать без регистрации нельзя, да и запрос к сайту не совпадает с запросом пользователя.
Если результаты поиска пустые, то оценки будут спам + нерел.
Внимание! Колдуншики. результатами поиска не являются.
Тонкости оценки=======
- Как мы относимся к выводам по тэгу?
А. Вывод по тэгу - это страница с сайта, которая должна объединять похожие по смыслу документы. Она является элементом навигации на сайте, но иногда может представлять из себя технический спам. Рассмотрим такие случаи подробнее:
http://www.riliz.ru/taqs/mtk 6218?type=link - Спам. Получили документ по тэгу "mtk 6218" сообщение на нём гласит "Нет записей"
http://habrahabr.ru/taq/mlcx/ - Спам. На сайте в данный момент времени нет ничего с таким тегом. Аналогично относимся к облаку тэгов.
http://www.warez-box.ru/taq/ - Спам. Вся страница представляет из себя ссылки на существующие тэги, на странице результатов поиска такой документ не нужен.
Если вывод по тэгу не пустой, оцениваем его по релевантности. Примеры таких тэгов:
http://www.autobloq.com/taq/qeneva+motor+show/
http://news.kremlin.ru/bv-kevword/93
- Как правильно действовать при оценке, чтобы не перепутать спам и не спам?
А. Самое главное - разобраться в навигации на сайте. Как она устроена? Можно запросить рубрику или подкаталог, вывод по тэгу? Если да, то результаты поиска - спам.
Нет ни рубрик, ни подкаталогов, ни тэгов? Результаты поиска - не спам.
Ца дальше оцениваем по релевантности.
- А если на странице есть одновременно и контент, и результаты поиска? Например, в рефератах, как здесь: http://revolution.allbest.ru/literature/00217649.html - на странице искомый реферат, а внизу - список "подобные работы"
А. Это не спам. Просто дополнительный полезный сервис сайта.
ИнсЬормация для спам-асессоров
- Спам-каталоги
В сети много каталогов сайтов. Известны каталоги http://vaca.vandex.ru/. http://www.qooole.ru/dirhp?hl=ru&tah=wd httrv//www Hmn7 лгл/
Каталог сайтов - это систематизированная подборка ссылок на интернет-ресурсы с описаниями. Каталоги делятся на специализированные (на какую-то одну, конкретную тему) и общие, а ещё на региональные, национальные и глобальные. Каталогами удобно пользоваться, если вы ищете не ответ на конкретный вопрос, а сайты на какую-то тему. Составление хорошего каталога - ручная работа. Человек подбирает ресурсы, классифицирует их и пишет аннотации.
Каталог вовсе не обязательно будет спамом. Но есть каталоги, которые нужно помечать как спам: каталоги, составленные автоматически, не выполняющие своих функций или замусоренные до такой степени, что ими невозможно пользоваться. Такие каталоги создаются не для удобства пользователей, а для открутки рекламы.
Вот некоторые свойства спам-каталогов:
- реклама является основным содержанием и занимает большую часть экрана или несколько экранов. Рекламный текст выделен ярким цветом, «основной» контент замаскирован или слабо заметен.
- встречаются разделы, в которых описаний сайтов нет, а реклама уже есть.
» для каждой ссылки или адреса с контактами создается отдельная страница (открытая для индексации поисковиками). Как правило, эта страница не несет никакой дополнительной информации, необходимой для выбора и оценки ресурса.
- подозрительны и неактивные ссылки, хотя сами по себе признаком спама они не являются.
- дизайн у такого каталога шаблонный, т.к. они обычно создаются сетками. Нередко в контактах одного каталога указан e-mail на другом домене, соответствующем другому автокаталогу. Также подозрителен популярный почтовый ящик типа yandex, gmail, mail, rambler.
- описания сайтов и даже адреса могут обрываться в неожиданных местах.
- на странице могут присутствовать поисковые запросы.
- заявленная тематика не соответствует фактической, как в отношении общей тематики каталога (заявлена тема «Все о мебели», но рубрики посвящены работе, знакомствам, и т.п.), так и внутри рубрик.
Пример: http://www.milflrm.ru/fc1/firm15727.htm Что здесь не так:
- большую часть страницы занимает реклама
- нет собственного поиска по сайту, а рубрикатором невозможно пользоваться, потому что а) нет классификации по регионам, б) заявленные разделы не имеют отношения к действительности (издательский центр находится в рубрике "бизнес и финансы", в рубриках нет внутреннего деления).
К вредоносным каталогам относятся и так называемые линкопомойки - системы автоматического
обмена ссылками, которые подвешивают на вполне нормальных сайтах. Например:
http://noni-sok.ru/mvlinks.php
http://paleks.ru/links/index.php
и т.п. Т.е. если в выдаче по какому-то запросу мы видим страницу автоматического обмена ссылками, то помечаем её как спам.
Тонкости оценки
- "Много рекламы" - это сколько?
А. В целом надо смотреть, мешает реклама пользоваться содержанием каталога или нет Если нужно долго прокручивать страницу, чтобы увидеть единственную строчку ценной информации - это плохо.
- Я увидел одно объявление в неподходящей рубрике. Я могу пометить каталог как спамный?
А. В любом каталоге могут быть ошибки. Стоит оценить каталог с точки зрения пользователя: насколько этот каталог внушает доверие, насколько он удобен. Если в рубриках постоянно попадаются неподходящие по тематике объявления - это плохо. Но одно-единственное может быть случайностью.
одну страницу определённо не для людей. http://v-zopy.ru/ - Спам, переопт
Откровенный переопт, тут и поспорить не о чем: лингвистические рассуждения о происхождении слов на порно-сайте явно не для людей написаны.
http://weicq.ru/ - Спам, переопт
Текст - сплошное переливание из пустого в порожнее, повторения, бесконечный перебор синонимов, попытка запихать побольше низкочастотных запросов.
http://oval.ru/enc/49230.html - Спам, переопт
Нет даже попыток вставить запрос в текст органично, в результате он совершенно нечитаемый.
Обещают рисунки, а их на деле нет. Спам однозначно.
http://www.molniam-realtv.ru/residental real estate/housel/- Спам, переопт Большая портянка.
http://sonqi.rU/perevod/H/HIM/Heaven%20Toniaht/ - Не спам, не переопт
Спамить за строчку вверху: «Перевод песни HIM Heaven Tonight на русский. Слова песни Heaven Tonight исполнителя HIM. Текст песни HIM Heaven Tonight.» - не надо. Это стандартный блок, типа расширенного заголовка, и ещё он совершенно соответствует содержимому страницы. В целом, сайт низкого качества, но спамом не является.
http://www.millionpodarkov.ru/sms/privatnye-sms.htm - Не спам, не переопт Текст подозрительный, но он не оптимизирован, просто рекламный текст с сайта.
http://funlove.ru/odnoklassniki.html - Не спам, не переопт
Текст совершенно нормальный, про сайт. Понятно, что упоминание "одноклассников" рефлекторно вызывает подозрение, однако, если отвлечься от того факта, что-то именно они, статья совершенно разумная и не переоптимизированная, спамить её не следует. Есть ещё момент, что там присутствуют разные написания названия сайта. За это тоже не надо спамить. Во-первых, там нет ни одного опечаточного названия (которые суть зло и спам). Во-вторых, те, что есть, разбросаны по тексту и употребляются как синонимы. В случае, когда все эти названия указаны в скобках через запятую, и таким образом ещё и вставлены в текст много-много раз, получается спам. В данном случае никакого злоупотребления нет.
Понятно, что этот текст написан для переманивания аудитории одноклассников на другой сайт, однако сделан он качественно и спамить его не следует.
http://3qp-film.ru/ - Не спам, не переопт
Предлагалось заспамить за блок «популярные фильмы», однако он не спам. Он одинаковый на всём сайте, это просто список популярных страниц с сайта. Слова про скачать присутствуют в заголовках и самих статей тоже, поэтому нельзя считать, что тут есть накачивание релевантности по слову «скачать».
http://www.veisknaloq.ru/ - He спам, не переопт
Перечисление ключевых слов под логотипом - некрасиво, но спамить их не стоит. http://moscowiob.net/vacsearch.php - Не спам, не переопт
Подозрительный блок снизу, но недостаточно ужасный, чтобы посчитать его переоптом.
http://svadba-qid.ru/cataloque/weddinasalon.htm - Не спам, не переопт Текст, конечно, оптимизированный, но не чересчур.
Технический спам
Тонкости оценки
- Часто встречаются так называемые развлекательные порталы. Как правило, они дают ссылки на разнородную информацию (музыку, фильмы, книги, картинки, приколы). Подавляющее большинство из них не содержит оригинальной информации. Как нужно относиться к таким сайтам?
А. Если основной контент портала вторичен, а рекламы столько, что прочитать-посмотреть материалы нормально невозможно, то нужно пометить сайт как спам.
- На сайте есть только описание контента (фильмов, музыки и т.п.), а всё скачивание идёт с файлообменников. Помечаем как спам?
А. Нет Ссылки на файлообменники (letitbit, sendspace, rapidshare и другие) признаком спама не являются.
- На странице присутствуют странные ссылки на якобы файлообменники, которые не дают скачать нужный файл (и ещё маскируются под известные обменники по виду). Что с ними делать?
А. Такие ссылки - это обман. Чаще всего ссылки на псевдообменники расположены в рекламном блоке с названием наподобие "скачать на высокой скорости". За наличие подобных ссылок странице надо поставить оценку "спам", вне зависимости от того, присутствуют ли на ней настоящие ссылки. На страницах бывают дополнительные блоки и другого типа, предлагающие не ссылку на псевдофайлообменник, а прямое скачивание файла с хоста, отличного от оцениваемого сайта. Примеры "плохих" и "хороших" ссылок можно посмотреть в учебнике.
Если при этом на странице есть и "хорошие" ссылки, их стоит оценить по релевантности. Например, страница может получить за хорошую рабочую ссылку - Рел+, а за наличие обманной - дополнительную оценку Спам.
- Когда нужно помечать спамом товарные агрегаторы (сайты-подборки цен на товары в разных магазинах)?
А. Признак спама для агрегаторов, помимо неудобной рубрикации и избытка рекламы - малое число источников. У спамных аггрегаторов обычно 1-2 источника.
- Многие сайты с рефератами выглядят мусорными. Когда нужно помечать рефераты спамом?
А. Спамом помечаем те рефераты, которыми невозможно нормально пользоваться (в реферате отсутствуют картинки и таблицы, упомянутые в тексте, реферат нельзя скачать в нормальном виде (скачивается абракадабра какая-нибудь)). Создаются подобные сайты в первую очередь с целью заработка на рекламе.
Ещё признаки спам-рефератов:
- Информация не отформатирована (формулы отсутствуют или не читаются, картинки и таблицы отсутствуют), невозможно скачать реферат в правильном формате; зачастую в одну статью собрано несколько текстов из разных источников (опять же без форматирования);
- Запредельное количество рекламы.
Помните, что на сайте могут быть и спамные, и неспамные страницы. Если вы видите хороший, удобный для пользования реферат, то помечайте его как неспам. Но если есть сомнения и колебания, то рекомендуется заглянуть в раздел "Математика" данного сайта и посмотреть на рефераты, содержащие формулы. Характерно, что на сайтах со спамными рефератами формулы не отображаются нормально. Подобные сайты http://bestreferat.com.ua/referat/detail-8269.html или же вот такой http://shara.orq.ua /referats/ru/show/1930/%CA%EE%EC%E5%F2%FB%20%E8%20%E8%F5%20%EF%F0%E8%F0%EE%E4 %Е0%20 (здесь скачивается всё в странной кодировке плюс есть классика жанра http://shara.orq.ua /referats/ru/show/16721/90%20%D1%82%D1%80%D0%B8%D0%B3%D0%BE%D0%BD%D0%BE%D0%BC %D0%B5%D1 %82%D1 %80%D0%B8%D1 %87%D0%B5%D1 %81 %D0%BA%D0%B8%D1 %85%20%Р1
%84%Р0%ВЕ%Р1 %80%Р0%ВС%Р1 %83%Р0%ВВ%20/) на основании данного подхода признаются спам-рефератами.
https://pset.yandex.ru/wiki/-view?page=relevance
- Сайт открыл кучу новых окон с порно! Его пометить как спам?
А. Бывают развлекательные порталы, которые при любой активности пользователя на странице (и даже вовсе без его участия) открывают дополнительную страницу с порно или рекламой. Само по себе это не признак спама, - но только если дополнительные страницы можно без затруднений закрыть. Иногда они не позволяют закрыть себя естественным путём, требуют послать смс-ку и вынуждают пользователя закрывать браузер через диспетчер задач. Это вредные, раздражающие пользователя страницы, и их,' конечно, надо помечать как спам.
- Скрытый текст
Это примитивный способ обмана поисковой машины. Он всегда помечается как спам (плюс оценка по релевантности). Такой текст «виден» для поискового робота, но имеет разметку, скрывающую его от отображения пользователю в браузере.
Наличие скрытого текста можно заподозрить, когда на странице много свободного места без видимых на то причин (вверху/внизу страницы). Для детектирования попробуйте «выделить всё» (Ctrl-A) или "отобразить страницу без стиля" (в Файрфоксе Вид => Стиль страницы). Скрытый текст может стать при этом виден.
Приемы скрытия текста:
- Цвет шрифта, близкий к цвету фона
- Маленький, нечитаемый размер шрифта
- Расположение за границами видимой зоны экрана
8* Партнерки
Существуют сайты, продающие товары и/или услуги другой компании. За привлечение покупателей они получают комиссию от компании - реального продавца. Подобные сайты имеют право на существование, но для нужд поиска необходимо уметь их определять.
Признаки партнёров
- Описания товаров, их цены, на сайте-партнере повторяют описания на сайте-организаторе партнерской программы.
- Если заказать что-либо (оформить заказ), происходит перенаправление на другой сайт, т.е. корзина или оформление заказа происходит на целевом сайте. Возможно отображение корзины и/или оформления заказа в новом окне, адрес которого можно увидеть в «Свойствах» страницы.
- Картинки товаров грузятся с другого сайта (обнаруживается просмотром свойств картинки)
- На сайте присутствует ссылка «Партнерская программа», которая ведет на целевой сайт организатора.
- Отсутствуют оффлайновые координаты, особенно адрес.
В общих случаях мы оцениваем партнёрки по релевантности, а потом помечаем как спам.
Тонкости оценки
- По запросу требуется конкретный сайт, и этот сайт - партнерка. Нужно ли помечать его как спам?
А. В тех случаях, когда Витальной по запросу будет партнерка (например love.rambler.ru по запросу "Рамблер-знакомства), спамом она не будет.
- Какие бывают партнерки?
А. Особое внимание следует уделять партнеркам Мамбы и Лавпланет, выглядящим как самостоятельные сайты. Их можно опознать по дизайну. http://lovemoskva.ru/ - партнерка http://loveplanet.ru/ - исходный сайт
http://mheart.ru/ - партнерка http://mamba.ru/ - исходный сайт
Вот ещё партнерки: http://sota.allprikol.ru/ - партнёрка http://plavfon.ru/ - основной сайт
много партнёрок у http://www.diamondelectric.ru/ (обратите внимание на шапку "Вы можете сделать заказ", она на всех партнерках выглядит одинаково), http://www.sotmarket.ru
Также всё ещё встречаются партнёрки Мерамеда, например, http://www.medplaneta.ru/consultation/ хотя основной сайт уже закрыт
А вот сайт http://neprikasaemve.ru/shop/ - не партнерка, а подборка ссылок, потому что здесь нет имитации магазина, нет цен и фальшивой корзины.
- А если сайты не продают услуги, а предоставляют возможность свободно скачать контент? Но этот контент на нескольких сайтах одинаковый.
А. Тут мы оценку "спам" не применяем.
- А если контент продаётся? Например, за деньги предлагают скачать фильм, музыку, порно.
А. Сам по себе платный контент - не спам. Но часто встречаются сайты, которые предлагают платить смс-ками на четырёхзначный номер. Если в выдаче несколько сайтов с платным контентом, нужно сличить эти номера. Одинаковые номера - признак партнёрки. Тогда мы такие сайты пометим как спам.
- Сателлиты
Сателлиты - это сайты, создаваемые одним владельцем для продвижения главного сайта.
Они нужны либо для наращивания числа ссылок на главный сайт с сайтов той же тематики, либо для того, чтобы занимать несколько позиций в топе выдачи по разным запросам, под которые они и оптимизируются. Например, если сайт предлагает набор услуг/товаров, то под каждую группу услуг/товаров делается отдельный сайт, который наполняется тем же контентом, что и соответствующая рубрика основного сайта. Наиболее распространенными примерами таких сайтов являются сетки сайтов по бронированию гостиниц (под каждую гостиницу создается свой сайт), туристические сайты (создаются сайты по странам, направлениям, базам отдыха), фирмы, предоставляющие услуги обучения (под каждый курс либо направление создается отдельный сайт), интернет-магазины с большим ассортиментом товаров.
Основные признаки:
- шаблонный дизайн, обычно довольно бедный, без флеша и наворотов.
- дублирование контента на главном сайте и на его сателлитах.
- одинаковые контактные данные (часто на сателлитах приведен только телефон).
- наличие информации о главном сайте (например в виде ссылки).
Примером подобного спама может служить сетка сайтов курортного магазина. http://www.kurortmaq.ru/ - основной сайт, сателлиты - http://www.abxaziva.ru/ http://www.krimea.ru/ http://www.company-tour.ml http://www.maqadansochi.ru/
Как мы поступаем с сателлитами? Если основной сайт хорошо известен (как в случае курортного магазина, например) и есть в выдаче наряду с другими сателлитами, то его спамом помечать не надо. Всё остальное оцениваем как спам.
Если вы не можете разобраться, который сайт главный, то помечайте спамом всё. Спам-асессоры разберутся.
Однако есть исключения. По ряду запросов сателлиты бывают полезны. Например, если человек задаёт
http://cnews.ru/news/top/print.shtml?2010/03/25/384233 - версия для печати. http://www.cnews.ru/news/top/index.shtml72010/03/25/384233
- Проблемы с автоопределением кодировки (aka крокозябры)
Если в документе вместо букв крокозябры, это, скорее всего, вызвано проблемами с автоопределением кодировки. За это документы никогда не получают оценку спам, это даже не является признаком спама. Что нужно сделать, чтобы увидеть читаемый текст? Пойти в меню Firefox (рыжая кнопка в левом верхнем углу) -> Веб-разработка -> Кодировка (либо Вид -> Кодировка, если вы используете старый дизайн). В этой вкладке нужно попробовать выбирать одну за другой все доступные варианты в нижней части (после серой черты, начиная с "Кириллица"), пока текст не обретёт адекватный вид. Когда правильная кодировка будет найдена, нужно оценивать сайт, как если бы он изначально был показан в таком виде. Если этого добиться так и не удалось, расследование считается законченным, других действий предпринимать не надо, верная оценка - 404
Грубые ошибки
Оценка - это мнение экспертов, в котором есть доля субъективности. Поэтому оценки разных асессоров одной и той же страницы могут различаться. Разногласия во мнениях не являются грубой ошибкой. Однако возможны в корне неверные оценки, которые мы считаем грубыми ошибками.
Расхождением во мнениях мы считаем:
- разницу Релевантный+/Полезный;
- разницу Релевантный-/Нерелевантный.
- разницу Нерелевантный/Глупый
Остальные ошибки являются грубыми.
Тонкости оценки
При оценке страницы стоит в первую очередь обращать внимание на ее соответствие запросу, а не на ее удаленность от релевантной/витальной страницы. Наличие ссылки на витальную не делает текущую страницу более релевантной.
Если текущая страница дает ответ на запрос, ее стоит оценить как Рел+, ссылка на витальный сайт не сделает из страницы Полезную.
Если текущая страница не дает ответа на запрос (или дает неполный/косвенный ответ), но имеет отношение к запросу, ее можно оценить как Рел-. Сюда можно отнести, например, списки, из которых нужно выбрать конкретную страницу:
[Текст песни Максим Дождь], http://www.sentido.ru/artist.php?artist=Maksim
Если текущая страница не имеет никакого отношения к запросу, наличие на ней ссылки на релевантную или витальную не делает текущую страницу более релевантной. Пример: [Ромка Киримов], http://mv.mail.ru/mail/zuaka/ - Не про то. Сама страница посвящена совершенно другому человеку, и тот факт, что в блоке "Друзья" виден некий Ромка Киримов, не делает ее лучше.
Если по запросу есть витальная страница, но в оценку попала другая страница с официального сайта, ее тоже стоит оценивать по релевантности запросу:
- она может быть Полезной или Релевантной+, если в дополнение к витальной странице раскрывает тему запроса, может оказаться полезной для пользователя (например, сервисы Яндекса по запросу [Яндекс], сайты факультетов по запросу [ВУЗ] и т. п.)
- она может быть Релевантной-, если имеет отношение к теме запроса, но не дает ответа или дает косвенный/слишком узкий/слишком широкий ответ (например, морда Яндекса по запросу [яндекс.картинки] - слишком широкий ответ; страница http://panasonic.net/avc/lumix/compact/zs7 tzl 0/ по запросу [Panasonic] - слишком узкий).
- она может быть Нерелевантной или Не про то, если не имеет никакого отношения к запросу или совершенно бесполезна для пользователя (например, по запросу [сайт Газпрома] новость от 2005 года на офсайте; страница http://www.belinvestbank.bv/ index/1758/2609/ по запросу [Белинвестбанк] (Гродно)!!
Другими словами, для страниц витального сайта действуют те же правила, что и для любых других страниц: количество прокликов не должно влиять на оценку.
- Насколько важна формулировка запроса?
А. Чем конкретнее формулировка, тем выше требования к найденной странице. Например, по запросу «рецепты» страница http://www.cookinq.ru/ (входная страница отличного кулинарного сайта) будет полезной, несмотря на необходимость сделать несколько кликов для получения собственно рецептов.
Но по запросу «рецепт салата мимоза» оценка для этой страницы будет низкой (не выше релевантиной-), так как пользователь конкретно сформулировал свою поисковую задачу, а мы не дали ему адекватного ответа.
По той же причине регион, указанный непосредственно в запросе, важнее региона, указанного в скобках (определенного машиной).
- Что повышает или понижает оценку сайта?
А. На оценку влияют:
- достоверность информации. Бывают запросы, Для которых важна авторитетность источника. Например, запрос «курс валют». Очевидно, что пользователя не удовлетворит высказывание на форуме на тему «что-то евро дорожает». Пользователь ищет конкретные данные. И удовлетворит его только информация на авторитетном ресурсе. В свою очередь, чтобы выяснить, как добраться до пляжа N (запрос «схема проезда к пляжу N»), достаточно развернутого ответа на форуме.
- актуальность. Если запрос касается цен, расписаний, адресов или других данных, которые могут устаревать, то документ, где нет указания на дату или дата слишком давняя, менее ценен, чем заведомо свежий документ.
- полнота информации, (см. комментарии к оценке Полезный)
- Может ли релевантный документ не содержать слов запроса?
А. Язык человека богат, одну и ту же потребность можно выразить разными словами. Например, для пользователя запросы «гаражное оборудование», «оборудование для автосервиса», «оборудование для авторемонта» означают примерно одно и тоже. Потребность одна, а слова разные.
Поэтому вполне логично, что может существовать документ, хорошо соответствующий запросу, но не содержащий его слов.
Например, по запросу «поисковая система» находятся Полезные сайты yandex.ru, и google.com, но оба они не содержат в тексте документа фразу "поисковая система".
Вывод: релевантные документы часто содержат слова запроса, но это не обязательное условие, чтобы оценить документ как релевантный.
- Что делать, если в длинном документе начало не имеет никакого отношения к запросу?
А. Это может означать одно из двух:
- в документе есть релевантная часть, которая расположена в середине или-^лиже к окончанию;
- документ нерелевантен.
Как это проверить?
- если релевантный отрывок документа содержит слова запроса (что бывает довольно часто), его можно быстро найти с помощью поиска. Для IE и Mozilla поиск вызывается нажатием комбинации клавиш Ctrl + F, а убирается окошко поиска по нажатию клавиши Работа с клавиатурой и мышкой быстрее и эффективней, чем работа только с мышкой. При поиске стоит искать не полное слово, а его основу. Например, при поиске «упражнения при плоскостопии» стоит начать поиск по слову