Сбор данных
Общие правила оценок
Базовой единицей оценки является оценка рел+. Релевантный ответ предоставляет решение пользовательской задачи (бывают запросы, для которых задача, по сути, одна, а бывают запросы, для которых существует спектр задач или которым соответствует несколько объектов поиска).
Если страница позволяет решить сразу несколько задач (для запросов с несколькими потребностями), информации гораздо больше, чем на среднего уровня релевантной странице, она лучше структурирована, — такой странице стоит поставить поценку полезный.
Когда наоборот, страница не полностью решает задачу, слишком сужает её или наоборот, расширяет, если страница посвящена малозначительному объекту — тогда оценка должна быть ниже, это рел- ответ.
Витальный ответ — это официальный ответ на вопрос, он несколько отличается от прочей шкалы. Для многих запросов витального ответа не может существовать в принципе, потому что нет официального владельца информации по теме. Обычно определить витальный довольно просто, но иногда бывают и более запутанные случаи.
Также в шкале присутствуют две близких по смыслу оценки нерел и не про то. Нерелевантный — это документ, который в целом соответствует теме запроса, но на него не отвечает. Не про то — это оценка для случаев, когда документ не просто не отвечает на запрос, но вообще относится к совершенно другой тематике.
Помимо релевантности есть ещё оценка спама. Для документов, где присутствуют признаки спама, надо поставить оценку «спам», остальные — «не спам».
Документам с оценкой рел+ и полезный также надо ставить срок устаревания (чаще всего — никогда, но некоторые документы релевантны запросу в момент оценки, а со временем теряют релевантность).Философия оценок
Во время выполнения заданий у вас могут возникнуть разные вопросы по работе, например: в какой части инструкции искать правила к моему запросу? Как понять, где граница между релевантным и нерелевантным ответом? Может ли тут быть витальный ответ? Что делать, если задание в корне противоречит здравому смыслу? Как не скатиться в формализм и не забыть про здравый смысл? Как не потерять веру в человечество после всего этого?
В первую очередь важно понимать, что автоматизировать систему оценки невозможно, требуются именно человеческие оценки, а не ответ от робота. С другой стороны, оценки разных людей (экспертов) должны быть согласованы и проставлены по единой схеме, иначе вместо оценки получится сомнительного качества опрос общественного мнения.
Чтобы экспертные оценки обладали достаточным качеством, была разработана инструкция асессоров, которая постоянно обновляется и улучшается. Предусмотреть все возможные комбинации запрос-ответ невозможно, но самые распространённые варианты в ней описаны. Если ваш случай однозначно попадает в описание из инструкции, надо оценивать страницы из задания согласно этому описанию. Если же прямого ответа на свой вопрос в инструкции вы не нашли, нужно ориентироваться на здравый смысл.
Часто запросы бывают однозначные сами по себе, например:
[бесплатные новые игры винкс ТОЛЬКО БРОДИЛКИ винкс только про винкс и больше ничего только бродилки]
Логично предположить, что если ответ не содержит игр-бродилок про Winx, релевантность у него нулевая, так что формальный подход к запросам такого рода вполне уместен.
Или [как раки относятся к своей прошлой любви?]: тут тоже подойдут только страницы, на которых рассматривается отношение людей, родившихся под знаком Рака, к своим бывшим вторым половинкам. Прочие знаки зодиака и иные психологические особенности Раков совершенно точно не соответствуют запросу. Предположение о том, что речь идёт о членистоногих животных, хотя и забавно, но лишено разумных оснований. Многие запросы сформулированы более обще и им соответствуют несколько типов ответов, например [мангалы из кирпича своими руками]. К такому запросу подойдут тексты (желательно с картинками) с описанием процесса или видеоуроки.
Определить, какая именно информация больше нужна помогает не только здравый смысл, но и статистика. Например, логично предположить, что если что-то можно скачать бесплатно, то предложение покупки этого объекта гораздо менее интересно людям, и статистика это подтверждает. Самые типичные запросы с несколькими разными релевантными ответами это запросы, которые состоят только из названия песни или фильма, имени известного человека или коллектива. Также иногда попадаются запросы, для которых существует несколько подходящих объектов. Без статистики определить, какие именно объекты релевантны, может быть довольно затруднительно. В таких случаях стоит ориентироваться на аннотацию.
Чтобы понять, может ли у запроса вообще быть витальный ответ, надо ответить на два вопроса: является ли запрос навигационным (то есть пользователю, скорее всего, нужна единственная страница), например [вконтакте], [скачать песню кино перемен с зайцев нет]? Если запрос навигационный, то та самая главная искомая страница будет витальной. Если нет, то важно понимать, есть и объект поиска официальный источник или правообладатель? Если объект поиска — товар, объект авторского права (песня, книга, фильм, программа,..), закон или у объекта поиска существует официальный сайт, то витальный ответ в принципе возможен. Во всех прочих случаях витального ответа не бывает. Например, для запроса [погода в томске сегодня] не может быть витального, поскольку не существует производителя или правообладателя погоды. С другой стороны, для запроса [погода в томске сегодня гисметео] витальный существует, потому что это навигационный запрос, пользователя интересует не просто информация о погоде, но информация на определённом ресурсе.
Определить, какой ответ релевантный, а какой — нет, в общем случае несложно. Но иногда возникают непредвиденные ситуации. Предугадать всё заранее невозможно, поэтому если вы столкнулись с ситуацией, для которой нет явного правила, постарайтесь найти разумную аналогию из инструкции. Если и этого не получается, надо действовать исходя из здравого смысла. Важно удержать баланс между формальным подходом и субъективным мнением по ситуации. Иногда это не получается, но расстраиваться по этому поводу не стоит: работать со стопроцентной точностью невозможно, какие-то ошибки будут всегда.
Иногда непредвиденные сложности возникают в простых, казалось бы, ситуациях. Например, легко представить себе, какие картинки релевантны запросу [фото белой собаки], а какие — нет. Если на фотографии изображена белая собака — фото релевантно, а если, скажем, чёрная собака или белая кошка — то точно нет. Что делать, если собак несколько, а белая только одна? Ну это вроде несложно, релевантность ниже, чем в первом случае, но не ноль всё-таки, белая собака же есть. А что делать, если у собаки маленькое чёрное пятнышко на лапе? Она формально не совсем белая, но так ли это важно? А что делать, если она какая-то светлая, но не особо понятно, это всё ещё белая или это уже другой цвет? Крайние точки тут несложно обозначить: если собака — далматин, она уже не белая, а вполне пятнистая. Но одно маленькое пятно, например, не достаточно «портит» белую собаку. Но где провести границу? Считать площадь небелого? Может, учитывать местоположение пятен (например, пятно на лапе не важно, а на голове — важно) или их количество, а не площадь? В какой момент светлая шерсть перестаёт называться белой? Внимательный читатель уже наверняка понял, что все эти вопросы — верный путь себя запутать и поставить вообще бог знает что вместо адекватной оценки. В таких случаях надо полагаться на здравый смысл, а формализм только навредит.
В целом, стоит помнить, что правила в инструкции создавались на основе здравого смысла и известной статистики, причём в них описывается максимально общий подход, то есть правила написаны таким образом, чтобы составленная на их основании выдача поисковой системы удовлетворила потребности максимально возможного числа людей. Угодить совсем уж всем и сразу кажется невозможным, но мы очень стараемся подобраться к этому идеалу.
Поэтому оценивайте страницы, исходя из инструкции, но не доводите следование ей до абсурда.