Вопрос анализ релевантности

Тема в разделе "Общие вопросы оптимизации", создана пользователем Полный чайник, 15 ноя 2013.

Статус темы:
Закрыта.
  1. Dante

    Dante Супер-модератор На форуме с: 17 мар 2011 Сообщения: 5.038 Команда форума

    По-вашему в Яндексе другая математика?:)
    2+2=4. Какие тут нестыковки?:)
    Именно! И поэтому очень многие оптимизаторы придерживаются старинных методов.
  2. mark3000

    mark3000 На форуме с: 7 окт 2010 Сообщения: 482

    Тут получается, что чем выше тошнота - тем более соответствует документ запросу. Поэтому:

    В общем это часть какой то "загогулины" (не алгоритм ранжирования), что бы люди просто поломали себе голову и сказали "блин как тут все заморочено" :)

    А вообще все далеко от совершенства, получается на запрос "почему болит голова" поисковик выдаст кучу релевантных страниц на которых задается этот вопрос. Что бы найти ответ придется вводить "Голова болит потому что..."
  3. Dante

    Dante Супер-модератор На форуме с: 17 мар 2011 Сообщения: 5.038 Команда форума

    Не совсем. Оценивается весь документ по параметрам: точность (является ли ответ точным), полнота (является ли ответ полным). Прикручивается морфология, редкоупотребимые слова, N - вероятность нахождения этого документа в выдаче по N - запросам...всего не перечислить)
    Ну, вообще то это формула, по которой поисковая машина высчитывает релевантность документа. И довольно простая. С ПФ формулами сложнее:)
    Это да, поиск продолжают дорабатывать ежедневно.
  4. Marketologov

    Marketologov На форуме с: 6 фев 2011 Сообщения: 2.068

    Насчет анализаторов мегаиндекс
    https://www.megaindex.org/proverka_relevantnosti_stranici_v_megaindex

    Там и про Okapi BM25 написано.
    Dante, тебе не кажется после прочтенного, да и в том числе в Википедии, когда был разработан этот алгоритм... что он устаревший?

    Hugo Zaragoza, Nick Craswell, Michael Taylor, Suchi Saria, and Stephen Robertson. Microsoft Cambridge at TREC-13: Web and HARD tracks. In Proceedings of TREC-2004, 2004

    Даже его модификация от 2004 года.

    Инфа из Яндекса:
    Источник

    И это 2004 год.
  5. Dante

    Dante Супер-модератор На форуме с: 17 мар 2011 Сообщения: 5.038 Команда форума

    Marketologov, ты не поверишь, но Матрикснет, несмотря на свою "устаревшесть", до сих пор применяется как основная платформа в ранжировании сайтов.
    Я кажется ответил. Или ты снова пропустил, и выдернул из контекста предмет для розжига спора?
    Естественно, что алгоритм дорабатывают, но основа остается прежней. Странно слышать от спецов, что 2х2=4 - устаревший способ узнать, сколько будет 2х2. Еще более странно то, что ты считаешь Окапи устаревшей, но тут же на каждом углу пишешь, что ссылки учитываются, хотя я привел пример, где Садовский не рекомендует этим заниматься, и что учет ссылок сведен к крайнему минимуму.

    Но, я, как человек, который только постигает IR, буду рад прочитать ту неустаревшую формулу расчета релевантности документа, которую предложишь ты. Давай говорить предметно.
  6. Marketologov

    Marketologov На форуме с: 6 фев 2011 Сообщения: 2.068

    Так как он может устареть если это метод машинного обучения?

    Пропустил, но не ради розжига спора. Нет ни какого желания спорить.
    Просто до этого много было слов об BM25, о формулах текстовой релевантности.
    Ты сам ее считаешь когда делаешь тексты?


    такой формулы нет, точнее ее знают только работники ПС и то далеко не все.
    или ты считаешь по другому?
  7. Dante

    Dante Супер-модератор На форуме с: 17 мар 2011 Сообщения: 5.038 Команда форума

    ...который устойчив к переобучению (это важно, и яндексоиды гордятся МН по сей день). Что бы это значило?
    Допустим, что написана некая формула для подсчета качества сайта. Ок, написаны выражения, функции и пр. Даем задание ассесорам, они проходят выборку сайтов, выставляют оценки, и эти данные мы отдаем формуле. Но...кажется что-то пошло не так. Выходные данные очень плохие - пострадал, к примеру, 51% запросов.
    Что же делать?
    Ранее, до релиза МН, машину пришлось бы переобучать, задавать ей новые параметры, "объяснять" ошибки, которые допустили ассесоры. Это трудоемко, и занимает очень много времени.
    Матрикснет устойчив к переобучению. Он имеет древовидную структуру условий, по которым принимается решение. Алсо, данные можно добавлять, чтобы "подкрутить" тот или иной аспект ранжирования, тем самым расширяя спектр факторов. Калининград, Дублин, Атом - все это лишь дополнительные условия, заложенные в основную машину.
    Мне прям как-то неудобно тебе ссылку давать, но все же почитай...
    Всегда, только не всегда удается посчитать точные данные, потому как мне неизвестно, какие свойства прикручены к шарде, рядом с документом. Денис Нагорнов рассказывал на лекции об этом (ну еще про мета-поиск, промежуточный и базовый поиск. Последний - самый важный)
    БМ 25 (и ее моды) - это всего лишь инструмент для того, чтобы понять, как можно правильнее рассчитать документ. Для меня, по крайней мере.
    Да есть эта формула, и знают ее все, кто работает с большим количеством данных (Викимарт, например).
  8. Marketologov

    Marketologov На форуме с: 6 фев 2011 Сообщения: 2.068

    Спасибо, я в курсе данных событий, ссылку можно было не давать...
    если что только:
    вот это трудно понять


    Да вот именно. Просто что бы знать принцип. Но что бы ее применять на практике... ну не знаю...


    Откуда инфа?
  9. Dante

    Dante Супер-модератор На форуме с: 17 мар 2011 Сообщения: 5.038 Команда форума

    Видео с Михаилом Сливинским посмотри) Он часто опирается на подобные данные, потому что у него есть возможность измерять тенденции большими объемами.
    Уверен - здесь ни у кого нет таких возможностей. Те 500-1000 запросов, по которым тут чето делают - это капля в море. Хотя Сливинский всегда говорит "У вас все иначе - измеряйте".
    Вопрос в другом. А умеют ли измерять? Вот я еще не научился (остальные и подавно).
    Ну, ты не применяешь, не значит, что этого не делают другие:)
    Кусочек МН)

    Закрывая вопрос о релевантности. Не нужно боятся отходить от каких-то, изначально неверных или ошибочных предположений. Это круто, когда оптимизатор говорит "Черт, оказывается я ошибся, полагая что тИЦ влияет на качество документа" или "Социальные сигналы измеряются, но не имеют особой ценности - я был неправ".
    Есть отличные способы не терять время зря и уже на начальном этапе измерять качество своей работы.

    Плохо, когда оптимизатор продолжает говорить стандартными фразами "Оптимизируйте заголовки, напишите 100 слов с плотностью в 2-3%, купите вечных ссылок - и будет вам счастье".
    Такие игроки уже выбывают с рынка, и будущее за теми, кто умеет измерять и применять эти данные на практике. Уверен, с выходом Атома, ситуация с покупными ссылками кардинально изменится.

    Не скажу, что открыл Америку, но однажды мне стало интересно то, каким образом работает поисковая машина. И я начал копать инфу. Не вижу причин не делать тоже самое и всем остальным форумчанам.
  10. Marketologov

    Marketologov На форуме с: 6 фев 2011 Сообщения: 2.068

    Если ты применяешь, то наверно должен применять и множество других формул. Например учитывающие близость слов запроса к началу контента или наличие их в заголовках?
    Можешь привести несколько?
  11. Dante

    Dante Супер-модератор На форуме с: 17 мар 2011 Сообщения: 5.038 Команда форума

    Каждая тематика подсчитывается отдельно.
    Конечно нет:) Я конечно помогаю на этом форуме, но не до такой же степени:c14:

  12. Marketologov

    Marketologov На форуме с: 6 фев 2011 Сообщения: 2.068

    А может это потому что ты их не знаешь?

    Или может потому что Яндекс использует не одну и не три, а сотни, может даже тысячи формул из которых большинство никому кроме Яндекса неизвестны и считать формулы не имеет смысла?
  13. Dante

    Dante Супер-модератор На форуме с: 17 мар 2011 Сообщения: 5.038 Команда форума

    Это даже по меркам Упячки унылое "слабо". Ты вроде взрослый, и значок "Участник SEO клуба" носишь. Не нужно, правда.
    Ок, пусть будет так. Я не протестую:)
    Подытожим: ты работаешь по своим методам, я - по своим. В какой-то момент я конечно помогу и тебе, и другим, потому как я не злой вовсе. Но какие-то аспекты все же должны оставаться коммерческой тайной. Об этом даже наш президент написал однажды.
  14. Kovtun

    Kovtun SEO На форуме с: 2 сен 2009 Сообщения: 2.845

    Dante, схема работы с клиентом.:a8:
  15. Сержа

    Сержа На форуме с: 20 дек 2011 Сообщения: 1.374

    У поисковиков иерархическая система формул ранжирования. Сначала считаются локальные ранги на самой низшей иерархии. Затем по этим результатам выбирается ветка более высокого уровня. И так далее.
    Следствие. Иногда маленькое изменение какого-то фактора на нижней иерархии может привести к тому. что будет выбрана другая ветка, и окончательный результат может получиться существенно другой. А ведь изменили совсем незначительно какой-то один фактор из тысячи!
    Dante нравится это.
Статус темы:
Закрыта.