Блог Ярослава Витязева

Персональный комментируемый блог

Архив для рубрики ‘Нежелательный контент

Одним из возможных путей продвижения сайта в поисковых системах является регистрация в каталогах с целью получения обратных ссылок по целевым ключевым словам. Хоть и каталожная тема в последнее время начала "затухать", все же эффект от каталогов есть и многие специалисты по продвижению ее по прежнему используют. Прогон по базе каталогов (2-3 тысячи белых каталогов) приносит небольшой тИЦ и позволяет увеличить PR до 2-3 для нулевого сайта, см. ветку на SE.ru.

Однако поисковые машины считают каталоги серым методом продвижения и не приветствуют его. Неприветствовать они могут лишь двусторонне: "изучая" ссылки с каталогов на вас и "изучая" ссылки с вашего сайта на каталоги. Если с первой проблемой бороться трудно, то вторую проблему легко можно разрешить.

Многие каталоги требуют установки обратных ссылок, а их администраторы проверяют их наличие либо вручную, либо при помощи простейших алгоритмов вроде GET-запроса страницы с обратной ссылкой и проверки на наличие кода. Как правило эта проверка происходит либо в момент регистрации, либо в течение месяца после регистрации.

С другой стороны, если поисковый робот найдет страницу с обширным количеством обратных ссылок на каталоги, он сочтет, что вы используете непристойные методы продвижения и покарает ваш сайт, наложив фильтр. Что делать для того, чтобы администратор каталога нашел обратную ссылку на каталог, а робот нет? Ответ прост.

На странице вашего сайта (например, на главной) разместите ссылку на страницу с обратными ссылками по следующей схеме:

<noindex><a href='/blinks.html' rel='nofollow'>Друзья сайта</a></noindex>

А в файле /robots.txt пропишите:

Disallow: /blinks.html

В принципе можно ограничиться лишь последним. Удачной регистрации!

P. S.

Ах, да. Чуть не забыл. Через месяц следует убрать эти ссылки и директиву из robots.txt. В поисковых системах помимо роботов сайты на серость проверяют и Платоны Щукины.

Игрался пару часов назад с сервисом Yahoo! Pipes. Уж очень крутая штука. И появилась в голове следующая мысль.

При помощи этого сервиса, используя модули Operators::Loop и String::Translate можно парсить выдачи (контент, RSS, XML) и создавать на этой основе вполне сносный машинный перевод оригинального текста, который, в свою очередь, можно использовать, например для дорвея.

При помощи Pipes программирование превращается в игру, а сам процесс создания такого дорвея в несколько десятков кликов мышью. Новые горизонты в области веб-подработок.

Иллюстрация к описанному выше методу (кликните по изображению для просмотра его в полном размере):

pipes-for-doorway

Интеллектуальная модерация в каталоге

Теперь пользователям интеллектуального каталога доступна возможность отправки сайта на модерацию:

  • необходимо нажать на соответствующую кнопку на странице описания ресурса;
  • указать причину по которой вы считаете, что этот ресурс является спамом;
  • пройти тест Тьюринга.

После чего процесс переходит под управление подсистемы искусственного интеллекта:

  • модуль пробегает по всей базе правил-критериев, определяющих спам,
  • в случае попадания хотя бы под одно условие, модуль (в зависимости от типа нарушения):
    • делает предупреждение автору сайта,
    • [и/или] корректирует или удаляет описание,
    • [и/или] блокирует или удаляет ресурс,
    • [и/или] удаляет учетную запись пользователя.
  • в том случае, если подсистема искусственного интеллекта не может идентифицировать спам - заявка отправляется администратору каталога (который, в свою очередь, может пополнить базу правил).

Разумеется все изменения фиксируются в документах, связанных с интернет-ресурсом (доступ к документам можно получить, дописав "docs/" к концу URL описания ресурса), пример:

Появилась вот такая мысль, пока еще сумбурная (в области борьбы с недоброкачественным контентом в каталоге, определении полномочий и т.п.): для пользователей определять их уровень ответственности иерархично. И использовать этот уровень ответственности в каталоге при расчете рейтинга ресурсов, которые этот пользователь зарегистрировал.

Объясняю. Регистрация пользователей на интернет-ресурсе доступна только через других пользователей (Бррр... бред? Не уверен, нужно лишь подумать над этой проблемой, наверняка есть альтернативные пути ее решения).

Есть корневой пользователь, обладающий наивысшим уровнем доверия (например, единица), его авторитет и уровень доверия непререкаемы. Есть пользователи, регистрирующиеся через него (например, близкие друзья, хорошие знакомые).

Корневой пользователь при этом подтверждает или опровергает возможность регистрации (реализовать это можно более удачным способом). Если пользователь подтверждает его регистрацию - то он доверяет вновь зарегистрированному пользователю и несет ответственность за его действия.

Например, этот зарегистрированный пользователь чего-то там "портачит" на ресурсе (например, регистрирует сайт с недоброкачественным контентом). Любой другой зарегистрированный пользователь каталога видит это и отправляет информацию об этом корневому пользователю (или даже лучше пользователю стоящему выше по иерархии); который, в свою очередь, понижает уровень доверия пользователя-нарушителя вплоть до нулевого, если нарушение подтвердилось.

Если рассматривать техническую сторону модели: сам уровень доверия - число в диапазоне от нуля до единицы. Уровень доверия пользователя не может быть выше, чем уровень доверия у пользователя, под которым он зарегистрирован. Таким образом, если один из пользователей, "запортачивших" что-то на ресурсе регистрирует под собой некоторых других пользователей, их уровень доверия не может быть высоким, а может и оказаться вовсе нулевым.

Мораль: лучше выбирайте друзей.

Резюме: метод эффективный, но накладывающий существенные ограничения на пользователей, которые, в последнее время, забыли о том, что такое ответственность, не желают тратить свои силы понапрасну и используют Интернет, в большинстве случаев, как односторонний источник информации, без обратной связи.

Данная мысль, в текущей ее интерпретации, больше похожа на бред. Постараюсь чуть позже это формализовать и построить математическую модель, имеющую право на существование. Модель, какой я ее представляю сейчас - рабочая и ее можно применять в интернет-проектах различного рода, где есть такие понятия как пользователи и их ответственность.

Еще недомыслено: понижение уровня доверия пользователя, одобрившего регистрацию пользователя-хулигана.

Один из возможных вариантов: создать разделы, ассоциированные с этим контентом, например:

  • Порнография
    • Геи, лесбиянки и бисексуалы
    • Жесткое порно
    • и т.п...,

а контент, добавляемый в эти разделы, помечать специальным образом и не показывать (посетителям или поисковикам, защищая его, при помощи HTTP-заголовков, например HTTP 404 Not Found).