Home » Безопасность » Способы защиты RSS контента

Способы защиты RSS контента

fortress_tank Формат RSS получил повсеместное распространение благодаря удобству для пользователей. Выгоден он и владельцам сайтов: добавив RSS канал в свою читалку, пользователь не забудет о вашем сайте. Получая обновления сайта себе на компьютер, он будет вашим постоянным читателем.

Однако, удобство использования RSS создало проблему воровства контента. Конечно, обычные копипастеры были во все времена, но сделать копирование чужого контента на полном автомате стало под силу даже простому школьнику именно благодаря RSS. А теперь, когда на каждом углу рассказывается об огромных заработках в SAPE, количество поживиться на чужом контенте растет с каждым днем.

Что же может чесный блоггер, создающий или покупающий контент, противопоставить ворам? На закон надеяться не стоит. По крайней мере, если у вас нет тысяч долларов на юристов, готовых защищать дело в суде.

В этом посте я расскажу про технические методы борьбы со сплоггерами. Конечно, если кто-то очень захочет скопировать ваш контент, то он это все равно сделает, но от большинства криворуких сплоггеров защититься можно.

Отдавать неполную RSS ленту

Многие блоггеры отдают неполную RSS ленту. В этом случае читатели получают анонсы новостей и должны зайти на сайт, чтобы прочитать новость целиком. Соответственно, сплоггер, тоже, не получит наш контент, довольствуясь лишь анонсом с ссылкой на наш блог. Это самый эффективный метод борьбы с ворами.

Однако, решая проблему воровства, вы лишаетесь части читателей, т.к. не все любят получать в свой ридер одни лишь анонсы. Я, например, подписываюсь на неполный фид только в том случае, если тематика блога мне очень сильно интересна. Если же автор жжет не в каждом посте, то я скорее не подпишусь на неполный фид.

Использовать ссылки на сайт внутри поста

Ссылаясь в посте на свой блог вы получаете в случае копирования контента бесплатные внешние ссылки. Ссылаться можно как внутри поста, вручную ставя тематические ссылки, так и при помощи плагинов, добавляющих ссылки на сайт или/и пост (как, например, сделано в этом блоге) и ссылки на похожие посты в конец.

К сожалению, сделать автозамену всех ссылок на ссылки через редирект (или вообще убрать) не составляет большого труда. В этом случае никакой пользы вы не получите.

Заключить текст в тег <noindex>

Здесь расчет на то, что сплоггер пользуется каким-нибудь стандартным плагином для копирования чужих RSS и про тег <noindex> ничего не слышал. При этом у него, на первый взгляд, все работает хорошо, но Яндекс его не индексирует. Также, этот метод хорош, если вы транслируете свои ленты в различные RSS каталоги. Сделайте ссылки на оригинальный пост в конце, а сам текст заключите в тег <noindex>. Так вы получите и внешнюю ссылку и не разбазарите контент.

Способ не помогает, если сплоггер не дурак и начнет интересоваться, почему же Яндекс его не индексирует. Кроме того это не решает проблему копирования контента для Гугла.

Закрыть доступ по IP адресу

Этот способ подходит только тем, кто не использует FeedBurner для раздачи своего фида. В этом случае, обнаружив сплог, ворующий ваш контент, вы можете запретить доступ к вашему блогу с IP адреса, на котором находится сплог.

Конечно, злоумышленник может воспользоваться анонимными прокси, но врядли он на это пойдет, т.к. это потребует постоянной проверки работоспособности используемых прокси и поиска новых (анонимные прокси — вещь не постоянная).

Не показывать картинки, если они открываются с реферером сплога

Как правило, сплоггеры копируют к себе только текст, а картинки продолжают грузиться с вашего блога (это, кстати, еще один повод бороться с этими паразитами, ведь они воруют у вас трафик). В этом случае несложно сделать обработчик, который для HTTP запросов картинок с реферером сплога будет отдавать ошибку или другую картинку (тут все зависит от вашей фантазии: от невинных приколов, до призывов к свержению Путина. В последнем случае можно сразу написать абузу хостеру).

Способ хорош тем, что можно поприкалываться и в некоторых случаях добиться бана сплога хостером. Однако ваш контент все равно будет скопирован.

Искажать текст

Можно искажать текст различными способами так, чтобы пользователь ничего не заметил, а поисковые системы считали его уникальным:

  • заменять русские буквы на похожие по написанию английские (а-a, о-o, е-e, с-c, х-x)
  • вставлять в средину слов теги <span style="display: none;">12345</span>, где "12345" может быть уникальным идентификатором вашего блога и поможет найти сплоги, ворующие контент

Недостатком этого способа является то, что буквы будут все-таки другими и это может создать проблемы некоторым читателям, а стили могут неправильно отобразиться в каком-нибудь ридере. Кроме того, непонятно как отнесутся к такому RSS контенту поисковые системы, ведь они тоже его анализируют.

 

Есть замечания, дополнения, идеи? Прошу высказываться в комментариях.

 

P.S. Писал этот пост небольшими частями больше недели. И как раз сегодня Роланд выпустил плагин для защиты RSS от копирования, к сожалению, не бесплатный. Вот, что он может:

  1. Коверкать отдаваемый RSS (заменяя сходные по виду русские буквы английскими)
  2. Отдавать, либо заданное количество абзацев теста, либо от начала до тега <!–more–>, или весь пост.
  3. Вставлять после текста ссылку на оригинальный пост.

Из этих трех пунктов только первый делает плагин уникальным. Остальные возможности есть и в других плагинах, в том числе и бесплатных. А написать плагин с заменой букв — это дело пары часов от силы. Но покупать у Роланда или искать бесплатные плагины — решать вам.

  • Действительно дельные советы. Буду применять на своих блогах эту защиту.
    Спасибо.

  • Спасибо за ссылочку :)

  • Можно еще буквы на цифры менять типа: опять == о5 :) Правда по началу может сбивать постоянных читателей.

  • Admin

    Ну это уж совсем жестоко. Да и вариантов такой замены не очень много.

  • Чисто технически защитиься от ссылок внутри поста – несколько строчек кода, ровно, как и прочие теги. Все убирается. Форматировать сграбленный текст лучше самому, тем более для этого написано куча классов. Интересные решения по форматированию текста имеются на форуме dklab.ru

    Реферер – подделывается элементарно, точно как и куки. Примитивная синонимизация – не дает хорошего эффекта и уникальности текста.
    Грабит можно через прокси, особых проблем с этим нет.
    Интересно мнение автора на тему : как оределить грабилка или нет, и при этом, не отсечь поисковых роботов?

  • Admin

    Абсолютной защиты, к сожалению, нет. Можно надеяться только на то, что большинство скриптов не пройдут какую-то защиту и сплоггер обломается воровать ваш контент (переключится на другой блог).

    По поводу прокси: бесплатные анонимные прокси долго не живут, поэтому сплогеру будет большой гемор постоянно искать новые.