0 Всего найдено: 50

Yusupov Сообщение 29/07/2010 18:45 Копия темы
Как защитить контент от парсеров? Доброй ночи всем!

Обратил внимание на проекты на главной... Очень много заказчиков просят сделать парсеры для извлечения данных из сторонних сайтов (каталоги товаров и т.д.). Такая ситуация очень настораживает, ведь контент с сайта так и норовят стянуть...

Что делать? Какие существуют методы для шифрования подобных страниц, чтобы их не парсили?

rim89 Сообщение 29/07/2010 18:49 Копия темы
как я знаю парсят контент по тэгам , т.к. если у вас текст заключен в тэг например <span id="text"> bka ka bak </span> то парсер находит текст между этими тэгами и ворует.
Как избавится – хз, первое чт опришло на ум – текст в виде картинок :) , но это дико.

Yusupov Сообщение 29/07/2010 18:52 Копия темы
Да, парсеры цепляются за повторяющиеся фрагменты кода. По идее вижу только один метод – шифровать весь исходный код, но как это скажется на индексации сайта...тоже загадка в таком случае.

aap Сообщение 29/07/2010 18:52 Копия темы
интересно, можно-ли им отдавать чушь какую-нибудь вместо контента

Yusupov Сообщение 29/07/2010 18:53 Копия темы
Ха... Было бы круто!

handicraft Сообщение 29/07/2010 18:53 Копия темы
слать копии текстов себе письмом на почту (оффлайновскую)
а потом подавать в суд

или забить. забить. забить досмерти и проклясть

ElisDN Сообщение 29/07/2010 18:55 Копия темы
Ну или картинкой, либо скриптом выводить.
А так никак. Если поисковик видит – значит любой парсер может поисковиком притвориться.

Yusupov Сообщение 29/07/2010 18:57 Копия темы
Судебные дела это трата времени и денег, конечно если они лишние... Но пока видимо это единственный путь.

Faat Сообщение 29/07/2010 18:57 Копия темы
Единственный надёждный способ – не показывать свой контент никому. Остальное можно обойти.

Yusupov Сообщение 29/07/2010 18:57 Копия темы
Как его не показывать?)

Faat Сообщение 29/07/2010 18:58 Копия темы
Удалите сайт, например.)

Yusupov Сообщение 29/07/2010 19:00 Копия темы
Это проще всего)

Faat Сообщение 29/07/2010 19:01 Копия темы
Ну, можно ещё банить IP, с которых подозрительно много запросов.
Или менять хтмл-код при выводе регулярно.
Или делать паузу перед выдачей пользователю – тогда парсер будет парсить очень медлено.

rim89 Сообщение 29/07/2010 19:02 Копия темы
вот еще идея, вставлять в текст ссылки на себя и всяечким образом открытым текстом или в виде подтекста себя обозначать
+ мониторить поисковики, как нашли свой контент – у себя на сайте написать об этом

Yusupov Сообщение 29/07/2010 19:02 Копия темы
Кстати, хорошие идеи.
Возьму на заметку!

DelphinPRO Сообщение 29/07/2010 19:03 Копия темы
каким нибудь изощренным способом постоянно менять разметку страниц, но так чтобы на внешнем виде это не сказывалось. Айдишники, классы и теги менять.

Но идея по-моему дикая :)

Faat Сообщение 29/07/2010 19:04 Копия темы
В любом случае, это защита только от новичков.

Yusupov Сообщение 29/07/2010 19:05 Копия темы
Кто захочет тот все-равно украдет. Но бороться надо!

clockworkbird Сообщение 29/07/2010 19:11 Копия темы
флэш

Yusupov Сообщение 29/07/2010 19:12 Копия темы
Через sIFR? Или вообще делать сайты только на флеше?)

ElisDN Сообщение 29/07/2010 19:15 Копия темы
А XML и другие источники откуда флэш страницы грузит?

AzmEsmParser Сообщение 29/07/2010 19:20 Копия темы
как спастись от меня:
никак... ип забанят? прокси..смените разметку? я вычислю алгоритм и подстроюсь.. сделаете паузу? даже гугл может пессимизировать за это.. не говоря уже о том что тормоза будут надоедать вашим пользователям и никак не спасут от парса... флеш? а вот кстати да) я его не люблю и из принципа парсить не буду)

Faat Сообщение 29/07/2010 19:21 Копия темы
Поздравляю, вы уже почти не новичок.

newartstyle Сообщение 29/07/2010 19:24 Копия темы
Можно отдавать страницу упакованную gzip, браузеры такой контент распознают на ура, а вот скриптом прийдется делать распаковку и только потом парсинг.

Тоесть чушь отдать можно, но это врядли спасет от опытного парсера.

Melnikoff2 Сообщение 29/07/2010 19:26 Копия темы
Я бы даже сказал – если браузер видит, то никак.
Эмуляция браузера просто делается через curl и всё, непонятно, пользователь это или скрипт. Причём можно даже задать какой-то конкретный браузер.

Melnikoff2 Сообщение 29/07/2010 19:27 Копия темы
Браузеры легко эмулируются скриптом.

AzmEsmParser Сообщение 29/07/2010 19:28 Копия темы
хотя в принципе... есть идеи о том как это можно сделать... технически – сложно.. + я не видел что где то что то подобное применялось..., по моему это действительно не имеет смысла.

Melnikoff2 Сообщение 29/07/2010 19:29 Копия темы
Отличить скрипт от живого пользователя можно только сравнивая содержимое, которое он просматривает.
Скрипт шерстит по идее всё подряд, пользователь только отдельные страницы.

ElisDN Сообщение 29/07/2010 19:30 Копия темы
Да. Не спасёт и флэш, если сайт динамический. XML и другие источники для флэша забрать можно легко, при необходимости подменив и referer.

ElisDN Сообщение 29/07/2010 19:33 Копия темы
Сейчас скрипты более продвинутые пошли. И с рандомными запросами, и со списком анонимных прокси...
Как вечная война вирусов и антивирусников.

newartstyle Сообщение 29/07/2010 19:35 Копия темы
И что? К чему это было сказано?

Melnikoff2 Сообщение 29/07/2010 19:37 Копия темы
К gzip. Не надо даже делать распаковку.

newartstyle Сообщение 29/07/2010 19:47 Копия темы
а скрипт, который эмулирует работу браузера, что делает? Точно также – распаковывает. Так что разницы нету.

saintist Сообщение 29/07/2010 20:55 Копия темы
единственное решение, могу посоветовать как исполнитель подобных проектов по написанию парсеров, это не публиковать контент который не хочешь чтоб у тебя украли, все ухищрения только делают задачу сбора контента интереснее )))

clockworkbird Сообщение 29/07/2010 20:56 Копия темы
данные, которые критичны для воровства выводите на флэше. Если только глазами/руками воровать будут, парсить вряд ли получится.
Флэш можно автоматом генерить.

saintist Сообщение 29/07/2010 20:56 Копия темы
я пишу вариационные парсеры, в зависимости от поставленной задачи + прокси + маскировка под разные браузеры

lega Сообщение 29/07/2010 20:56 Копия темы
всё же блоги приятное место, встретились две как бы противоположные стороны и поговорили по душам :)

clockworkbird Сообщение 29/07/2010 20:56 Копия темы
Это да. Вопрос финансирования.

saintist Сообщение 29/07/2010 21:00 Копия темы
да встречал такое похожее решение , на стороне посетителя который через js генерился на лету часть контента расшифровывалась из хешей, хеши перед этим генерировались на сервере и вставлялись в отдаваемый контент {т.е. часть контента была зашифрована}, но подход к этому сайту все равно нашли, это было лишь вопросом времени

saintist Сообщение 29/07/2010 21:04 Копия темы
даже если в верстке отказаться от использования class и id у тегов, и верстать все чисто на таблицах {такое парсить вроде бы сложно на первый взгляд} ))) голых, все равно, будет на странице уникальный элемент и не один, зацепившись за который можно собрать все что нужно

RiDDi Сообщение 29/07/2010 21:33 Копия темы

RiDDi Сообщение 29/07/2010 21:45 Копия темы

hurumba Сообщение 29/07/2010 22:24 Копия темы
Никак. Про шифрование — полный бред.

idle Сообщение 30/07/2010 05:13 Копия темы
А что никто про рефереры не вспомнил?

umbr Сообщение 30/07/2010 18:23 Копия темы
парсеры тоже понимают gzip
К.О.

Powerslave Сообщение 30/07/2010 18:38 Копия темы
Это наиболее реальная идея из всех, тоже хотел предложить

a-n-k Сообщение 31/07/2010 12:53 Копия темы
Очень просто.
Контент в этом случае надо отображать с помощью Silverlight, а для поисковиков будет предоставляться вариант пригодный только для индексирования, но не пригодный для отображения пользователю.

W-O-R-K Сообщение 02/08/2010 23:10 Копия темы
Защититься на 100% от парсеров нельзя, можно только СИЛЬНО осложнить жизнь авторам парсеров 1. Не используете ClassName, ID и прочее, что однозначно определяет конкретный тэг
например: не стоит писать Table ClassName = ProductInfo и т.д.)

2. Динамически меняйте порядок следования тэегов, чтобы нельзя было выявить закономерность
например: начиная с 38 по счету тега A начинаються ссылки на категории и их по 25 на странице.

3. Не следует давать ID элементов каталога по порядку

4. На фото накладывайте водяные знаки, это не спасает от парсинга, но это просто намертво отбивает желание парсить именно этот сайт,
спарсят контент у аналогичного сайта

5. Часть контента на одной странице выдавайте в кодировке UTF8, часть в Win1251 и т.д.

W-O-R-K Сообщение 02/08/2010 23:11 Копия темы
как правильно сказали выше, всякое шифрование исходника – бессмысленно, броузер все равно все расшифрует перед отображением, а значит и для парсера это не проблема.

TweeKane Сообщение 13/09/2010 20:27 Копия темы
Всё что показано пользователю может быть и скачано. Это нужно принять как данность. Раньше писал парсеры и совершенно точно могу сказать, что стянуть можно любой контент. Хотя бы потому только, что он передаётся через сеть.

Нужно менять своё сознание. Распространение контента это хорош, считайте что это приносит вам известность. просто сделайте так, чтобы пользователи возвращались к вам. Если не возвращаются, значит что-то не то с контентом. Может он бесполезный?