|
0 Всего найдено: 50
Yusupov
Сообщение
29/07/2010 18:45
Копия темы
Как защитить контент от парсеров? Доброй ночи всем! Обратил внимание на проекты на главной... Очень много заказчиков просят сделать парсеры для извлечения данных из сторонних сайтов (каталоги товаров и т.д.). Такая ситуация очень настораживает, ведь контент с сайта так и норовят стянуть... Что делать? Какие существуют методы для шифрования подобных страниц, чтобы их не парсили?
rim89
Сообщение
29/07/2010 18:49
Копия темы
как я знаю парсят контент по тэгам , т.к. если у вас текст заключен в тэг например <span id="text"> bka ka bak </span> то парсер находит текст между этими тэгами и ворует. Как избавится хз, первое чт опришло на ум текст в виде картинок :) , но это дико.
Yusupov
Сообщение
29/07/2010 18:52
Копия темы
Да, парсеры цепляются за повторяющиеся фрагменты кода. По идее вижу только один метод шифровать весь исходный код, но как это скажется на индексации сайта...тоже загадка в таком случае.
aap
Сообщение
29/07/2010 18:52
Копия темы
интересно, можно-ли им отдавать чушь какую-нибудь вместо контента
handicraft
Сообщение
29/07/2010 18:53
Копия темы
слать копии текстов себе письмом на почту (оффлайновскую) а потом подавать в суд или забить. забить. забить досмерти и проклясть
ElisDN
Сообщение
29/07/2010 18:55
Копия темы
Ну или картинкой, либо скриптом выводить. А так никак. Если поисковик видит значит любой парсер может поисковиком притвориться.
Yusupov
Сообщение
29/07/2010 18:57
Копия темы
Судебные дела это трата времени и денег, конечно если они лишние... Но пока видимо это единственный путь.
Faat
Сообщение
29/07/2010 18:57
Копия темы
Единственный надёждный способ не показывать свой контент никому. Остальное можно обойти.
Faat
Сообщение
29/07/2010 19:01
Копия темы
Ну, можно ещё банить IP, с которых подозрительно много запросов. Или менять хтмл-код при выводе регулярно. Или делать паузу перед выдачей пользователю тогда парсер будет парсить очень медлено.
rim89
Сообщение
29/07/2010 19:02
Копия темы
вот еще идея, вставлять в текст ссылки на себя и всяечким образом открытым текстом или в виде подтекста себя обозначать + мониторить поисковики, как нашли свой контент у себя на сайте написать об этом
DelphinPRO
Сообщение
29/07/2010 19:03
Копия темы
каким нибудь изощренным способом постоянно менять разметку страниц, но так чтобы на внешнем виде это не сказывалось. Айдишники, классы и теги менять. Но идея по-моему дикая :)
AzmEsmParser
Сообщение
29/07/2010 19:20
Копия темы
как спастись от меня: никак... ип забанят? прокси..смените разметку? я вычислю алгоритм и подстроюсь.. сделаете паузу? даже гугл может пессимизировать за это.. не говоря уже о том что тормоза будут надоедать вашим пользователям и никак не спасут от парса... флеш? а вот кстати да) я его не люблю и из принципа парсить не буду)
newartstyle
Сообщение
29/07/2010 19:24
Копия темы
Можно отдавать страницу упакованную gzip, браузеры такой контент распознают на ура, а вот скриптом прийдется делать распаковку и только потом парсинг. Тоесть чушь отдать можно, но это врядли спасет от опытного парсера.
Melnikoff2
Сообщение
29/07/2010 19:26
Копия темы
Я бы даже сказал если браузер видит, то никак. Эмуляция браузера просто делается через curl и всё, непонятно, пользователь это или скрипт. Причём можно даже задать какой-то конкретный браузер.
AzmEsmParser
Сообщение
29/07/2010 19:28
Копия темы
хотя в принципе... есть идеи о том как это можно сделать... технически сложно.. + я не видел что где то что то подобное применялось..., по моему это действительно не имеет смысла.
Melnikoff2
Сообщение
29/07/2010 19:29
Копия темы
Отличить скрипт от живого пользователя можно только сравнивая содержимое, которое он просматривает. Скрипт шерстит по идее всё подряд, пользователь только отдельные страницы.
ElisDN
Сообщение
29/07/2010 19:30
Копия темы
Да. Не спасёт и флэш, если сайт динамический. XML и другие источники для флэша забрать можно легко, при необходимости подменив и referer.
ElisDN
Сообщение
29/07/2010 19:33
Копия темы
Сейчас скрипты более продвинутые пошли. И с рандомными запросами, и со списком анонимных прокси... Как вечная война вирусов и антивирусников.
newartstyle
Сообщение
29/07/2010 19:47
Копия темы
а скрипт, который эмулирует работу браузера, что делает? Точно также распаковывает. Так что разницы нету.
saintist
Сообщение
29/07/2010 20:55
Копия темы
единственное решение, могу посоветовать как исполнитель подобных проектов по написанию парсеров, это не публиковать контент который не хочешь чтоб у тебя украли, все ухищрения только делают задачу сбора контента интереснее )))
clockworkbird
Сообщение
29/07/2010 20:56
Копия темы
данные, которые критичны для воровства выводите на флэше. Если только глазами/руками воровать будут, парсить вряд ли получится. Флэш можно автоматом генерить.
saintist
Сообщение
29/07/2010 20:56
Копия темы
я пишу вариационные парсеры, в зависимости от поставленной задачи + прокси + маскировка под разные браузеры
lega
Сообщение
29/07/2010 20:56
Копия темы
всё же блоги приятное место, встретились две как бы противоположные стороны и поговорили по душам :)
saintist
Сообщение
29/07/2010 21:00
Копия темы
да встречал такое похожее решение , на стороне посетителя который через js генерился на лету часть контента расшифровывалась из хешей, хеши перед этим генерировались на сервере и вставлялись в отдаваемый контент {т.е. часть контента была зашифрована}, но подход к этому сайту все равно нашли, это было лишь вопросом времени
saintist
Сообщение
29/07/2010 21:04
Копия темы
даже если в верстке отказаться от использования class и id у тегов, и верстать все чисто на таблицах {такое парсить вроде бы сложно на первый взгляд} ))) голых, все равно, будет на странице уникальный элемент и не один, зацепившись за который можно собрать все что нужно
Powerslave
Сообщение
30/07/2010 18:38
Копия темы
Это наиболее реальная идея из всех, тоже хотел предложить
a-n-k
Сообщение
31/07/2010 12:53
Копия темы
Очень просто. Контент в этом случае надо отображать с помощью Silverlight, а для поисковиков будет предоставляться вариант пригодный только для индексирования, но не пригодный для отображения пользователю.
W-O-R-K
Сообщение
02/08/2010 23:10
Копия темы
Защититься на 100% от парсеров нельзя, можно только СИЛЬНО осложнить жизнь авторам парсеров 1. Не используете ClassName, ID и прочее, что однозначно определяет конкретный тэг например: не стоит писать Table ClassName = ProductInfo и т.д.) 2. Динамически меняйте порядок следования тэегов, чтобы нельзя было выявить закономерность например: начиная с 38 по счету тега A начинаються ссылки на категории и их по 25 на странице. 3. Не следует давать ID элементов каталога по порядку 4. На фото накладывайте водяные знаки, это не спасает от парсинга, но это просто намертво отбивает желание парсить именно этот сайт, спарсят контент у аналогичного сайта 5. Часть контента на одной странице выдавайте в кодировке UTF8, часть в Win1251 и т.д.
W-O-R-K
Сообщение
02/08/2010 23:11
Копия темы
как правильно сказали выше, всякое шифрование исходника бессмысленно, броузер все равно все расшифрует перед отображением, а значит и для парсера это не проблема.
TweeKane
Сообщение
13/09/2010 20:27
Копия темы
0
Всё что показано пользователю может быть и скачано. Это нужно принять как данность. Раньше писал парсеры и совершенно точно могу сказать, что стянуть можно любой контент. Хотя бы потому только, что он передаётся через сеть. Нужно менять своё сознание. Распространение контента это хорош, считайте что это приносит вам известность. просто сделайте так, чтобы пользователи возвращались к вам. Если не возвращаются, значит что-то не то с контентом. Может он бесполезный? |
Выразить восторг, поругаться или предложить что-нибудь можно на форуме |
Для обсуждения этого сервиса так же есть темы на фрилансе по поиску , флудотопу ,и по удалённым сообщениям ,и по Актуальным/популярным темам , и по топу "кто кому больше наотвечал" |