Поисковая форма:) поиск по free-lance.ru Топ/история/обновления фриланса, по разным параметрам (темы, сообщения, пользователи...) Автоматическое удаление постов от ненужных юзеров в топике (php скрипт) Досье(точный ник)
 

Ник (или часть ника):
?
Какой текст ищем:
?
Раздел блогов:
За срок
дней
Тип поиска: (по вхождению: по тексту гуг выдаст посты с "гуг", "гугл", "огугл"; "полнотекстовый": по тексту "гуг" выдаст посты только с "гуг")
По вхождению строки:  Полнотекстовый: 
(поиск не 100% актуальный, есть определённая задержка при обновлении данных для поиска. )
0 Всего найдено: 11
Apis Сообщение 14/11/2010 20:19 Копия темы
Программисты-архитекторы, помогите пожалуйста выбрать – PHP+cron, Phyton или что-то еще? Задумался вопросом создания скрипта для облегчения нелегкого труда оптимизатора. Очень часто возникают задачи вида "найти все страницы на сайте с совпадающими тегами TITLE". Или же, к примеру, перелопатить сайт и найти все повторяющиеся страницы.

Начал с того, что сейчас пока написали скрипт, который скачивает сайт. При этом число скачанных страниц может быть, к примеру, 10 000. Понятно, для того чтобы найти в этом объеме все повторяющиеся страницы понадобится достаточно большое время и делать это лучше в несколько потоков. При этом сам скрипт нужно размещать на удаленном сервере, и чтобы он:
1. Запускался с кнопки в веб-интерфейсе
2. Работал в фоне, то есть можно было закрыть браузер, выключить комп и не боятся, что порвется интернет.
3. Чтобы потом можно было открыть страницу веб-интерфейса и на ней отображался процесс – на какой все стадии, что обнаружено.

Так как с питоном сам не очень знаком, то лишь очень приближенно подозреваю, что он может здесь помочь. Еще так понимаю, можно сделать и с помощью php скриптов и cron. Помогите пожалуйста – в какую сторону смотреть, на чем лучше проектировать такую систему?
skovbovich Сообщение 14/11/2010 20:33 Копия темы
Знаю, что что-то подобное можно без проблем реализовать на Perl
Apis Сообщение 14/11/2010 20:41 Копия темы
а он в фоне сам по себе работает, без всяких планировщиков и ограничения по времени?
abbat Сообщение 14/11/2010 20:50 Копия темы
2 – утилита screen или делать полноценный fork процесса, при условии, что нет ограничений на CPU/время выполнения (т.е. это не должен быть дешевый хостинг).
3 – невозможно, т.к. размер скачиваемого сайта заранее неизвестен

В принципе, в качестве отправной точки можно взять webcheck – ch.tudelft.nl/~arthur/web... и доработать его до нужного функционала (ну или просто использовать его базу на выходе).
skovbovich Сообщение 14/11/2010 20:50 Копия темы
Да.
Если установить все скрипты на сервак, написать свой супервайзер, контроллирующий процесс работы системы, тогда все получится. 
Знаю точно, что можно организовать много поточность.
Т.е. перл заточен как раз для подобного рода задач.

А идеальный вариант написать на Erlang.
skovbovich Сообщение 14/11/2010 20:53 Копия темы
3 – размер сайта не известен,
а если сначала парсером пробежаться по айдишникам страниц, а потом только уже приступать к сканированию тегов title, тогда общее количество страниц разве не будет видно?
abbat Сообщение 14/11/2010 21:14 Копия темы
У сайта может и не быть никаких ID-шников (хотя, возможно я не правильно понял что имелось ввиду), ID могут прерываться (удаление страниц например), ID могут быть не числовыми – в таком многообразии вариантов прогнозировать что-либо весьма проблематично.
Infarch Сообщение 14/11/2010 21:41 Копия темы
Я такие вопросы так решал:
1. Скачать сайт. Это начало всего.
2. Через веб-морду задать нужную ДОЛГУЮ операцию. Но не начинать ее выполнение, а разместить в пуле задач запрос и вернуть в браузер айди задачи.
3. Отдельный сервис работает с пулом задач, периодически обновляя статус и по возможности прогресс выполнения.
4. Браузер ажаксом щупает состояние задачи по айдишке и выдает прогресс.
5. А если браузер был закрыт, то потом можно просмотреть список всех задач и выбрать нужный результат.

И кстати, все на Перле, вплоть до виндовых сервисов обработки задач :)

зы. скачивание сайта тоже можно рассматривать как долгую операцию выполняемую через пул задач.
Apis Сообщение 15/11/2010 08:04 Копия темы
Тоже примерно так представляю процесс
Apis Сообщение 15/11/2010 08:04 Копия темы
Значит надо реализовывать на perl.
a-n-k Сообщение 15/11/2010 09:00 Копия темы
Лучше всего это сделать на том языке, который ты лучше всего знаешь.

Я бы это сделал на C#.
На удаленном сервере создается и запускается служба, которая считывает настройки, и согласно ним анализирует указанный сайт и сохраняет результаты в указанную директорию или базу данных. 
На этом же удаленном сервере размещается также веб-приложение, с помощью которого редактируются настройки, и которое по запросу считывает результаты и возвращает их в читабельной формой.

Это высокоуровневая архитектура решения. Если она подходит, то затем решается каждая из подсистем.
0

©2008 edogs egods
Выразить восторг, поругаться
или предложить что-нибудь можно на форуме
Для обсуждения этого сервиса так же есть темы на фрилансе по
поиску , флудотопу ,и по удалённым сообщениям ,и по Актуальным/популярным темам , и по топу "кто кому больше наотвечал"