форум web-разработчиков

FDE Grabber => Описание движка => Тема начата: Artes от Февраль 06, 2012, 22:42:00

Название: Есть ли возможность или сколько стоит дописать
Отправлено: Artes от Февраль 06, 2012, 22:42:00
Существует ряд видов контента, когда должна парсится не только страница по ссылке, а и файлы с нее.
Пример

- Страница - лента новостей \ категори
-- Страница новости с фотогаллерей или документами
--- Сами фотографии фотогаллереи

Т.е граббер без проблем заходит и грабит страничку галлереи с маленькими картинками, а большие само-собой не получает, так вот сделать так что бы получал т.е некий хак для источника "получать картинки по ссылкам"
Название: Re: Есть ли возможность или сколько стоит дописать
Отправлено: Stanislav от Февраль 07, 2012, 08:44:12
Цитировать
Страница - лента новостей \ категори

Это обычный граббинг html источника - такое давно есть в граббере

Существует ряд видов контента, когда должна парсится не только страница по ссылке, а и файлы с нее.
Пример

-- Страница новости с фотогаллерей или документами
--- Сами фотографии фотогаллереи

Т.е граббер без проблем заходит и грабит страничку галлереи с маленькими картинками, а большие само-собой не получает, так вот сделать так что бы получал т.е некий хак для источника "получать картинки по ссылкам"

Если маленькие картинки показываются под ссылками на большие картинки - то можно использовать какой-то хак или замены регулярными выражениями.

А если картинки показываются, например, через отдельную промежуточную страницу, то на автомате этого, конечно, не сможет сделать ни один существующий граббер, позиционируемый как универсальный.
То, что вы описали относится к сложному граббингу на заказ, а-ля граббинг интернет магазина с дифференциацией контента по разным полям, как, собственно и граббинг галереи изображений, ведь для того, чтобы сграбить большую картинку галереи - парсеру придётся каким-то образом распознать ссылку на большую картинку, а следовательно нужен шаблон, а дальше ещё интереснее - ему потребуется перейти по ссылке, снова распознать нужную картинку и уже потом скачать, но это ещё не всё - ему потребуется вставить эту картинку в контент исходной новости в том виде, который нужен вам
Если это и можно сделать, то это можно сделать только хаком на заказ: http://fdstar.net/order.html
Название: Re: Есть ли возможность или сколько стоит дописать
Отправлено: Artes от Февраль 08, 2012, 10:01:30
тогда подскажите:

Страница галереи на которой 20+ маленьких фото снизу под каждым из фото прямая ссылка на большую картинку

<div class="gallery_list">
<a href="/photo/femjoy/armida_00398/5716/16/2/">
<img src="/galsx4468/armida_00398/thumbnails/tnarmida_00398_2.jpg">
</a>
<br>
<a rel="gallery[gallery]" href="/galsx4468/armida_00398/armida_00398_2.jpg">file</a>
</div>

<div class="gallery_list">
<a href="/photo/femjoy/armida_00398/5716/16/3/">
<img src="/galsx4468/armida_00398/thumbnails/tnarmida_00398_3.jpg">
</a>
<br>
<a rel="gallery[gallery]" href="/galsx4468/armida_00398/armida_00398_3.jpg">file</a>
</div>


можно ли такую конструкцию как-то разобрать?
Название: Re: Есть ли возможность или сколько стоит дописать
Отправлено: Stanislav от Февраль 08, 2012, 13:50:49
конечно можно - достаточно использовать замену регулярным выражением
Название: Re: Есть ли возможность или сколько стоит дописать
Отправлено: Artes от Февраль 10, 2012, 01:00:27
конечно можно - достаточно использовать замену регулярным выражением
готов даже заплатить за шаблон данного чуда через регулярные выражения
Название: Re: Есть ли возможность или сколько стоит дописать
Отправлено: Stanislav от Февраль 10, 2012, 11:22:07
вот это:

Цитировать
#<div class="gallery_list">.*?<br>\s*<a rel="gallery\[gallery\]" href="(.*?)">.*?</a>.*?</div>#is

заменяем на это:

Цитировать
<img src="\1"/>
Название: Re: Есть ли возможность или сколько стоит дописать
Отправлено: Stanislav от Февраль 10, 2012, 11:23:24
замену нужно производить "до основных преобразований контента"