• Март 28, 2024, 22:02:56
• Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Не получили письмо с кодом активации?

Автор Тема: Есть ли возможность или сколько стоит дописать  (Прочитано 20048 раз)

Оффлайн Artes

  • Newbie
  • *
  • Сообщений: 6
    • Просмотр профиля
Существует ряд видов контента, когда должна парсится не только страница по ссылке, а и файлы с нее.
Пример

- Страница - лента новостей \ категори
-- Страница новости с фотогаллерей или документами
--- Сами фотографии фотогаллереи

Т.е граббер без проблем заходит и грабит страничку галлереи с маленькими картинками, а большие само-собой не получает, так вот сделать так что бы получал т.е некий хак для источника "получать картинки по ссылкам"

Оффлайн Stanislav

  • Administrator
  • Jr. Member
  • *****
  • Сообщений: 76
    • Просмотр профиля
    • E-mail
Цитировать
Страница - лента новостей \ категори

Это обычный граббинг html источника - такое давно есть в граббере

Существует ряд видов контента, когда должна парсится не только страница по ссылке, а и файлы с нее.
Пример

-- Страница новости с фотогаллерей или документами
--- Сами фотографии фотогаллереи

Т.е граббер без проблем заходит и грабит страничку галлереи с маленькими картинками, а большие само-собой не получает, так вот сделать так что бы получал т.е некий хак для источника "получать картинки по ссылкам"

Если маленькие картинки показываются под ссылками на большие картинки - то можно использовать какой-то хак или замены регулярными выражениями.

А если картинки показываются, например, через отдельную промежуточную страницу, то на автомате этого, конечно, не сможет сделать ни один существующий граббер, позиционируемый как универсальный.
То, что вы описали относится к сложному граббингу на заказ, а-ля граббинг интернет магазина с дифференциацией контента по разным полям, как, собственно и граббинг галереи изображений, ведь для того, чтобы сграбить большую картинку галереи - парсеру придётся каким-то образом распознать ссылку на большую картинку, а следовательно нужен шаблон, а дальше ещё интереснее - ему потребуется перейти по ссылке, снова распознать нужную картинку и уже потом скачать, но это ещё не всё - ему потребуется вставить эту картинку в контент исходной новости в том виде, который нужен вам
Если это и можно сделать, то это можно сделать только хаком на заказ: http://fdstar.net/order.html

Оффлайн Artes

  • Newbie
  • *
  • Сообщений: 6
    • Просмотр профиля
тогда подскажите:

Страница галереи на которой 20+ маленьких фото снизу под каждым из фото прямая ссылка на большую картинку

<div class="gallery_list">
<a href="/photo/femjoy/armida_00398/5716/16/2/">
<img src="/galsx4468/armida_00398/thumbnails/tnarmida_00398_2.jpg">
</a>
<br>
<a rel="gallery[gallery]" href="/galsx4468/armida_00398/armida_00398_2.jpg">file</a>
</div>

<div class="gallery_list">
<a href="/photo/femjoy/armida_00398/5716/16/3/">
<img src="/galsx4468/armida_00398/thumbnails/tnarmida_00398_3.jpg">
</a>
<br>
<a rel="gallery[gallery]" href="/galsx4468/armida_00398/armida_00398_3.jpg">file</a>
</div>


можно ли такую конструкцию как-то разобрать?

Оффлайн Stanislav

  • Administrator
  • Jr. Member
  • *****
  • Сообщений: 76
    • Просмотр профиля
    • E-mail
конечно можно - достаточно использовать замену регулярным выражением

Оффлайн Artes

  • Newbie
  • *
  • Сообщений: 6
    • Просмотр профиля
конечно можно - достаточно использовать замену регулярным выражением
готов даже заплатить за шаблон данного чуда через регулярные выражения

Оффлайн Stanislav

  • Administrator
  • Jr. Member
  • *****
  • Сообщений: 76
    • Просмотр профиля
    • E-mail
вот это:

Цитировать
#<div class="gallery_list">.*?<br>\s*<a rel="gallery\[gallery\]" href="(.*?)">.*?</a>.*?</div>#is

заменяем на это:

Цитировать
<img src="\1"/>

Оффлайн Stanislav

  • Administrator
  • Jr. Member
  • *****
  • Сообщений: 76
    • Просмотр профиля
    • E-mail
замену нужно производить "до основных преобразований контента"