• Июнь 27, 2017, 22:16:03
• Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Не получили письмо с кодом активации?

Автор Тема: Перевод новостей  (Прочитано 6315 раз)

Оффлайн ribas

  • Newbie
  • *
  • Сообщений: 6
  • ????? ????
    • Просмотр профиля
    • E-mail
Перевод новостей
« : Январь 19, 2013, 11:50:11 »
Добрый день!
Возможно ли добавление в граббер функции перевода спаршеного контента до публикации,  допустим с помощью гугл переводчика или другого подобного сервиса? Такая функция, думаю, была бы очень полезна.

Оффлайн Stanislav

  • Administrator
  • Jr. Member
  • *****
  • Сообщений: 76
    • Просмотр профиля
    • E-mail
Re: Перевод новостей
« Ответ #1 : Январь 19, 2013, 22:50:28 »
гугл переводчик с некоторых пор стал платным. Имеется пока что бесплатное api от яндекса, которое можно было бы использовать для таких целей, однако на один запрос там, если я не ошибаюсь не более 10000 символов, и не более 1 миллиона в день

Оффлайн ribas

  • Newbie
  • *
  • Сообщений: 6
  • ????? ????
    • Просмотр профиля
    • E-mail
Re: Перевод новостей
« Ответ #2 : Январь 21, 2013, 13:05:07 »
10k символов в большинстве случаев достаточно... По сути перевод будет давать уникальный контент, чего и хотелось бы.

Оффлайн Stanislav

  • Administrator
  • Jr. Member
  • *****
  • Сообщений: 76
    • Просмотр профиля
    • E-mail
Re: Перевод новостей
« Ответ #3 : Январь 21, 2013, 15:20:05 »
вы хотите вести двойной перевод? сначала с русского на какой-либо язык, а потом обратно?, в таком случае лимит количества символов в день будет как минимум в два раза меньше, то есть не миллион, а половина. Кстати, лимит количества символов у яндекса распространяется и на html форматирование, то есть реально, будет ещё меньше для полезного контента. Добавить такой хак можно, но тогда при превышении лимитов будут обрезаться новости...
« Последнее редактирование: Январь 21, 2013, 15:23:33 от Stanislav »

Оффлайн ribas

  • Newbie
  • *
  • Сообщений: 6
  • ????? ????
    • Просмотр профиля
    • E-mail
Re: Перевод новостей
« Ответ #4 : Январь 21, 2013, 15:23:52 »
Нет, не двойной, достаточно перевода одностороннего, скажем с русского на украинский - если делать новостной сайт на украинском языке. Очень много украинских новостных сайтов русскоязычные.

Оффлайн Stanislav

  • Administrator
  • Jr. Member
  • *****
  • Сообщений: 76
    • Просмотр профиля
    • E-mail
Re: Перевод новостей
« Ответ #5 : Январь 21, 2013, 15:25:58 »
ожидайте такой хак в следующей версии системы импорта новостей

Оффлайн ribas

  • Newbie
  • *
  • Сообщений: 6
  • ????? ????
    • Просмотр профиля
    • E-mail
Re: Перевод новостей
« Ответ #6 : Январь 21, 2013, 19:28:08 »
Спасибо, и еще вопрос, дабы не создавать новую тему - можно ли изменять название публикуемой новости по какому либо заранее определённому шаблону?

Оффлайн Stanislav

  • Administrator
  • Jr. Member
  • *****
  • Сообщений: 76
    • Просмотр профиля
    • E-mail
Re: Перевод новостей
« Ответ #7 : Январь 21, 2013, 19:55:50 »
Изменять название новости можно или с помощью специально созданного хака (требуется знание php, подробности здесь)
или с помощью, например замен регулярными выражениями (указываются в настройках категории источников)

А что конкретно нужно сделать с заголовком?

Оффлайн ribas

  • Newbie
  • *
  • Сообщений: 6
  • ????? ????
    • Просмотр профиля
    • E-mail
Re: Перевод новостей
« Ответ #8 : Январь 21, 2013, 23:23:28 »
В источнике новость идет с заголовком вида "11888 (24.01.2013)". Возможно ли привести его к виду
"{желаемый текст}11888 (24.01.2013){желаемый текст}". То есть дописывать к существующему заголовку какую либо фразу.

Оффлайн Stanislav

  • Administrator
  • Jr. Member
  • *****
  • Сообщений: 76
    • Просмотр профиля
    • E-mail
Re: Перевод новостей
« Ответ #9 : Январь 22, 2013, 12:20:51 »
для этого достаточно замены регулярным выражением, применённой к заголовку:

что заменяем:
#^(.*?)$#s

на что заменяем:
{желаемый текст 1}\1{желаемый текст 2}

* желаемый текст 2 должен начинаться не с цифры


Оффлайн ribas

  • Newbie
  • *
  • Сообщений: 6
  • ????? ????
    • Просмотр профиля
    • E-mail
Re: Перевод новостей
« Ответ #10 : Январь 24, 2013, 12:30:10 »
Спасибо, всё работает, еще вопрос:

существует HTML источник новостей, в этом источнике первая новость всегда публикуется сначала как анонс, а через несколько дней текст в ней заменяется на полноценную новость. То есть она, по сути, не нужна до появления полноценного текста. Как начинать парсинг со второй новости в источнике?
« Последнее редактирование: Январь 24, 2013, 14:05:03 от ribas »

Оффлайн Stanislav

  • Administrator
  • Jr. Member
  • *****
  • Сообщений: 76
    • Просмотр профиля
    • E-mail
Re: Перевод новостей
« Ответ #11 : Январь 24, 2013, 14:19:37 »
1 - если адрес ненужной новости как-то или чем-то отличается от остальных, то можно воспользоваться новым функционалом, описанным здесь, а именно, фильтром в настройках источника: "Ссылки на статьи должны удовлетворять указанному регулярному выражению"

2 - если содержимое ненужной статьи отличается от остальных наличием каких-либо особых слов, то их можно перечислить в настройках соответствующей категории граббера: "Цензура слов и выражений"

3 - в случае парсинга источника с помощью простого или DOM шаблона - вы можете удалять ненужные новости перед парсингом контента регулярным выражением, которое потребуется указать в настройках категории и применить только к кратким новостям, перед парсингом контента, это самый правильный вариант, тем более что он не настолько сложен (если возникают трудности с составлением регулярного выражения, то вы можете обратиться к нам за помощью через форму обратной связи)
« Последнее редактирование: Январь 24, 2013, 14:24:01 от Stanislav »