The script adds a button to the site for downloading books to an FB2 file
< Feedback on RulateBookExtractor
В логе ошибок нет, скачано полностью
https://tl.rulate.ru/book/76576
Не знаю, насколько дело в скрипте.
Алридер равняет текст по центру и выделяет его жирным, т.е. считает заголовками. Весь текст, все 114 страниц.
Fiction Book Editor однако же открыл его нормально-штатно.
Чисто для сведения, чтоб скрипт улучшить, а так это полный мусор, начать с того, что дебил "оформляет" прямую речь как принято в английском языке. И даже так неправильно, боже... Расстрелять, конечно. Как и еще ряд таких же точно ненормальных, увидел сейчас, охренел, н-да.
По поводу предыдущей книжки с картинками в аннотации. Походу у них там на Рулейте такое принято, обнаружено еще больше 5 штук таких же. Тут, если этот вопрос дорабатывается, сделать как-нибудь, чтобы эти картинки сохранялись, например, в конец файла. Ну и в любом случае - дорабатываем или нет - не убирать заглушку с того места, где эти картинки на сайте есть и должны быть в файле. Т.е. пускай так и висит ([ image1 ] [ image2 ])
https://tl.rulate.ru/book/78613
азвание: Deal with the Devil / DxD: Сделка с дьяволом
Авторы: 1
Жанры: не реализовано
Теги: 15
Последнее обновление: n/a
Выбрано глав: 1
Загрузка обложки... ok
Размер обложки: 225035 байт
Тип обложки: image/jpeg
Анализ аннотации... ошибка!
Неизвестный HTML блок: TABLE
И, кстати, немаловажный вопрос - а работает ли скрипт с теми книгами, у которых 1 глава? Если нет, то вообще это же не АТ, тут такие книжки разве существуют? Смысл сайта вроде ж в продажах, тут даже если кто захочет всё в одну "главу" слить, но просто не получится? Т.е. если, то можно элементарно подождать, уж 2 главы и дальше скрипт точно скачает.
https://tl.rulate.ru/book/29360
Скачивает отлично, этот и подобные огромные фики.
А вот обложка всего одна. Вообще-то это логично, но Рулейт на своей волне и здесь, а не только в аннотациях - обложек может быть несколько, в этой книжке 3.
Возможно ли как-то всё-таки забирать их в файл? Например, тоже в конец?
https://tl.rulate.ru/book/91008
Гм. А вот тут он картинку в аннотацию скачал, однако. Прям в аннотации в Алридере располагается, ага.
Почему ж тогда сбоил на упомянутом примере и пяти еще?
И отсюда скачал - https://tl.rulate.ru/book/89563
А это вообще гифка! Алридер картинку показал не гифкой, конечно, но все же показал и тоже в аннотации.
О, какой неочевидный и редкий глюк поймал!
https://tl.rulate.ru/book/91750
В аннотации картинка де-юре есть, вот только де-факто (либо с хостингом тех.проблема, либо вообще роскомнадзор влез) её нет. Вроде ссылка - https://pbs.twimg.com/media/EY4Oc4QXkAE3Dr2?format=png&name=900x900
На самом Рулейте на её месте тоже пустое место, этакая заглушка.
Скрипт же останавливается и дальше ни в какую.
Название: Killed For 100 Years in Hueco Mundo, Aizen Invited Me To Soul Society! / Блич: 100 лет заключения в Уэко Мундо
Авторы: 1
Жанры: не реализовано
Теги: 2
Последнее обновление: n/a
Выбрано глав: 19
Загрузка обложки... ok
Размер обложки: 305136 байт
Тип обложки: image/jpeg
Анализ аннотации...
Загрузка изображения...
Вот такой попался.
https://tl.rulate.ru/book/91354
Одну, первую картинку, из аннотации он взял, а вторую - нет. Причем там гифка, но не просто - в логе на этапе "ошибка" скрипт задумался секунд на 15, застыл, и когда я уже хотел "прервать", выдал эту "ошибка", но пошёл скачивать дальше! Первый раз за сегодня, до этого если останавливался, то совсем.
Название: Naruto: The Gamer Files / Наруто: Досье геймера
Авторы: нет
Не найдена информация об авторах
Жанры: не реализовано
Теги: 5
Последнее обновление: n/a
Выбрано глав: 9
Загрузка обложки... ok
Размер обложки: 183481 байт
Тип обложки: image/jpeg
Анализ аннотации... ok
Загрузка изображения... ok
Загрузка изображения... ошибка!
---
Получение главы 1/9... ok
Получение главы 2/9... ok
Получение главы 3/9... ok
https://tl.rulate.ru/book/85945
Название: Lord of Humanity: My undead have 100x magnification / Лорд человечества: моя нежить имеет 100-кратное увеличение
Авторы: 1
Жанры: не реализовано
Теги: 10
Последнее обновление: n/a
Выбрано глав: 101
Загрузка обложки... ok
Размер обложки: 255349 байт
Тип обложки: image/jpeg
Анализ аннотации... ошибка!
Неизвестный HTML блок: TABLE
Ладно, хватит на сегодня (или вообще?). У меня от этих уродов шаринган открылся.
"Оформляют" прямую речь, как в английском (и то неправильно), выделяют реплики жирным (вот просто выделяют, нравится видать), безумные курсивы где не надо, капсы, скобки, пустые места...
Содержимое навроде
И из-за этого, после передачи этой должности, чувство вины в его сердце сильно уменьшилось.
***
Они некоторое время болтали, а затем расстались.
Саске начал безумно тренироваться.
Нацухико тоже не сидел сложа руки. Он занялся разбором наследия клана Учиха.
«Это действительно похоже на то, как если бы вас погрызла собака!»
Есть и нормальные люди, но подавляющее большинство вообще как с пальмы упало вчера. Даже не слышали, что у русского языка есть какие-то там правила, не то, что учить пытались.
Фак, получил столько стресса... Притом, что на тот сайт хожу раз в полгода, если вообще...
Всем пока (по крайней мере, пока).
Много понаписано, подробно. Что касается картинок в аннотации - скрипт о таком знает и должен грузить. Я посмотрю в чем там дело. В общем, завтра поразбираюсь.
https://tl.rulate.ru/book/92407 (Неизвестный HTML блок: DIV)
Исправил. Это миниатюра (thumbnail) другой книжки внутри аннотации текущей книги. Добавил фильтр в аннотацию и в главы. Походу автор сам добавил, потому что я такого больше не встречал.
https://tl.rulate.ru/book/90394 две картинки в аннотацию - их скрипт не скачать
Скрипт умеет качать картинки из аннотации. Тут дело в другом - сработала защита самого сайта CORS (Cross-Origin Resource Sharing). Причем на FF с greasemonkey картинки грузятся без проблем. Я на такое нарывался в AT. У Readli этого нет. Думал и тут пронесет. Не пронесло, буду фиксить.
https://tl.rulate.ru/book/76576 Алридер равняет текст по центру и выделяет его жирным, т.е. считает заголовками
Мой косяк - скрипт формирует невалидный fb2 файл, от чего ваша читалка, скорее всего начинает глючить. Проблема была в перечеркнутом тексте в аннотации.
Расстрелять, конечно. Как и еще ряд таких же точно ненормальных, увидел сейчас, охренел, н-да.
Тихо, тихо. Дышите глубже! Сначала выпороть, потом уж расстрелять! :)
https://tl.rulate.ru/book/78613 Неизвестный HTML блок: TABLE
В главах это работало, не думал, что в аннотации вылезет. Пофиксил.
И, кстати, немаловажный вопрос - а работает ли скрипт с теми книгами, у которых 1 глава?
Если бы я знал... Это типа как рассказы на АТ? Я такого тут не встречал. По идее, в оригинальном движке (notabenoid.org) главы иначе нежели обычно не отображаются. Но я специально не искал. Если вы о чем-то другом, то лучше с примером.
https://tl.rulate.ru/book/29360 но Рулейт на своей волне и здесь, а не только в аннотациях - обложек может быть несколько, в этой книжке 3
Я про это изначально знал. В стандарте... а ведь в стандарте fb2 разрешено иметь несколько обложек. А я не подумал и в скрипте тупо беру первую обложку. Можно попробовать сунуть все доступные, возможно книжки это даже отобразят. Или вы считаете, что лучше таки в конец книги, типа доп.материалов?
https://tl.rulate.ru/book/91008 Гм. А вот тут он картинку в аннотацию скачал, однако. Прям в аннотации в Алридере располагается, ага. Почему ж тогда сбоил на упомянутом примере и пяти еще?
Потому что внутри глав авторы грузят картинки прямо на сайт (не всегда), а в аннотации... как придется, обычно ссылками на другие хостинги.
https://tl.rulate.ru/book/91750 В аннотации картинка де-юре есть, вот только де-факто (либо с хостингом тех.проблема, либо вообще роскомнадзор влез) её нет
Если я правильно помню, twimg был заблочен. У меня под Tor-ом картинка в аннотации скачалась, без Tor-а - нет.
Скрипт же останавливается и дальше ни в какую.
Порой нужно просто подождать. Сие поведение зависит от типа блокировки картинки, как было оборвано соединение (drop или reject). Скрипт может повисеть пару минут, словить таймаут от браузера и продолжить работать дальше. После ошибок с загрузкой картинок скрипт продолжает работать, так сделано специально. На месте незагруженных картинок будут текстовые заглушки.
https://tl.rulate.ru/book/91354 Одну, первую картинку, из аннотации он взял, а вторую - нет. Причем там гифка, но не просто - в логе на этапе "ошибка" скрипт задумался секунд на 15, застыл, и когда я уже хотел "прервать", выдал эту "ошибка", но пошёл скачивать дальше!
Таймауты, да. Я могу попробовать их сократить, но не уверен, что нужно, ведь еще у кого-нибудь может быть занятый канал. А вот гифку нужно будет потестить, наверняка там имя файла формируется без расширения, если в исходник fb2 глянуть. Некрасиво получается. Поправил.
https://tl.rulate.ru/book/85945 Неизвестный HTML блок: TABLE
Поправил, смотрите выше.
выделяют реплики жирным (вот просто выделяют, нравится видать)
А еще любят разными цветами раскрашивать, как минимум а аннотации. Кстати, у меня скрипт цвета игнорирует.
безумные курсивы где не надо, капсы, скобки, пустые места...
Угу. Переносов куча. А еще в конце каждой главы несколько переносов строк и ссылка на главу. Но это, похожу, уже сам сайт добавляет.
В общем пока все. Что еще не доделал сделаю позже. Сейчас выложу то, что уже пофиксил. Останется только решить с мультиобложками и ошибки загрузки по причине CORS.
Ox90, как всегда, мощно! Спасибо за оперативность и, ну вы и так всё знаете.
Сначала выпороть
Школа их пороть должна была. Ну там все эти домашние задания, оценки, диктанты/изложения. Экзамены. Для подростка порка по сути и есть, учитывая, что хочется другого и прямо сейчас, но. Н-да.
Это типа как рассказы на АТ?
Они самые. Я тоже не встречал; собственно, вроде же Рулейт такому прямо противоречит по сущности своей? Я думаю тогда, просто не обращайте внимания на такие теоретические одноглавки.
Можно попробовать сунуть все доступные, возможно книжки это даже отобразят. Или вы считаете, что лучше таки в конец книги, типа доп.материалов?
Тут, конечно, двояко. Раньше сказал бы, что Доп.материалы в конце - то, что доктор прописал. А теперь, когда я осознал, что они лепят картинки в аннотации и это нормально, то даже и не знаю. Можно их тоже в начало, впереди всего текста? Ну и да, получается тоже в аннотацию?..
В стандарте... а ведь в стандарте fb2 разрешено иметь несколько обложек.
Так то в стандарте. Точно лучше и дешевле не извращаться, мало ли у кого какие читалки и как глючат. Одна обложка, затем уже картинки. Аннотация, если на Рулейте так принято. А может, этакий Пролог сразу после аннотации и ДО всего текста?
В общем и целом, главное - скачать все картинки и поместить их в файл. А куда конкретно - как вам удобнее.
Если я правильно помню, twimg был заблочен.
Ага, значит эти потоптались. Думаю, редкий случай, а вообще по ситуации - я уже понял из вашего ответа ниже, что можно просто подождать и тогда скрипт пойдёт скачивать дальше, а не остановится намертво.
Таймауты, да. Я могу попробовать их сократить, но не уверен, что нужно
Я тоже не уверен. Пусть лучше будет как сейчас. Тут, наверное, что точно нужно - как-то наглядно сделать поведение скрипта. Если он точно стопорится - то это однозначный стоп и его видно. А если задумался, но скорее всего пойдёт дальше - как-то показать? Но как-то не представляю, как и что тут можно сделать...
А еще любят разными цветами раскрашивать
Ради бога, не копайте в ту сторону. Жирный, курсив и т.п. - всё, что нужно. Переусложнять скрипт для "низачем" - ну такое себе.
и ссылка на главу. Но это, похожу, уже сам сайт добавляет.
Вот, кстати, да. Можно её как-то убирать? Или в принципе не надо? Но это ж по идее строго самая последняя строка в каждой главе, и даже если автор что-нибудь значимое сам в конце разместит, да ту же ссылку какую, сайт автоматом сделает её предпоследней, и на последней разместит вот это вот свой адрес. Раздражает, вообще говоря...
Ну, вроде всё. Я походу отдохну от этого рулейта месяцок-другой, а то набрался впечатлений вчера по самые те самые. Ну их.
С уважением,
я (а кто ещё-то?).
Мультиобложку - реализовал. Картинки из вашей второй ссылки теперь грузятся, я переписал загрузчик. Насчет ссылки - по мне так нужно вырезать. Для себя я объясняю так: скрипт предназначен для выгрузки авторского контента, а это точно не он. Пока не реализовал. Забыл, если честно.
p.s. Про цвета не пугайтесь - и в мыслях не было это реализовывать. Просто упомянул как пример зашквара.
На чём споткнулся скрипт.
Брал прямо с главной страницы, скачивая по порядку.
https://tl.rulate.ru/book/92407
Для посторонних, пропустивших обсуждения: вот эта часть - Авторы: нет Не найдена информация об авторах - в остальных случаях скрипт скачивает нормально, это не ошибка в данном и подобных случаях (и на Ридли та же фигня, все знают, почему - и зачем эти скрипты вообще).
Итак, лог:
Название: Marvel: I look at the battle and get attributes / Марвел: Я смотрю на битву и получаю атрибуты
Авторы: нет
Не найдена информация об авторах
Жанры: не реализовано
Теги: 4
Последнее обновление: n/a
Выбрано глав: 15
Загрузка обложки... ok
Размер обложки: 178015 байт
Тип обложки: image/jpeg
Анализ аннотации... ошибка!
Неизвестный HTML блок: DIV
Закрыт
https://tl.rulate.ru/book/90394
Целиком скачалось, но тут автор за каким-то хреном запихнул две картинки в аннотацию - их скрипт не скачать ([ image1 ]
[ image2 ])
Название: Марвел 11: Система суперсолдата / Марвел 11: Система суперсолдата
Авторы: 1
Жанры: не реализовано
Теги: 6
Последнее обновление: n/a
Выбрано глав: 20
Загрузка обложки... ok
Размер обложки: 307657 байт
Тип обложки: image/jpeg
Анализ аннотации... ok
Загрузка изображения... ошибка!
Загрузка изображения... ошибка!