Скрипт на Python, который скачивает все материалы с сайта https://razgovor.edsoo.ru/ и раскладывает их по папкам. Выходит следующая структура:

=>=>=>

По работе скрипта

  1.  Для тех кто запускает версию .py
    1. Установить и запустить виртуальное окружение (не обязательно)
    2. Установить все библиотеки
      pip inistall -r requarement.txt
    3. Запустить сам скрипт talk_about_important_things.py
  2. Для .exe достаточно просто запустить исполняемый файл
  3. В обоих случаях рядом с запущенным файлом появится папка talk_about_important_things и в ней уже будут лежать структура, как на скринах выше
  4. Также появится файл talk_about.log куда будет записываться все действия, успешные — имеют статус Info,  с ошибками — Error

Доп. функционал

  1. После скачивания файла можно получать уведомления от телеграмм бота, для этого нужно:
    1. Создать телеграмм бота и получить token.
    2. Получить chat_id с этим ботом
      Как получить token и chad_id
  2. После скачивания разговора его можно сразу отправить на Яндекс диск, тут тоже нужно получить token
    Как получить yandex token
    Не обязательно иметь и бота и загрузку на Яндекс диск, можно использовать что-то одно
  3. После того как получены нужные данные, то рядом со скриптом или исполняемым файлом нужно создать файл .env (с помощью текстового редактора). Со следующим содержимым
    Содержимое файла .env
    BOT_TOKEN = 'в апострофы вставляем token bot'
    CHAT_ID='в апострофы вставляем chat_id '
    YA_TOKEN='в апострофы вставляем token приложения Яндекс'
    rocs

Тест

На слабом ноуте, у которого всегда в 99% занят hdd. На получении 11 разговоров ушло 13 минут это без закачки на диск. С загрузкой на диск время работы существенно увеличится(точное время не измерял). Но если докачивать по 1шт, то на весь процесс уходит 5-6 минут

Как экономить место на диске

Чтобы заново не запускалось скачивание прошедших уроков и при этом не занимать ими место на диске, то необходимо удалить содержимое папки с уроком, а саму папку оставить.

Как у меня сейчас это работает

Данный скрипт лежит на ПК с ubuntu сервер. В cron прописана задача, что каждый день в 23.00 скрипт запускается и проверяет обновления на странице. Далее приходит уведомление от бота в ТГ, что появилась новая тема, после скрипт отправляет папку на Яндекс диск и снова получаю уведомление в ТГ, что папка загружена на диск

Скачать исходник

Скачать исполняемый файл

 

По вопросам, предложениям, ошибкам писать @p1grishin

Обновлено 17.11.2023

 


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *