dog has been damaged check overclocking settings что делать

7 распространенных ошибок, которые нужно проверить при отладке DAG-файлов Airflow

Задачи не выполняются? DAG не работает? Журналы не находятся? У нас были те же самые проблемы. Вот список распространенных ошибок и некоторые соответствующие исправления, которые следует учитывать при отладке развертывания Airflow.

Apache Airflow стал ведущим планировщиком задач с открытым исходным кодом практически для любого вида работы, от обучения модели машинного обучения до общей оркестровки ETL. Это невероятно гибкий инструмент, который, как мы можем сказать по опыту, поддерживает критически важные проекты как для стартапов из пяти человек, так и для команд из списка Fortune 50.

С учетом сказанного, тот самый инструмент, который многие считают мощным «чистым холстом», может быстро стать обоюдоострым мечом, если вы только начинаете. И, к сожалению, нет особенно огромного богатства ресурсов и лучших практик на шаг или два выше базовых основ Apache Airflow.

Стремясь максимально заполнить этот пробел, мы собрали некоторые из наиболее распространенных проблем, с которыми сталкивается почти каждый пользователь, независимо от того, насколько опытна и многочисленна его команда. Независимо от того, являетесь ли вы новичком в Airflow или опытным пользователем, ознакомьтесь с этим списком распространенных ошибок и некоторыми соответствующими исправлениями, которые следует учитывать.

1. Ваш DAG не работает в необходимое время

Вы написали новый DAG, который должен запускаться каждый час. Вы устанавливаете почасовой интервал, начинающийся сегодня в 14:00, и устанавливаете напоминание, чтобы проверить его через пару часов. Вы проверяете его в 15:30 и обнаруживаете, что хотя ваш DAG действительно работал, в ваших журналах указано, что существует только одна записанная дата выполнения на 14:00. А что происходило в 3 часа дня?

Прежде чем вы перейдете в режим debug (вы не будете первым), будьте уверены, что это вполне ожидаемое поведение. Функциональность планировщика Airflow немного противоречит здравому смыслу (и вызывает некоторые разногласия в сообществе Airflow), но вы освоитесь. Две вещи:

2. Одна из ваших DAG не работает

Если рабочие процессы в вашем развертывании обычно выполняются без сбоев, но вы обнаруживаете, что один конкретный DAG не планирует задачи и не запускается вообще, это может иметь какое-то отношение к тому, как вы настроили ее для расписания.

Для выполнения DAG start_date должен быть временем в прошлом, иначе Airflow будет считать, что он еще не готов к выполнению. Когда Airflow оценивает ваш DAG, он интерпретирует datetime.now() как текущую метку времени (т.е. НЕ время в прошлом) и решает, что он не готов к запуску. Поскольку это будет происходить каждый раз, когда пульс Airflow будет оценивать ваш DAG каждые 5-10 секунд, он никогда не запустится.

Чтобы правильно запустить DAG, обязательно ставьте фиксированное время в прошлом (например, datetime(2019,1,1) ) и установите catchup=False (если вы не хотите запускать обратную засыпку).

3. Вы видите ошибку 503 при развертывании

Если вы переходите к развертыванию Airflow только для того, чтобы понять, что ваш экземпляр полностью недоступен через веб-браузер, скорее всего, это как-то связано с вашим веб-сервером.
Если вы уже обновили страницу один или два раза и продолжаете видеть ошибку 503, прочтите ниже некоторые рекомендации, связанные с веб-сервером.

Ваш веб-сервер может дать сбой

Ошибка 503 обычно указывает на проблему веб-сервера (или проблему deployment в kubernetes), основным компонентом Airflow, отвечающим за отображение состояния задачи и журналов выполнения задач в интерфейсе Airflow. Если по какой-либо причине у него недостаточно мощности или иным образом возникла проблема, это может повлиять на время загрузки пользовательского интерфейса или доступность веб-браузера.

По нашему опыту, ошибка 503 часто указывает на то, что ваш веб-сервер дает сбой (например, в Astronomer в kubernetes это называется состоянием CrashLoopBackOff ). Если вы запускаете deployment в kubernetes, и вашему веб-серверу по какой-либо причине требуется больше нескольких секунд для запуска, он может не достичь периода ожидания (10 секунд по умолчанию), в котором он вылетит, прежде чем он успеет развернуться. Это вызывает повторную попытку, которая снова дает сбой и так далее.

Если ваше deployment находится в этом состоянии, возможно, ваш веб-сервер достигает предела памяти при загрузке ваших DAG (даже если ваши рабочие и планировщик продолжают выполнять задачи, как ожидалось).

Несколько замечаний

Вы пытались увеличить ресурсы своего веб-сервера?
Airflow 1.10 немного жаднее, чем Airflow 1.9, в отношении ЦП (использования памяти), поэтому мы видели недавний всплеск количества пользователей, сообщающих о 503-х ошибках. Помогает быстрое увеличение ресурсов, выделенных вашему веб-серверу.
Если вы используете Astronomer, мы рекомендуем поддерживать размер веб-сервера на отметке минимум 5 AU (Astronomer Units).

Вы делаете запросы вне оператора?
Если вы выполняете вызовы API, запросы JSON или запросы к базе данных за пределами оператора с высокой частотой, вероятность тайм-аута вашего веб-сервера гораздо выше.
Когда Airflow интерпретирует файл для поиска любых допустимых DAG, он сначала немедленно запускает весь код на верхнем уровне (то есть вне операторов). Даже если сам оператор выполняется только во время выполнения, все, что вызывается вне оператора, вызывается при каждом такте, что может быть довольно утомительным.
Мы бы порекомендовали взять логику, которую вы в настоящее время выполняете вне оператора, и по возможности переместить ее внутрь оператора Python.

4. Задачи тасков периодически не работают

Это подводит нас к общей передовой практике, которую мы начали применять.

Будьте осторожны при использовании Sensors

Если вы используете Airflow 1.10.1 или более раннюю версию, датчики работают непрерывно и постоянно занимают слот для задач, пока не найдут то, что ищут, поэтому они имеют тенденцию вызывать проблемы с параллелизмом. Если у вас действительно никогда не бывает более нескольких задач, выполняемых одновременно, мы рекомендуем избегать их, если вы не знаете, что они не займут слишком много времени для выхода.

Например, если работник может одновременно запускать только X задач, а у вас работает три датчика (sensors?), то вы сможете запускать только X-3 задачи в любой заданный момент. Имейте в виду, что если вы постоянно используете датчик (sensors?), это ограничивает то, как и когда может произойти перезапуск планировщика (иначе датчик (sensors?) выйдет из строя).

В зависимости от вашего варианта использования мы предлагаем рассмотреть следующее:

Создайте DAG, который запускается с более частым интервалом.
Возможно, что задан тычок — и пропускает последующие задачи, если файл не найден.

2. Триггер лямбда-функции

5. Задачи выполняются, но становятся бутылочным горлышком

Если все выглядит так, как ожидалось, но вы обнаруживаете, что ваши задачи становятся бутылочным горлышком, мы рекомендуем внимательнее присмотреться к двум вещам: Ваши переменные Env и конфигурации, связанные с параллелизмом + ваши ресурсы Worker и Scheduler.

1. Проверьте свои переменные Env и связанные с параллелизмом (Concurrency) конфигурации

Какие именно эти значения должны быть установлены (и что может стать потенциальным узким местом), зависит от вашей настройки — например, вы запускаете несколько DAG одновременно или один DAG с сотнями одновременных задач? С учетом сказанного, их точная настройка, безусловно, может помочь решить проблемы с производительностью. Вот список того, что вы можете найти:

1. Параллелизм (параллелизм)

Это определяет, сколько экземпляров задач может активно выполняться параллельно (parallel) в нескольких DAG с учетом ресурсов, доступных в любой момент времени на уровне развертывания. Думайте об этом как о «максимально активных задачах в любом месте».

2. Concurrency DAG (dag_concurrency)

Это определяет, сколько экземпляров задач ваш планировщик может запланировать одновременно для каждой DAG. Думайте об этом как о «максимальном количестве задач, которые можно запланировать за один раз для каждой DAG».

3. Количество слотов задач без пула (Nonpooledtaskslotcount)

Когда пулы не используются, задачи запускаются в «пуле по умолчанию», размер которого определяется этим элементом конфигурации.

4. Максимальное количество активных запусков на DAG (maxactiverunsperdag)

Это говорит само за себя, но он определяет максимальное количество активных запусков DAG на DAG.

5. Concurrency воркеров (worker_concurrency)

Это определяет, сколько задач каждый воркер может запускать в любой момент времени. Например, CeleryExecutor по умолчанию будет одновременно выполнять не более 16 задач. Думайте об этом как о «Сколько задач каждый из моих воркеров может взять на себя в любой момент времени».

6. Параллелизм (параллелизм)

Совет от профессионала: если вы рассматриваете возможность установить низкое число конфигураций параллелизма на уровне DAG или развертывания для защиты от ограничений скорости API, мы рекомендуем вместо этого использовать «пулы» — они позволят вам ограничить параллелизм на уровне задачи и выиграть t, ограничивать планирование или выполнение за пределами задач, которые в этом нуждаются.

2. Попробуйте увеличить масштаб планировщика или добавить воркера

Если задачи становятся узкими местами и все ваши конфигурации concurrency выглядят нормально, возможно, ваш Планировщик недостаточно мощный или ваше развертывание (deployment) может использовать другого воркера. Если вы используете Astronomer, мы обычно рекомендуем 5 AU в качестве минимума по умолчанию для Scheduler и 10 AU для ваших рабочих Celery, если они у вас есть.

Увеличите ли вы свои текущие ресурсы или добавите дополнительного работника, во многом зависит от вашего варианта использования, но мы обычно рекомендуем следующее:

Для получения дополнительной информации о различиях между Executors ознакомьтесь с нашим Airflow Executors: Explained Guide.

6. У вас отсутствуют журналы

Вообще говоря, журналы не отображаются из-за процесса, который умер на одном из ваших рабочих процессов.

Вы можете увидеть что-то вроде следующего:

Несколько действий, которые стоит попробовать:

Повторите (удалите) задачу, если это возможно, чтобы увидеть, появляются ли журналы.

Это очистит / сбросит задачи и предложит снова их запустить

Измените log_fetch_timeout_sec на значение более 5 секунд (по умолчанию).

Это количество времени (в секундах), в течение которого веб-сервер будет ожидать начального рукопожатия (handshake) при получении журналов от других воркеров.

Дайте вашим воркерам немного больше прав

Если вы используете Astronomer, вы можете сделать это на вкладке Configure пользовательского интерфейса Astronomer.

Вы ищете журнал, сделанный более 15 дней назад?

Если вы используете Astronomer, период хранения журнала — это переменная среды, которую мы жестко запрограммировали на нашей платформе. На данный момент у вас не будет доступа к журналам, которым более 15 дней.

Вы можете выполнить команду в одном из своих воркеров Celery, чтобы найти там файлы журнала.

Эта функция предназначена только для корпоративных клиентов или людей, использующих Kubernetes.

Файлы журнала должны быть в

Задачи медленно планируются или вообще перестали планироваться.

Если ваши задачи выполняются медленнее, чем обычно, вы захотите проверить, как часто вы устанавливаете свой планировщик для перезапуска. К сожалению, у Airflow есть хорошо известная проблема, из-за которой производительность планировщика со временем ухудшается и требуется быстрый перезапуск для обеспечения оптимальной производительности.

Если вы используете Astronomer, вы можете перезапустить планировщик следующим образом:

Этот список основан на нашем опыте оказания помощи клиентам Astronomer в решении основных проблем с Airflow, но мы хотим услышать ваше мнение. Не стесняйтесь обращаться к нам по адресу people@astronomer.io, если мы пропустили что-то, что, по вашему мнению, было бы полезно включить.

Если у вас есть дополнительные вопросы или вы ищете поддержку Airflow от нашей команды, свяжитесь с нами здесь.

Источник

Как бороться с высоким DAG файлом на 4 ГБ видеокартах

dog has been damaged check overclocking settings что делать. Смотреть фото dog has been damaged check overclocking settings что делать. Смотреть картинку dog has been damaged check overclocking settings что делать. Картинка про dog has been damaged check overclocking settings что делать. Фото dog has been damaged check overclocking settings что делать

dog has been damaged check overclocking settings что делать. Смотреть фото dog has been damaged check overclocking settings что делать. Смотреть картинку dog has been damaged check overclocking settings что делать. Картинка про dog has been damaged check overclocking settings что делать. Фото dog has been damaged check overclocking settings что делать

dog has been damaged check overclocking settings что делать. Смотреть фото dog has been damaged check overclocking settings что делать. Смотреть картинку dog has been damaged check overclocking settings что делать. Картинка про dog has been damaged check overclocking settings что делать. Фото dog has been damaged check overclocking settings что делать

У видеокарт с 4 ГБ видеопамяти проблема в том, что размер DAG-файла уже становится слишком большим.

Операционная система Windows 10 занимает около 0,5 ГБ видеопамяти, а DAG-эпоха уже слишком велика, и программы начинают забирать память из системной памяти, поэтому скорость замедляется с 27-28 до 19-20 Mh/s.

Как уменьшить зарезервированный объем VRAM Windows 10

Существует обходной путь для борьбы с веским DAG-файлом.

Если вы активируете iGPU (внутренний gpu в вашем процессоре) и используете hdmi на материнской плате, то Windows не выделит эту память из ваших 4 ГБ видеокарт.

Если у вас нет внутренней графики на вашем процессоре, обходной путь сработает, если вы установите в качестве главной видеокарты с памятью более 4 ГБ ( или дополнительную карточку, которую вы используете только для заглушки, для отрисовки Windows, а не для майнинга ).

dog has been damaged check overclocking settings что делать. Смотреть фото dog has been damaged check overclocking settings что делать. Смотреть картинку dog has been damaged check overclocking settings что делать. Картинка про dog has been damaged check overclocking settings что делать. Фото dog has been damaged check overclocking settings что делать

Вставьте HDMI в материнскую плату, а не в видеокарту

dog has been damaged check overclocking settings что делать. Смотреть фото dog has been damaged check overclocking settings что делать. Смотреть картинку dog has been damaged check overclocking settings что делать. Картинка про dog has been damaged check overclocking settings что делать. Фото dog has been damaged check overclocking settings что делать

Подойдет любая, самая дешевая карта

Второй вариант – указать эпохи вручную

Для управления DAG-файлом и его эпохами в программах PhoenixMiner и Claymore Dual Miner существуют следующие команды:

Можно указать для отдельных карт. В настоящее время опция работает только на картах AMD

1-частичное перекрытие генерации DAG на каждой карте;

Не забудьте выставить файл подкачки на максимум. В некоторых случаях это тоже помогает.

Следующие команды только для PhoenixMiner:

Третий вариант – обновить софт

На Windows 10 4 ГБ видеокарты в данный момент еще работают. И должны работать до конца лета, если не обновятся программы.

Четвертый вариант – установить Linux

Линукс и его производные (hive os, MinerBabe и т. д.) резервируют меньше видеопамяти, чем системы на Windows (порядка 22 МБ или 128 МБ против 384 МБ). Хотя они и платные, однако это тоже может быть кратковременным решением проблемы.

Пятый вариант – добывать другие монеты

Ни единым ETH и ETC жив майнинг. И хотя Ethereum и Ethereum Classic – это лучшее, что есть на Ethash алгоритме, лучше поискать другие альткоины, чем фермы будут простаивать.

Важно сразу продавать эти монеты потому, что в отличии от ETH они могут в любой момент соскамитсья!

Шестой вариант – продать карты заранее и перезайти с 8 ГБ картами

Наиболее разумный вариант. Пока рынок оживает в преддверии халвинга BTC и рынок видеокарт не перенасыщен предложением, имеет смысл продать старые 4 ГБ карты и купить вместо них 8 ГБ.

dog has been damaged check overclocking settings что делать. Смотреть фото dog has been damaged check overclocking settings что делать. Смотреть картинку dog has been damaged check overclocking settings что делать. Картинка про dog has been damaged check overclocking settings что делать. Фото dog has been damaged check overclocking settings что делать

Обо всем этом и о многих других важных вещах мы говорили на нашем канале. Подписывайтесь, кто еще не подписался!

Источник

Что значит “Overclocking failed please enter setup to reconfigure your system”?

Иногда некоторые пользователи персональных компьютеров сталкиваются с ошибкой “overclocking failed please enter setup to reconfigure your system”, которая появляется при включении компьютера на этапе теста компонентов ПК.

В данной статье мы поговорим о возможных причинах появления данной ошибки, а также о вариантах ее устранения.

Что такое “overclocking failed please enter setup to reconfigure your system”?

Традиционно для описания ошибки более понятным языком обратимся к ее переводу на русский язык. Звучит он как “Разгон потерпел неудачу. Пожалуйста войдите в настройки BIOS и перенастройте свою систему”.

В большинстве случаев данное сообщение возникает из-за неудачной попытки разгона процессора и/или оперативной памяти компьютера. Для предотвращения выхода из строя компонентов компьютера и его нестабильной работы система предупреждает вас о необходимости отмены внесенных изменений в плане разгона компонентов ПК.

Но далеко не всегда причиной данной ошибки является разгон. Сейчас мы расскажем о других возможных вариантах.

Из-за чего появляется ошибка и как ее устранить?

Если вы что-либо разгоняли или не знаете делал ли кто- нибудь нечно подобное с вашим ПК, первым делом нужно сбросить BIOS до заводских настроек, либо извлечением батарейки с материнской платы на несколько минут, либо специальной перемычкой.

Следующим действием в устранении ошибки “Overclocking failed please enter setup to reconfigure your system” является внешний осмотр всех USB портов как на задней стенке системного блока, так и на передней, на предмет наличия в них посторонних предметов или поломок.

dog has been damaged check overclocking settings что делать. Смотреть фото dog has been damaged check overclocking settings что делать. Смотреть картинку dog has been damaged check overclocking settings что делать. Картинка про dog has been damaged check overclocking settings что делать. Фото dog has been damaged check overclocking settings что делать

Сломанный разъем USB

Короткое замыкание на корпус может вызывать появление данной ошибки на некоторых моделях материнских плат.

Далее стоит попробовать перепрошить BIOS, так как порой его повреждение приводит к отображению сообщения о неудачном разгоне.

Если ничего из вышеописанного не помогло, остается последний вариант со сдачей в ремонт материнской платы. Вышедшие из строя компоненты (конденсаторы, SMD резисторы) могут быть причиной ошибки “Overclocking failed please enter setup to reconfigure your system”.

Источник

Verify overclock stability after DAG #133

Comments

voyagerft commented Jan 10, 2021

(ethash) Verify overclock stability after DAG rebuild (Instability detected message is printed in case there are issues)

Check the stability of the overclock after the reconstruction of the DAG, it is blocking, in version 0.19.5 the cards in extreme overclocking work correctly without interruption, after the update to 0.19.7 it signals the instability for OC and freezes without starting to undermine, I think that for the interest of all, it should not be blocking, but only make a report. I had to restore 0.19.5, at the moment 0.19.7 is not reliable

The text was updated successfully, but these errors were encountered:

voyagerft commented Jan 10, 2021

Crash Not Freezes. crash and restart
continuously

trexminer commented Jan 10, 2021 •

It doesn’t stop mining, only reports about the instability. If your machine freezes there must be another reason. What cards are you using? What’s the error message when the miner restarts (printed in red). If possible please upload a screenshot or a log file. Thanks.

voyagerft commented Jan 10, 2021

the message is the same one that comes out if a graphics card crashes during mining, in red it says to lower the overclock. the problem is that the DAG creation process does not finish and the watchdog restarts t-rex, again reporting that the Asus P104-100 card has crashed due to illegal memory access, restarting indefinitely. if you lower the overclock, the t-rex starts and then you can restore the overclock as it was originally. In summary, that control of the overclock during the creation of the DAG is not much use and blocks the start of the mining, the previous version 0.19.5 works perfectly, does not give any kind of problem for days, the new version fails to start because it gives illegal access to the memory when creating the DAG and watchdog restarts t-rex indefinitely

taking a screenshot causes me to stop mining if you want more details are available, a tip eliminates the check overclock function when creating the dag

voyagerft commented Jan 10, 2021

voyagerft commented Jan 10, 2021

dog has been damaged check overclocking settings что делать. Смотреть фото dog has been damaged check overclocking settings что делать. Смотреть картинку dog has been damaged check overclocking settings что делать. Картинка про dog has been damaged check overclocking settings что делать. Фото dog has been damaged check overclocking settings что делать

voyagerft commented Jan 10, 2021

trexminer commented Jan 12, 2021

Thanks. We’ll fix it in the next version.

trexminer commented Jan 14, 2021

voyagerft commented Jan 14, 2021

Hi @trexminer I have no way to try it the miner is ethosdistro, I install the package through https://github.com/cynixx3/third-party-miner-installer-for-ethos, through the update «sudo miner-manager t-rex update» when the version is available, this in dropbox i would not know where to install it to test it, sorry

trexminer commented Jan 14, 2021

No problem, we’ll find another way to test it. Thanks.

MasterG33 commented Jan 14, 2021

Same error for me. happening every 12 hours or so since last update.

MasterG33 commented Jan 14, 2021

@trexminer let me know if there are other logs you might need or whatnot.

trexminer commented Jan 15, 2021

MasterG33 commented Jan 15, 2021

@trexminer I have been running version 19.5 for the last 4-5 hours without an issue. Last error i got was for gpu1

t-rex exited (exitcode=0), waiting to cooldown a bit

Trying to release TIME_WAIT sockets:
tcp 0 0 127.0.0.1:56504 127.0.0.1:4058 TIME_WAIT
tcp 0 0 127.0.0.1:56498 127.0.0.1:4058 TIME_WAIT

MasterG33 commented Jan 15, 2021

@trexminer this is the latest generated crash running 0.19.5
still think this is a hardware issue?
will try and run with hardware remove if you think it’s worth a try

t-rex exited (exitcode=134), waiting to cooldown a bit

Trying to release TIME_WAIT sockets:
tcp 0 0 127.0.0.1:39726 127.0.0.1:4058 TIME_WAIT
tcp 0 0 127.0.0.1:39722 127.0.0.1:4058 TIME_WAIT

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *