Opened 4 months ago

Closed 4 months ago

Last modified 3 months ago

#702 closed задача (готово)

Перезапуск по Watchtog

Reported by: san Owned by: alx
Priority: высокий Milestone: 1 очередь
Component: sw Keywords:
Cc:

Description

У пользователя в сети несколько блоков периодически перезапускаются по Watchdog.
Он выслал логи и просит помочь определить причину перезапусков.
Логи блоков здесь:
xchange\alx\Test_and_bugs\перезапуск_WD\Горназоводск24\

Change History (3)

comment:1 by alx, 4 months ago

Resolution: готово
Status: newclosed

Плата SW-01 с адресом 192.168.20.34

В логах за период с 23 января по 25 июля обнаружена одна перезагрузка по причине watchdog reset. Этой перезагрузке непосредственно предшествовало сообщение об Aignment trap:

Alignment trap: swd (11618) PC=0x00050d14 Instr=0xe5962000 Address=0x61316562 FSR 0x001

Alignment trap - это исключение, возникающее при попытке обратиться к памяти с нарушением выравнивания (например попытке прочитать из памяти слово по нечетному адресу). В данном конкретном случае, видимо, была попытка прочитать или записать 32-битное слово, и при этом адрес не был кратен четырем. Причиной подобного может быть как программная ошибка, так и аппаратный сбой.

Результатом возникновения такого исключения является аварийное завершение процесса swd, которое, в свою очередь, приводит к срабатыванию таймера watchdog и последующей перезагрузке.

В процессе анализа замечены следующие необычные обстоятельства:

  • ПО платы ОЧЕНЬ старое! Пакет sw имеет ревизию 1682, которая устарела 6 лет назад! Я впервые вижу, как кто-либо эксплуатирует настолько устаревшее ПО...
  • Весь лог заполнен сообщениями о невозможности соединиться с сервером Zabbix (no route to host). Предположительно причиной является ошибка в настройке сети и/или сервера Zabbix. Удивляет, что эта проблема не была решена в течение, как минимум, 7 месяцев (за все это время оператор ни разу не заглянул в логи?).
  • В логе часто встречаются сообщения о том, что HTTP севреру не хватило памяти для приема заголовков запроса от клиента. Это наводит на мысль о какой-то ошибке в сети (лимит памяти сервера, если не ошибаюсь, 32 килобайта, и трудно представить, чтобы заголовок нормального запроса HTTP превысил или даже приблизился к такому размеру). Предположительно к плате обращается какая-то неверно настроенная или содержащая ошибки программа.

Плата SW-01 с адресом 192.168.20.35

В логах за период с 23 мая по 25 июля обнаружена одна перезагрузка по причине watchdog reset. Как и в плате с адресом 192.168.20.34, этой перезагрузке непосредственно предшествовало сообщение об Aignment trap.

Результатом возникновения такого исключения является аварийное завершение процесса swd, которое, в свою очередь, приводит к срабатыванию таймера watchdog и последующей перезагрузке.

В процессе анализа замечены следующие необычные обстоятельства:

  • ПО платы ОЧЕНЬ старое! Такое же старое, как и в плате с адресом 192.168.20.34.
  • Как и в плате с адресом 192.168.20.34, весь лог заполнен сообщениями о невозможности соединиться с сервером Zabbix (no route to host).

Плата SW-01 с адресом 192.168.20.36

В логах за период с 7 февраля по 25 июля обнаружено девять перезагрузок по причине watchdog reset. Однако все перезагрузки произошли в период с 23 по 25 июля. В трех из этих случаев перезагрузке непосредственно предшествовало сообщение об Aignment trap. В остальных случаях по косвенным признакам можно предположить, что также имело место аварийное завершение процесса swd, однако записи о его причине в логе нет. Наиболее вероятной причиной подобного аварийного завершения является программная ошибка.

Аварийные завершения процесса swd привели к срабатываниям таймера watchdog и последующим перезагрузкам платы.

Концентрация всех девяти перезагрузок в интервале трех дней наводит на мысль о том, что в районе 23 июля произошли какие-то изменения условий эксплуатации платы (например увеличился трафик в сети, интенсивность запросов к плате, изменились какие-то настройки), однако предположить, что именно могло измениться, на основании записей в логе не представляется возможным.

В процессе анализа замечены следующие необычные обстоятельства:

  • ПО платы ОЧЕНЬ старое! Такое же старое, как и в платах с адресами 192.168.20.34 и 192.168.20.35.
  • Как и в платах с адресами 192.168.20.34 и 192.168.20.35, весь лог заполнен сообщениями о невозможности соединиться с сервером Zabbix (no route to host).
  • Как и в плате с адресом 192.168.20.34, в логе часто встречаются сообщения о том, что HTTP серверу не хватило памяти для приема заголовков запроса от клиента.
  • в логе регулярно встречаются записи о том, что пользователь minitoging записывает конфигурацию в платы SM-02, однако в логе нет записей о последующем рестарте платы (пропадании и последующем появлении платы в блоке), хотя для применения записанной в плату конфигурации требуется выполнить рестарт платы.

Рекомендации пользователю

  • Обновить ПО всех плат SW-01.
  • Выяснить причину недоступности сервера Zabbix и либо устранить ее, либо, если по каким-либо причинам это невозможно, деактивировать или удалить в платах SW-01 данный сервер в конфигурации агентов Zabbix.
  • Постараться выяснить источник и содержание HTTP запросов, вызывающих вывод в лог сообщений о слишком большом размере заголовков запроса. По возможности устранить эту проблему - правильно настроить или отключить отправляющий запросы клиент, или, если по каким-либо причинам это невозможно, заблокировать получение данных запросов средствами коммутатора платы SW-01.
  • Продолжить наблюдение за поведением плат. В случае продолжения перезагрузок предоставить новые логи для продолжения анализа.

comment:2 by san, 4 months ago

в логе регулярно встречаются записи о том, что пользователь monitoging записывает конфигурацию в платы SM-02, однако в логе нет записей о последующем рестарте платы (пропадании и последующем появлении платы в блоке), хотя для применения записанной в плату конфигурации требуется выполнить рестарт платы.

Поясню, что это пользователь нажимает кнопку Опрос в окне платы.

comment:3 by san, 3 months ago

Пользователь сообщил, что после обновления ПО плат проблема перестала воспроизводиться.

Note: See TracTickets for help on using tickets.