Opened 7 years ago

Last modified 7 years ago

#297 closed баг

Перезапуск по Watchdog — at Version 8

Reported by: san Owned by: alx
Priority: высокий Milestone: 1 очередь
Component: sw Keywords:
Cc: andrey, vlad

Description (last modified by san)

В последнее время участились случаи перезапусков блоков по WD, похоже на системную проблему.
Не хочется всё мешать в кучу, но создавать отдельный тикет на каждый WD reset, мне кажется не разумно, предлагаю обсуждать случаи непонятных WD reset-ов в этой теме.

Проделал одинаковые действия с двумя блоками последовательно, на обоих получил перезапуск по ватчдогу.
Действия

  1. На вкладке разное, нажал на значок "очистить конфиг" и согласился на перезапуск swd.
  2. Зашел в окно конфигурации платы SM-01 на 16-м месте, настроил плату, нажал применить и согласился на перезапуск.
  3. После перезапуска SM или во время, точно не заметил, swd перезапустился по ватчдогу
  • Перезапуски в 17-05 и 17-09 23.10.2017 (Время Екб.)
  • r1607
  • Логи с блоков разместил в xchange\alx\SW-01_test_and_bugs\перезапуск_WD\на_столе\

Change History (8)

comment:1 by alx, 7 years ago

Проделал описанную процедуру много раз. Воспроизвести перезапуск платы не удалось. Вероятно, в описании упущены какие-то существенные детали.

Саша, можешь уточнить свои действия, чтобы удалось воспроизвести ситуацию?

comment:2 by alx, 7 years ago

Только сейчас заметил одну странность. Вот фрагмент лога моего эксперимента:

Oct 25 10:12:53 sw01 daemon.info swd[561]: New board SM-01 in slot 16
Oct 25 10:12:54 sw01 daemon.info swd[561]: New board FS-08 in slot 11
Oct 25 10:13:12 sw01 daemon.info swd[561]: admin from [192.168.0.75]: writing variable(s) to slot 16
Oct 25 10:13:13 sw01 daemon.info swd[561]: admin from [192.168.0.75]: writing variable(s) to slot 16
Oct 25 10:13:14 sw01 daemon.info swd[561]: slot 16: board SM-01 lost in space
Oct 25 10:13:35 sw01 daemon.info swd[561]: New board SM-01 in slot 16
Oct 25 10:13:40 sw01 daemon.info swd[561]: slot 16: start alarm E1: LOS (нет входного сигнала)
Oct 25 10:13:40 sw01 daemon.info swd[561]: slot 16: start alarm DSLA: LOS (нет входного сигнала)
Oct 25 10:13:40 sw01 daemon.info swd[561]: slot 16: start alarm DSLB: LOS (нет входного сигнала)
Oct 25 10:13:42 sw01 daemon.info swd[561]: slot 16: start alarm ALARM (Общая авария платы)

А вот фрагмент лога, зафиксировавшего перезапуск по WDT:

Oct 23 12:04:19 sw01 daemon.info swd[1483]: starting swd-r1607
Oct 23 12:04:19 sw01 daemon.info swd[1483]: current storage database version is 1
Oct 23 12:04:19 sw01 daemon.info swd[1483]: zabbix-agent.cpp:735: Zabbix agent started
Oct 23 12:04:19 sw01 daemon.info swd[1483]: Current FPGA revision is 9
Oct 23 12:04:19 sw01 daemon.info swd[1483]: current logins database version is 2
Oct 23 12:04:19 sw01 daemon.info swd[1483]: my address is 9
Oct 23 12:04:19 sw01 daemon.info swd[1483]: HTTP daemon started
Oct 23 12:04:19 sw01 daemon.info swd[1483]: HTTP IPv6 daemon started
Oct 23 12:04:19 sw01 daemon.err swd[1483]: cannot start HTTPS IPv4 daemon
Oct 23 12:04:19 sw01 daemon.err swd[1483]: cannot start HTTPS IPv6 daemon
Oct 23 12:04:19 sw01 daemon.info swd[1483]: New board SW-01 in slot 9
Oct 23 12:04:19 sw01 daemon.info swd[1483]: slot 03: switching to CRC32 mode
Oct 23 12:04:20 sw01 daemon.info swd[1483]: New board VE-01 in slot 3
Oct 23 12:04:21 sw01 daemon.info swd[1483]: New board PS-220D in slot 18
Oct 23 12:04:21 sw01 daemon.info swd[1483]: New board TE-01 in slot 15
Oct 23 12:04:21 sw01 daemon.info swd[1483]: New board SM-01 in slot 16
Oct 23 12:04:21 sw01 daemon.info swd[1483]: slot 16: start alarm ALARM (Общая авария платы)
Oct 23 12:04:21 sw01 daemon.info swd[1483]: New board PD-04 in slot 2
Oct 23 12:04:21 sw01 daemon.info swd[1483]: New board PE-04 in slot 1
Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 163 ms
Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 133 ms
Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 102 ms
Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 132 ms
Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 145 ms
Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 130 ms
Oct 23 12:04:24 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 164 ms
Oct 23 12:04:24 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 171 ms
Oct 23 12:04:27 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 139 ms
Oct 23 12:04:27 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 128 ms
Oct 23 12:04:27 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 129 ms
Oct 23 12:04:28 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 110 ms
Oct 23 12:04:28 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 104 ms
Oct 23 12:04:52 sw01 daemon.info swd[1483]: slot 16: start alarm DSLB: LOS (нет входного сигнала)
Oct 23 12:04:53 sw01 daemon.info swd[1483]: slot 16: start alarm DSLA: LOS (нет входного сигнала)
Oct 23 12:05:57 sw01 syslog.info syslogd started: BusyBox v1.18.5

Странно, но в логе нет записи о записи в плату SM-01! Это, мне кажется, противоречит пункту 2 описания тикета...

comment:3 by alx, 7 years ago

Ага, нашел в логе запись в плату SM-01:

Oct 23 12:07:16 sw01 daemon.info swd[254]: admin from [192.168.1.237]: writing variable(s) to slot 16
Oct 23 12:07:21 sw01 daemon.info swd[254]: admin from [192.168.1.237]: writing variable(s) to slot 16
Oct 23 12:07:22 sw01 daemon.info swd[254]: slot 16: board SM-01 lost in space
Oct 23 12:07:42 sw01 daemon.info swd[254]: New board SM-01 in slot 16
Oct 23 12:07:48 sw01 daemon.info swd[254]: slot 16: start alarm DSLA: LOS (нет входного сигнала)
Oct 23 12:07:48 sw01 daemon.info swd[254]: slot 16: start alarm DSLB: LOS (нет входного сигнала)
Oct 23 12:07:49 sw01 daemon.info swd[254]: slot 16: start alarm ALARM (Общая авария платы)
Oct 23 12:08:05 sw01 daemon.info swd[254]: slot 16: end alarm DSLA: LOS (нет входного сигнала) (duration 17 s)
Oct 23 12:08:05 sw01 daemon.info swd[254]: slot 16: start alarm DSLA: RemA (авария удаленной стороны)
Oct 23 12:08:07 sw01 daemon.info swd[254]: slot 16: end alarm DSLB: LOS (нет входного сигнала) (duration 19 s)
Oct 23 12:08:07 sw01 daemon.info swd[254]: slot 16: start alarm DSLB: RemA (авария удаленной стороны)
Oct 23 12:08:15 sw01 daemon.info swd[254]: admin from [192.168.1.237]: sound disabled
Oct 23 12:08:22 sw01 daemon.info swd[254]: slot 16: end alarm DSLA: RemA (авария удаленной стороны) (duration 17 s)
Oct 23 12:08:24 sw01 daemon.info swd[254]: slot 16: end alarm DSLB: RemA (авария удаленной стороны) (duration 17 s)
Oct 23 12:08:25 sw01 daemon.info swd[254]: slot 16: end alarm ALARM (Общая авария платы) (duration 36 s)

На этом лог закончился. Вывод: судя по логу, запись конфигурации в плату SM-01 и ее последующий рестарт к перезагрузке платы SW-01 не приводили.

comment:4 by alx, 7 years ago

В другом логе (192.168.1.251) я вижу, что, действительно, за записью в плату SM-01 последовал рестарт SW-01 по WDT.

comment:5 by san, 7 years ago

Теперь я сомневаюсь.
Судя по логу 1.102 и правда записи в SM-01 не было...

comment:6 by alx, 7 years ago

Из лога 192.168.1.251 видно, что после рестарта SM-01 плата появилась, заработала (начала выдавать аварии), и после этого прошло больше 4 минут прежде чем SW-01 ушла в перезагрузку. Так что я сомневаюсь в том, что рестарт SM-01 мог быть непосредственной причиной.

С другой стороны, рассматривая другие логи, я уже замечал, что перезагрузке SW-01 по WDT часто предшествует появление сообщения об аварии в плате SM-01, а точнее, не аварии, а извещения об аварии удаленной стороны (DSLA: RemA). В данном случае в блоке (192.168.1.251) они есть, хотя к моменту перезагрузки они успели закончиться...

comment:7 by san, 7 years ago

Сделал в веб-морде перезапуск swd, в результате получил WD reset.
27.11.2017 - 11:34
r1636
лог: attachment:messages_1.251

Last edited 7 years ago by san (previous) (diff)

comment:8 by san, 7 years ago

Cc: vlad added
Description: modified (diff)
Priority: среднийвысокий

Расширил описание тикета и повысил приоритет

Note: See TracTickets for help on using tickets.