Opened 7 years ago
Last modified 7 years ago
#297 closed баг
Перезапуск по Watchdog — at Version 8
Reported by: | san | Owned by: | alx |
---|---|---|---|
Priority: | высокий | Milestone: | 1 очередь |
Component: | sw | Keywords: | |
Cc: | andrey, vlad |
Description (last modified by )
В последнее время участились случаи перезапусков блоков по WD, похоже на системную проблему.
Не хочется всё мешать в кучу, но создавать отдельный тикет на каждый WD reset, мне кажется не разумно, предлагаю обсуждать случаи непонятных WD reset-ов в этой теме.
Проделал одинаковые действия с двумя блоками последовательно, на обоих получил перезапуск по ватчдогу.
Действия
- На вкладке разное, нажал на значок "очистить конфиг" и согласился на перезапуск swd.
- Зашел в окно конфигурации платы SM-01 на 16-м месте, настроил плату, нажал применить и согласился на перезапуск.
- После перезапуска SM или во время, точно не заметил, swd перезапустился по ватчдогу
- Перезапуски в 17-05 и 17-09 23.10.2017 (Время Екб.)
- r1607
- Логи с блоков разместил в xchange\alx\SW-01_test_and_bugs\перезапуск_WD\на_столе\
Change History (8)
comment:1 by , 7 years ago
comment:2 by , 7 years ago
Только сейчас заметил одну странность. Вот фрагмент лога моего эксперимента:
Oct 25 10:12:53 sw01 daemon.info swd[561]: New board SM-01 in slot 16 Oct 25 10:12:54 sw01 daemon.info swd[561]: New board FS-08 in slot 11 Oct 25 10:13:12 sw01 daemon.info swd[561]: admin from [192.168.0.75]: writing variable(s) to slot 16 Oct 25 10:13:13 sw01 daemon.info swd[561]: admin from [192.168.0.75]: writing variable(s) to slot 16 Oct 25 10:13:14 sw01 daemon.info swd[561]: slot 16: board SM-01 lost in space Oct 25 10:13:35 sw01 daemon.info swd[561]: New board SM-01 in slot 16 Oct 25 10:13:40 sw01 daemon.info swd[561]: slot 16: start alarm E1: LOS (нет входного сигнала) Oct 25 10:13:40 sw01 daemon.info swd[561]: slot 16: start alarm DSLA: LOS (нет входного сигнала) Oct 25 10:13:40 sw01 daemon.info swd[561]: slot 16: start alarm DSLB: LOS (нет входного сигнала) Oct 25 10:13:42 sw01 daemon.info swd[561]: slot 16: start alarm ALARM (Общая авария платы)
А вот фрагмент лога, зафиксировавшего перезапуск по WDT:
Oct 23 12:04:19 sw01 daemon.info swd[1483]: starting swd-r1607 Oct 23 12:04:19 sw01 daemon.info swd[1483]: current storage database version is 1 Oct 23 12:04:19 sw01 daemon.info swd[1483]: zabbix-agent.cpp:735: Zabbix agent started Oct 23 12:04:19 sw01 daemon.info swd[1483]: Current FPGA revision is 9 Oct 23 12:04:19 sw01 daemon.info swd[1483]: current logins database version is 2 Oct 23 12:04:19 sw01 daemon.info swd[1483]: my address is 9 Oct 23 12:04:19 sw01 daemon.info swd[1483]: HTTP daemon started Oct 23 12:04:19 sw01 daemon.info swd[1483]: HTTP IPv6 daemon started Oct 23 12:04:19 sw01 daemon.err swd[1483]: cannot start HTTPS IPv4 daemon Oct 23 12:04:19 sw01 daemon.err swd[1483]: cannot start HTTPS IPv6 daemon Oct 23 12:04:19 sw01 daemon.info swd[1483]: New board SW-01 in slot 9 Oct 23 12:04:19 sw01 daemon.info swd[1483]: slot 03: switching to CRC32 mode Oct 23 12:04:20 sw01 daemon.info swd[1483]: New board VE-01 in slot 3 Oct 23 12:04:21 sw01 daemon.info swd[1483]: New board PS-220D in slot 18 Oct 23 12:04:21 sw01 daemon.info swd[1483]: New board TE-01 in slot 15 Oct 23 12:04:21 sw01 daemon.info swd[1483]: New board SM-01 in slot 16 Oct 23 12:04:21 sw01 daemon.info swd[1483]: slot 16: start alarm ALARM (Общая авария платы) Oct 23 12:04:21 sw01 daemon.info swd[1483]: New board PD-04 in slot 2 Oct 23 12:04:21 sw01 daemon.info swd[1483]: New board PE-04 in slot 1 Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 163 ms Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 133 ms Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 102 ms Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 132 ms Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 145 ms Oct 23 12:04:23 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 130 ms Oct 23 12:04:24 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 164 ms Oct 23 12:04:24 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 171 ms Oct 23 12:04:27 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 139 ms Oct 23 12:04:27 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 128 ms Oct 23 12:04:27 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 129 ms Oct 23 12:04:28 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 110 ms Oct 23 12:04:28 sw01 daemon.warn swd[1483]: --> timer callback scheduled from board_SW.cpp:227 executed 104 ms Oct 23 12:04:52 sw01 daemon.info swd[1483]: slot 16: start alarm DSLB: LOS (нет входного сигнала) Oct 23 12:04:53 sw01 daemon.info swd[1483]: slot 16: start alarm DSLA: LOS (нет входного сигнала) Oct 23 12:05:57 sw01 syslog.info syslogd started: BusyBox v1.18.5
Странно, но в логе нет записи о записи в плату SM-01! Это, мне кажется, противоречит пункту 2 описания тикета...
comment:3 by , 7 years ago
Ага, нашел в логе запись в плату SM-01:
Oct 23 12:07:16 sw01 daemon.info swd[254]: admin from [192.168.1.237]: writing variable(s) to slot 16 Oct 23 12:07:21 sw01 daemon.info swd[254]: admin from [192.168.1.237]: writing variable(s) to slot 16 Oct 23 12:07:22 sw01 daemon.info swd[254]: slot 16: board SM-01 lost in space Oct 23 12:07:42 sw01 daemon.info swd[254]: New board SM-01 in slot 16 Oct 23 12:07:48 sw01 daemon.info swd[254]: slot 16: start alarm DSLA: LOS (нет входного сигнала) Oct 23 12:07:48 sw01 daemon.info swd[254]: slot 16: start alarm DSLB: LOS (нет входного сигнала) Oct 23 12:07:49 sw01 daemon.info swd[254]: slot 16: start alarm ALARM (Общая авария платы) Oct 23 12:08:05 sw01 daemon.info swd[254]: slot 16: end alarm DSLA: LOS (нет входного сигнала) (duration 17 s) Oct 23 12:08:05 sw01 daemon.info swd[254]: slot 16: start alarm DSLA: RemA (авария удаленной стороны) Oct 23 12:08:07 sw01 daemon.info swd[254]: slot 16: end alarm DSLB: LOS (нет входного сигнала) (duration 19 s) Oct 23 12:08:07 sw01 daemon.info swd[254]: slot 16: start alarm DSLB: RemA (авария удаленной стороны) Oct 23 12:08:15 sw01 daemon.info swd[254]: admin from [192.168.1.237]: sound disabled Oct 23 12:08:22 sw01 daemon.info swd[254]: slot 16: end alarm DSLA: RemA (авария удаленной стороны) (duration 17 s) Oct 23 12:08:24 sw01 daemon.info swd[254]: slot 16: end alarm DSLB: RemA (авария удаленной стороны) (duration 17 s) Oct 23 12:08:25 sw01 daemon.info swd[254]: slot 16: end alarm ALARM (Общая авария платы) (duration 36 s)
На этом лог закончился. Вывод: судя по логу, запись конфигурации в плату SM-01 и ее последующий рестарт к перезагрузке платы SW-01 не приводили.
comment:4 by , 7 years ago
В другом логе (192.168.1.251) я вижу, что, действительно, за записью в плату SM-01 последовал рестарт SW-01 по WDT.
comment:5 by , 7 years ago
Теперь я сомневаюсь.
Судя по логу 1.102 и правда записи в SM-01 не было...
comment:6 by , 7 years ago
Из лога 192.168.1.251 видно, что после рестарта SM-01 плата появилась, заработала (начала выдавать аварии), и после этого прошло больше 4 минут прежде чем SW-01 ушла в перезагрузку. Так что я сомневаюсь в том, что рестарт SM-01 мог быть непосредственной причиной.
С другой стороны, рассматривая другие логи, я уже замечал, что перезагрузке SW-01 по WDT часто предшествует появление сообщения об аварии в плате SM-01, а точнее, не аварии, а извещения об аварии удаленной стороны (DSLA: RemA). В данном случае в блоке (192.168.1.251) они есть, хотя к моменту перезагрузки они успели закончиться...
comment:7 by , 7 years ago
Сделал в веб-морде перезапуск swd, в результате получил WD reset.
27.11.2017 - 11:34
r1636
лог: attachment:messages_1.251
comment:8 by , 7 years ago
Cc: | added |
---|---|
Description: | modified (diff) |
Priority: | средний → высокий |
Расширил описание тикета и повысил приоритет
Проделал описанную процедуру много раз. Воспроизвести перезапуск платы не удалось. Вероятно, в описании упущены какие-то существенные детали.
Саша, можешь уточнить свои действия, чтобы удалось воспроизвести ситуацию?