Opened 3 years ago

Closed 3 years ago

#370 closed баг (готово)

Теряется связность с платой VE-02

Reported by: san Owned by: alx
Priority: высокий Milestone: 1 очередь
Component: VE-02 Keywords:
Cc:

Description

Во время настройки и проверки очередной схемы связи я обнаружил, что платы VE-02 ведут себя странно: через некоторое время нормальной работы(ничего страшного и зверского я с ними не делал) с платами теряется связность по IP.
Изменение сетевых настроек платы через веб-интерфейс во время проявления бага не даёт эффекта.

Я провожу эксперимент в блоке 192.168.20.166
На данный момент баг проявился на платах VE-02 на местах 10, 12, 14, 16
Я могу подключить консольный COM любой одной платы в TCP, сейчас COM платы в слоте 16 доступен через TCP-сервер 192.168.1.240 порт 1001

Change History (35)

comment:1 by san, 3 years ago

Кажется плата в слоте 3 тоже "сломалась", минут 10 назад я пропустил через неё чуть больше трафика, чем было - создал трафик в пределах 2Мбит/с в течении пары минут.
После этого пинг до платы стал "рваным" - она отвечает не всегда.

in reply to:  description comment:2 by alx, 3 years ago

Replying to san:

через некоторое время нормальной работы с платами теряется связность по IP.

Связность чего?

Last edited 3 years ago by alx (previous) (diff)

comment:3 by san, 3 years ago

Ну, например, для определённости, плата перестаёт отвечать на пинг её ipv4 WAN адреса.

comment:4 by alx, 3 years ago

Судя по счетчикам интерфейса платы в слоте 16 и порта коммутатора, плата "не видит" передаваемые ей пакеты.

За работу с сетевыми интерфейсами платы VE-01/VE-02 отвечает MSP. Судя по приходящим из MSP неизвестным индикациям FC=0x0132, MSP находится в каком-то странном состоянии (я подобное состояние условно называю "сошел с ума"). Предполагаю, что это как-то связано с ненормальным поведением платы. Так как код MSP нам не подконтролен, исправить этот баг мы вряд ли можем. Можно разве что попытаться его каким-то образом обнаруживать и обходить. Например при получении (одной или нескольких за определенный период времени) индикаций 0x0132 перезагружать плату.

И еще одна мысль. Платы VE-01/VE-02 производятся и используются давно, но до сих пор жалоб на подобную ситуацию не поступало. Даже в нашем офисе VE-01 работает месяцами без перезагрузок и подобных проблем. А сейчас вдруг сразу пять плат в одном блоке в течение суток пришли в такое состояние. Это наводит на мысль о том, что в этом блоке есть какой-то общий для всех плат фактор, послуживший триггером, заставившим платы перестать работать. Наверное имеет смысл попытаться выявить этот фактор.

Также замечу, что в платах не последние ревизии прошивок (25, в то время как последняя - 27), однако это вряд ли является существенным в данном случае.

Last edited 3 years ago by alx (previous) (diff)

comment:5 by san, 3 years ago

Это наводит на мысль о том, что в этом блоке есть какой-то общий для всех плат фактор, послуживший триггером, заставившим платы перестать работать. Наверное имеет смысл попытаться выявить этот фактор.

Я этот баг обнаружил ранее в других нескольких блоках, каких-то специфических факторов я не могу отметить, просто включаю плату и создаю небольшой трафик через неё.

in reply to:  3 comment:6 by alx, 3 years ago

Replying to san:

Ну, например, для определённости, плата перестаёт отвечать на пинг её ipv4 WAN адреса.

Я вообще-то хотел узнать, между чем и чем теряется связность (связность может быть между, как минимум, двумя объектами). Но позже, посмотрев на ситуацию, я понял, что, очевидно, связность потерялась между VE-02 и всем. :)

in reply to:  5 comment:7 by alx, 3 years ago

Replying to san:

каких-то специфических факторов я не могу отметить, просто включаю плату и создаю небольшой трафик через неё.

Так делают все владельцы плат, но почему-то баг воспроизводится только у тебя. :) Я думаю, какой-то фактор все-таки должен иметь место, хоть сейчас и никто не может его отметить (и даже предположить). Поэтому и хотелось бы каким-то образом его выявить. Если мы выявим этот фактор, возможно, мы сможем предпринять какие-то меры по его устранению, и, таким образом, сможем бороться с причиной проблемы, а не с ее последствием, что всегда лучше (перезагрузка платы выглядит очень уж плохо).

Last edited 3 years ago by alx (previous) (diff)

comment:8 by san, 3 years ago

Я подозреваю, что баг стал проявляться после одного из обновлений. Плат VE-02 для блок 3U не так много в природе и пользователи часто не торопятся обновляться, поэтому возможно пока никто не обнаружил проблемы.

Кстати оказалось, что я веду лог своего эксперимента :-)
Пинг от платы в 16 слоте начал прерываться вчера около 13 часов по пермскому времени,
а начиная с 12.08.2021 13:33:04 - плата совсем перестала отвечать на пинг.

Last edited 3 years ago by san (previous) (diff)

comment:9 by san, 3 years ago

Отчёт по последней плате которую я сломал сегодня.
Плата в слоте 3:
(Время в GMT+5)
До 13.08.2021 10:23:16 - стабильно отвечала на пинг
Затем я создал трафик в пределах пары мегабит к устройству подключенному к LAN и обратно
13.08.2021 10:40:28 - зафиксировал отсутствие ответа на 5 пингов подряд(такие были настройки для записи происшествия в лог)
13.08.2021 12:18:26 - плата с этого времени больше не отвечает на пинг

in reply to:  8 comment:10 by alx, 3 years ago

Replying to san:

Я подозреваю, что баг стал проявляться после одного из обновлений. Плат VE-02 для блок 3U не так много в природе и пользователи часто не торопятся обновляться, поэтому возможно пока никто не обнаружил проблемы.

VE-02 и VE-01 с сетью работают одинаково (MSP "не знает", в какой плате он работает). У меня на рабочем месте платы с последними ревизиями прошивок. В нашей АТС VE-01 тоже с последней прошивкой (в веб-интерфейсе отображается старая ревизия, но на самом деле она новая, так как я обновил вручную).

Прошивка MSP последний раз была обновлена в феврале 2017 года. С этого времени было произведено 171 плата VE-01 и 111 плат VE-02. Маловероятно, что катастрофическая проблема, возникающая в течение суток после начала работы платы, не была обнаружена в течение четырех лет...

Last edited 3 years ago by alx (previous) (diff)

comment:11 by san, 3 years ago

Моя гипотеза, что в относительно недавних обновления платы VE-02 для блока 3U мы каким то образом создали условия для воспроизведения бага MSP.

in reply to:  9 ; comment:12 by alx, 3 years ago

Replying to san:

Затем я создал трафик в пределах пары мегабит к устройству подключенному к LAN и обратно

Это уже может быть тем фактором, о котором я писал выше. В реальной жизни телефон оператора такой трафик создать вряд ли может, обычно видеопоток телефона не превышает 1 Мбит/с, а аудиопоток - 100 кбит/c. Что если попробовать воспроизвести проблему меньшим трафиком - например 512 кбит/с. Есть ли какое-то влияние скорости трафика на возникновение проблемы?

in reply to:  11 comment:13 by alx, 3 years ago

Replying to san:

Моя гипотеза, что в относительно недавних обновления платы VE-02 для блока 3U мы каким то образом создали условия для воспроизведения бага MSP.

Прошивку какой ревизии ты хотел бы проверить?

in reply to:  12 ; comment:14 by san, 3 years ago

Replying to alx:

В реальной жизни телефон оператора такой трафик создать вряд ли может, обычно видеопоток телефона не превышает 1 Мбит/с, а аудиопоток - 100 кбит/c. Что если попробовать воспроизвести проблему меньшим трафиком - например 512 кбит/с.

Платы в слотах 10 и 12 я поломал просто передачей RTP потока(PCMA) - телефон подключенный к LAN установил соединение с окончанием PPS в голос передавался туда и обратно и через некоторое время плата перестала пинговаться.
Я думаю что воспроизведение бага имеет некоторую вероятность, а большее количество трафика повышает эту вероятность.

Прошивку какой ревизии ты хотел бы проверить?

После обеда постараюсь вспомнить с кокой версией я ранее работал без проблем.

Last edited 3 years ago by san (previous) (diff)

in reply to:  14 comment:15 by alx, 3 years ago

Replying to san:

Платы в слотах 10 и 12 я поломал просто передачей RTP потока(PCMA) - телефон подключенный к LAN установил соединение с окончанием PPS в голос передавался туда и обратно и через некоторое время плата перестала пинговаться.

Это означает, что большой объем трафика не является необходимым - окончание PPS генерирует мизерный трафик - до 100 кбит/с, с видеопотоками не работает. Это - нормальное штатное использование платы...

comment:16 by alx, 3 years ago

Заметил, что в настройках плат отключен протокол IPv6. Воспроизводится ли проблема, если установить режим SLAAC (это значение по умолчанию)?

comment:17 by alx, 3 years ago

Появилась еще одна мысль. Было бы интересно сравнить содержимое регистров MAC в нормальном состоянии и в "ненормальном" состоянии. Возможно, в них будут видны какие-то различия. Несмотря на то, что контроллерами MAC управляет MSP, CSP мог бы время от времени читать и анализировать их регистры и таким образом определять, что с сетью случилось что-то ненормальное. А возможно (при изрядной доле везения), можно было бы и "починить" работу сети без ререзагрузки платы, например каким-нибудь программным сбросом и повторной конфигурацией MAC...

in reply to:  16 comment:18 by san, 3 years ago

Replying to alx:

Воспроизводится ли проблема, если установить режим SLAAC (это значение по умолчанию)?

Воспроизводится

comment:19 by alx, 3 years ago

В пятницу перед обедом создал трафик платам VE-01 и VE-02 у себя в блоке (более 2 Мбит/с для каждой). Сегодня понедельник, связность ни с одной из плат не пропала, платы отвечают как положено... Еще раз убеждаюсь, что в исходном эксперименте действует еще какой-то фактор. На эту же мысль наводит эксперимент с прошивкой VE-02 ревизии 20, с которой ранее не было проблем, а теперь есть...

comment:20 by alx, 3 years ago

При пинге платы VE-02 через два интерфейса ордновременно проблему воспроизвести не удалось. Однако пинг внешнего устройства через плату VE-02 проблему воспроизвел. В чем разница этих двух экспериментов для платы VE-02, непонятно...

Вот что выводится в лог при начале проблемы:

Aug 16 11:48:33 comcerto daemon.err sip_ua[575]: comcerto.cpp:2623: MSP ALERT channelId=0xffff, Type=1, CPU=0, Action=0, Channel=65534 ts=0
Aug 16 11:48:33 comcerto daemon.info sip_ua[578]: regSyncAgent.cpp:536: registration database saved to /lib/sip_ua/regDataBase.xml
Aug 16 11:48:34 comcerto daemon.warn sip_ua[575]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 16 11:48:34 comcerto daemon.warn sip_ua[575]: comcerto.cpp:2565: ---> 360a 0603 0132 0000 0001 fffb 
Aug 16 11:48:34 comcerto daemon.err sip_ua[575]: comcerto.cpp:2623: MSP ALERT channelId=0xffff, Type=1, CPU=0, Action=0, Channel=65534 ts=0
Aug 16 11:48:34 comcerto daemon.info sip_ua[578]: regSyncAgent.cpp:536: registration database saved to /lib/sip_ua/regDataBase.xml
Aug 16 11:48:35 comcerto daemon.warn sip_ua[575]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 16 11:48:35 comcerto daemon.warn sip_ua[575]: comcerto.cpp:2565: ---> 390a 0603 0132 0000 0002 7ffb 

comment:21 by alx, 3 years ago

При изменении режима линка интерфейса LAN с 100Base-TX на 10Base-T проблема воспроизводиться перестала.

in reply to:  21 comment:22 by alx, 3 years ago

Replying to alx:

При изменении режима линка интерфейса LAN с 100Base-TX на 10Base-T проблема воспроизводиться перестала.

Это утверждение было сделано поспешно - обнаружена ошибка в эксперименте. Эксперимент начат повторно.

comment:23 by alx, 3 years ago

Проблема воспроизвелась в режиме 10Base-T порта LAN. Симптомы те же: ALERT'ы типа 1 (что означает NO_MEMORY), после чего периодическая индикация 0x0132. После увеличения нагрузки появились сообщения от VED о получении испорченных данных (?):

Aug 17 09:55:24 comcerto daemon.err sip_ua[451]: comcerto.cpp:2623: MSP ALERT channelId=0xffff, Type=1, CPU=0, Action=0, Channel=65534 ts=0
Aug 17 09:55:25 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 09:55:25 comcerto daemon.info sip_ua[455]: regSyncAgent.cpp:536: registration database saved to /lib/sip_ua/regDataBase.xml
Aug 17 09:55:42 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 09:55:43 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 09:56:02 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 09:56:02 comcerto daemon.err sip_ua[451]: comcerto.cpp:2623: MSP ALERT channelId=0xffff, Type=1, CPU=0, Action=0, Channel=65534 ts=0
Aug 17 09:56:02 comcerto daemon.info sip_ua[455]: regSyncAgent.cpp:536: registration database saved to /lib/sip_ua/regDataBase.xml
Aug 17 09:56:02 comcerto daemon.err sip_ua[451]: comcerto.cpp:2623: MSP ALERT channelId=0xffff, Type=1, CPU=0, Action=0, Channel=65534 ts=0
Aug 17 09:56:03 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 09:56:03 comcerto daemon.info sip_ua[455]: regSyncAgent.cpp:536: registration database saved to /lib/sip_ua/regDataBase.xml
Aug 17 09:56:12 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 09:56:13 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 09:56:21 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
.....
Aug 17 10:09:46 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 10:09:47 comcerto user.err kernel: VED: invalid fdesc (phys: 00b1bf40) content: part: 0a0002bc, release: 0001, len: 000006a2, offs: 00000000, interface: 00000003
Aug 17 10:09:47 comcerto user.err kernel: VED: fdesc payload: 3534 3736 3938 3b3a 3d3c 3f3e 4140 4342 4544 4746 4948 4b4a 4d4c 4f4e 5150 5352 5554 5756 5958 5b5a 5d5c 5f5e 6160 6362 6564 6766 6968 6b6a 6d6c 6f6e
Aug 17 10:09:53 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 10:09:55 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 10:09:55 comcerto user.err kernel: VED: invalid fdesc (phys: 00aa4900) content: part: 0a0002bc, release: 0001, len: 00000622, offs: 00000000, interface: 00000003
Aug 17 10:09:55 comcerto user.err kernel: VED: fdesc payload: 3534 3736 3938 3b3a 3d3c 3f3e 4140 4342 4544 4746 4948 4b4a 4d4c 4f4e 5150 5352 5554 5756 5958 5b5a 5d5c 5f5e 6160 6362 6564 6766 6968 6b6a 6d6c 6f6e
Aug 17 10:10:02 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 10:10:03 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12
Aug 17 10:10:03 comcerto user.err kernel: VED: invalid fdesc (phys: 00b13f00) content: part: 0a0002bc, release: 0001, len: 00000622, offs: 00000000, interface: 00000003
Aug 17 10:10:03 comcerto user.err kernel: VED: fdesc payload: 3534 3736 3938 3b3a 3d3c 3f3e 4140 4342 b7b6 b9b8 bbba bdbc b7b6 b9b8 bbba bdbc b7b6 b9b8 bbba bdbc b7b6 b9b8 bbba bdbc b7b6 b9b8 bbba bdbc b7b6 b9b8
Aug 17 10:10:11 comcerto daemon.warn sip_ua[451]: comcerto.cpp:2559: ---> channel 0xffff (ts 0): unknown indication: FC=0x0132 len=12

Судя по тому, что MSP жалуется на ошибку выделения памяти, проблема не связана напрямую с сетевыми интерфейсами, и "дергать" интерфейсы для ее устранения бесполезно. Возможно, имеет место какой-то баг MSP, связанный с приемом-передачей пакетов, приводящий к утечке или порче памяти.

В качестве решения проблемы предлагается выполнять перезагрузку платы при получении от MSP ALERT типа 1.

comment:24 by san, 3 years ago

Проблема воспроизвелась в блоке MC04-VIP(ревизия ve-02: 1673) но в этой версии ПО плата перезагружается через некоторое время после получения ALERT.

В качестве решения проблемы предлагается выполнять перезагрузку платы при получении от MSP ALERT типа 1.

Видимо это единственный вариант, больше ничего не придумывается.
Алексей, сделай пожалуйста тестовую прошивку с перезагрузкой при ALERT типа 1 и положи в одну из плат VE-02 блока 192.168.20.176.

in reply to:  24 comment:25 by alx, 3 years ago

Replying to san:

Алексей, сделай пожалуйста тестовую прошивку с перезагрузкой при ALERT типа 1 и положи в одну из плат VE-02 блока 192.168.20.176.

VE-02 в слоте 10.

comment:26 by san, 3 years ago

Хм.. кажется я таки сломал её. Она не получает адрес по DHCP, а при установке адреса вручную не пингуется.
Алексей посмотри пожалуйста на неё.

COM платы доступен через TCP-сервер 192.168.1.240 порт 1001

in reply to:  26 comment:27 by alx, 3 years ago

Replying to san:

Алексей посмотри пожалуйста на неё.

Посмотрел. Не вижу в логе сообщений об индикации FC=0x0132...
А был ALERT с типом 1?

comment:28 by san, 3 years ago

Не знаю. А при установленной подробности лога должны мы там увидеть ALERT и FC= ?

in reply to:  28 comment:29 by alx, 3 years ago

Replying to san:

А при установленной подробности лога должны мы там увидеть ALERT и FC= ?

В лог вывестись должны. Ранее я заметил, что индикация 0x0132 появляется только при наличии сетевого трафика. Предполагаю, что после воспроизведения проблемы трафик был отключен, поэтому сообщения в лог об индикации 0x0132 прекратились. ALERT выдается однократно (хотя выше он вывелся трижды), поэтому чтобы его увидеть надо смотреть лог в момент воспроизведения проблемы.

comment:30 by san, 3 years ago

Ещё раз воспроизвёл - после ALERT 12:16:53 плата перезапустилась, но связности нет.

Jan  1 00:00:11 syslogd started: BusyBox v1.18.5
Jan  1 00:00:11 kernel: klogd started: BusyBox v1.18.5 (2021-02-22 20:45:56 YEKT)
Jan  1 00:00:11 kernel: Linux version 2.6.22.19-4.07.0-candidate1-c300evm (alx@voip) (gcc version 5.3.0 (GCC) ) #6 Thu Jun 4 10:56:43 YEKT 2020
Jan  1 00:00:11 kernel: CPU: ARMv6-compatible processor [4117b361] revision 1 (ARMv6TEJ), cr=00c5387f
Jan  1 00:00:11 kernel: Machine: Comcerto 300 (x570)
Jan  1 00:00:11 kernel: Memory policy: ECC disabled, Data cache writeback
Jan  1 00:00:11 kernel: On node 0 totalpages: 28416
Jan  1 00:00:11 kernel:   DMA zone: 222 pages used for memmap
Jan  1 00:00:11 kernel:   DMA zone: 0 pages reserved
Jan  1 00:00:11 kernel:   DMA zone: 28194 pages, LIFO batch:7
Jan  1 00:00:11 kernel:   Normal zone: 0 pages used for memmap
Jan  1 00:00:11 kernel: CPU0: D VIPT write-back cache
Jan  1 00:00:12 sysinit: brctl: SIOCGIFBR: Package not installed
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:14 dnsmasq[369]: started, version 2.75 cachesize 150
Jan  1 00:00:14 dnsmasq[369]: compile time options: no-IPv6 GNU-getopt no-DBus no-i18n no-IDN DHCP no-DHCPv6 no-Lua TFTP no-conntrack no-ipset no-auth no-DNSSEC loop-detect no-inotify
Jan  1 00:00:14 dnsmasq[369]: using local addresses only for domain lan
Jan  1 00:00:14 dnsmasq[369]: no servers found in /tmp/resolv.conf.auto, will retry
Jan  1 00:00:14 dnsmasq[369]: read /etc/hosts - 1 addresses
Jan  1 00:00:15 kernel: NET: Registered protocol family 27
Jan  1 00:00:15 dropbear[425]: Running in background
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: dnsmasq: failed to create listening socket for port 53: Address already in use
Jan  1 00:00:18 dnsmasq[440]: failed to create listening socket for port 53: Address already in use
Jan  1 00:00:18 dnsmasq[440]: FAILED to start up
Jan  1 00:00:19 sysinit: starting SIP UA daemon: sip_ua...net.unix.max_dgram_qlen = 256
Jan  1 00:00:19 sysinit: done.
Jan  1 00:00:19 sysinit: sysctl: error: 'net.ipv4.netfilter.ip_conntrack_checksum' is an unknown key
Jan  1 00:00:19 sysinit: sysctl: error: 'net.ipv4.netfilter.ip_conntrack_max' is an unknown key
Jan  1 00:00:19 sysinit: sysctl: error: 'net.ipv4.netfilter.ip_conntrack_tcp_timeout_established' is an unknown key
Jan  1 00:00:19 sysinit: sysctl: error: 'net.ipv4.netfilter.ip_conntrack_udp_timeout' is an unknown key
Jan  1 00:00:19 sysinit: sysctl: error: 'net.ipv4.netfilter.ip_conntrack_udp_timeout_stream' is an unknown key
Jan  1 00:00:24 kernel: eth1: no IPv6 routers present
Jan  1 00:00:28 sip_ua[455]: regSyncAgent.cpp:489: file timestamp is 1630412060 sec in the future
Aug 31 12:14:50 sip_ua[476]: poller.cpp:2634: Configuring FPGA...
Aug 31 12:14:51 sip_ua[476]: comcerto.cpp:2174: !!!!! function IP_ADDRESS_v6 (0x0310): error CNF_ERROR_IP_ADDRESS_BAD_IP_ADDRESS (0x0b03):
Aug 31 12:14:51 sip_ua[476]: comcerto.cpp:2175: Invalid IP Address
Aug 31 12:14:51 udhcpc[490]: udhcpc (v1.18.5) started
Aug 31 12:14:51 sip_ua[476]: comcerto.cpp:5135: comcerto_set_ip6() failed (result=-2819)
Aug 31 12:14:51 udhcpc[490]: Sending discover...
Aug 31 12:14:52 sip_ua[476]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:14:52 udhcpc[490]: Sending select for 192.168.0.106...
Aug 31 12:14:52 udhcpc[490]: Lease of 192.168.0.106 obtained, lease time 12928
Aug 31 12:14:52 sip_ua[451]: sip_ua.cpp:835: IP change 127.0.0.1 --> 192.168.0.106 detected
Aug 31 12:16:14 sip_ua[451]: user_agent.cpp:3437: cannot build REGISTER message (rc=-5)
Aug 31 12:16:14 sip_ua[451]: user_agent.cpp:3486: cannot build REGISTER message (rc=-3)
Aug 31 12:16:14 sip_ua[451]: user_agent.cpp:3437: cannot build REGISTER message (rc=-5)
Aug 31 12:16:14 sip_ua[476]: fs01.cpp:390: module 1 [FS01]: DC-DC calibration started...
Aug 31 12:16:14 sip_ua[476]: fs01.cpp:427: module 1 [FS01]: SLIC calibration started...
Aug 31 12:16:17 sip_ua[476]: fs01.cpp:541: module 1 [FS01]: SLIC calibration 2 started...
Aug 31 12:16:20 kernel: eth2: no IPv6 routers present
Aug 31 12:16:53 sip_ua[451]: comcerto.cpp:2616: MSP ALERT channelId=0xffff, Type=1, CPU=0, Action=0, Channel=65534 ts=0
Jan  1 00:00:11 syslogd started: BusyBox v1.18.5
Jan  1 00:00:11 kernel: klogd started: BusyBox v1.18.5 (2021-02-22 20:45:56 YEKT)
Jan  1 00:00:11 kernel: Linux version 2.6.22.19-4.07.0-candidate1-c300evm (alx@voip) (gcc version 5.3.0 (GCC) ) #6 Thu Jun 4 10:56:43 YEKT 2020
Jan  1 00:00:11 kernel: CPU: ARMv6-compatible processor [4117b361] revision 1 (ARMv6TEJ), cr=00c5387f
Jan  1 00:00:11 kernel: Machine: Comcerto 300 (x570)
Jan  1 00:00:11 kernel: Memory policy: ECC disabled, Data cache writeback
Jan  1 00:00:11 kernel: On node 0 totalpages: 28416
Jan  1 00:00:11 kernel:   DMA zone: 222 pages used for memmap
Jan  1 00:00:11 kernel:   DMA zone: 0 pages reserved
Jan  1 00:00:11 kernel:   DMA zone: 28194 pages, LIFO batch:7
Jan  1 00:00:11 kernel:   Normal zone: 0 pages used for memmap
Jan  1 00:00:11 kernel: CPU0: D VIPT write-back cache
Jan  1 00:00:13 sysinit: brctl: SIOCGIFBR: Package not installed
Jan  1 00:00:13 init: starting pid 260, tty '/dev/ttyS0': '/bin/ash --login'
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:13 sysinit: sh: bad number
Jan  1 00:00:14 dnsmasq[372]: started, version 2.75 cachesize 150
Jan  1 00:00:14 dnsmasq[372]: compile time options: no-IPv6 GNU-getopt no-DBus no-i18n no-IDN DHCP no-DHCPv6 no-Lua TFTP no-conntrack no-ipset no-auth no-DNSSEC loop-detect no-inotify
Jan  1 00:00:14 dnsmasq[372]: using local addresses only for domain lan
Jan  1 00:00:14 dnsmasq[372]: no servers found in /tmp/resolv.conf.auto, will retry
Jan  1 00:00:14 dnsmasq[372]: read /etc/hosts - 1 addresses
Jan  1 00:00:15 kernel: NET: Registered protocol family 27
Jan  1 00:00:15 dropbear[429]: Running in background
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: sh: bad number
Jan  1 00:00:18 sysinit: dnsmasq: failed to create listening socket for port 53: Address already in use
Jan  1 00:00:18 dnsmasq[445]: failed to create listening socket for port 53: Address already in use
Jan  1 00:00:18 dnsmasq[445]: FAILED to start up
Jan  1 00:00:19 sysinit: starting SIP UA daemon: sip_ua...net.unix.max_dgram_qlen = 256
Jan  1 00:00:19 sysinit: done.
Jan  1 00:00:19 sysinit: sysctl: error: 'net.ipv4.netfilter.ip_conntrack_checksum' is an unknown key
Jan  1 00:00:19 sysinit: sysctl: error: 'net.ipv4.netfilter.ip_conntrack_max' is an unknown key
Jan  1 00:00:19 sysinit: sysctl: error: 'net.ipv4.netfilter.ip_conntrack_tcp_timeout_established' is an unknown key
Jan  1 00:00:19 sysinit: sysctl: error: 'net.ipv4.netfilter.ip_conntrack_udp_timeout' is an unknown key
Jan  1 00:00:19 sysinit: sysctl: error: 'net.ipv4.netfilter.ip_conntrack_udp_timeout_stream' is an unknown key
Jan  1 00:00:24 kernel: eth1: no IPv6 routers present
Jan  1 00:00:28 sip_ua[460]: regSyncAgent.cpp:489: file timestamp is 1630412185 sec in the future
Aug 31 12:16:55 sip_ua[481]: poller.cpp:2634: Configuring FPGA...
Aug 31 12:16:56 sip_ua[481]: comcerto.cpp:2174: !!!!! function IP_ADDRESS_v6 (0x0310): error CNF_ERROR_IP_ADDRESS_BAD_IP_ADDRESS (0x0b03):
Aug 31 12:16:56 sip_ua[481]: comcerto.cpp:2175: Invalid IP Address
Aug 31 12:16:56 sip_ua[481]: comcerto.cpp:5135: comcerto_set_ip6() failed (result=-2819)
Aug 31 12:16:56 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:16:58 sip_ua[456]: user_agent.cpp:3437: cannot build REGISTER message (rc=-5)
Aug 31 12:16:58 sip_ua[456]: utils.cpp:244: kernel returned error -101 (Network is unreachable)
Aug 31 12:16:58 sip_ua[456]: comcerto.cpp:7154: 192.168.0.5: failed
Aug 31 12:16:58 sip_ua[456]: utils.cpp:244: kernel returned error -101 (Network is unreachable)
Aug 31 12:16:58 sip_ua[456]: comcerto.cpp:7154: 192.168.0.5: failed
Aug 31 12:16:58 sip_ua[456]: utils.cpp:244: kernel returned error -101 (Network is unreachable)
Aug 31 12:16:58 sip_ua[456]: comcerto.cpp:7154: 192.168.0.5: failed
Aug 31 12:16:58 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:18 sip_ua[481]: fs01.cpp:390: module 1 [FS01]: DC-DC calibration started...
Aug 31 12:18:18 sip_ua[481]: fs01.cpp:427: module 1 [FS01]: SLIC calibration started...
Aug 31 12:18:19 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:20 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:21 sip_ua[481]: fs01.cpp:541: module 1 [FS01]: SLIC calibration 2 started...
Aug 31 12:18:21 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:23 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:24 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:25 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:26 kernel: eth2: no IPv6 routers present
Aug 31 12:18:27 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:28 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:29 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:31 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:32 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1
Aug 31 12:18:34 sip_ua[481]: poller.cpp:2986: error: NTP client process 665 is missing: kill() returned error 'No such process'
Aug 31 12:18:34 sip_ua[481]: poller.cpp:3101: ntpclient exited with return code 1

comment:31 by alx, 3 years ago

Resolution: готово
Status: newclosed

comment:32 by alx, 3 years ago

In 1932/sip_ua:

При получении от MSP ALERT типа 1 выполняется перезагрузка платы даже если в поле action
нвходится 0 ("ничего не надо делать"). See #370.

comment:33 by san, 3 years ago

Resolution: готово
Status: closedreopened

Т.к. появились новые данные тикет переоткрою
Выяснилось, что у пользователей блоков VIP c r1062 (v10_23_03_01_AS_11), uptime блоков составляет длительное время(173 дня, 55 дней), хотя к портам LAN подключены SIP телефоны и разговоры ведутся ежедневно. Т.е. баг у них не воспроизводится.

Я собрал стенд в котором VIP r1673 перезагружается в течении нескольких минут, проверил раз 5.
В тех-же условиях r1062 не разу не перезагрузился и работает нормально.

Last edited 3 years ago by san (previous) (diff)

in reply to:  33 comment:34 by alx, 3 years ago

Replying to san:

Т.к. появились новые данные тикет переоткрою
Выяснилось, что у пользователей блоков VIP c r1062, uptime блоков составляет длительное время(173 дня, 55 дней), хотя к портам LAN подключены SIP телефоны и разговоры ведутся ежедневно. Т.е. баг у них не воспроизводится.

Насколько я понимаю, выше указаны ревизии пакета ve-02. Эта информация, как мне кажется, ни о чем не говорит, так как пакет ve-02 практически никак не участвует в приеме/передаче транзитных пакетов. Единственное, что делает sip_ua - это читает конфиг-файл и настраивает адреса сетевым интерфейсам. Транзитные пакеты не покидают ядро, и никак не взаимодействуют с userland-процессами. Процесс sip_ua можно вообще завершить, а пакеты будут продолжать ходить через плату.

Для того чтобы убедиться в этом, я хотел собрать sip_ua ревизии 1062 и провести эксперимент, но эта версия настолько старая, что я не смог ни правильно воспроизвести ее сборку, ни вытащить ее из другого блока (ругалась на отсутствие какого-то символа даже после копирования всех библиотек).

Как видно из комментариев выше, проблема наблюдается в MSP. Поэтому я провел другой эксперимент. Я взял блока, в котором воспроизводится проблема, и проверил его работу с другими имеющимися у меня версиями MSP firmware.

firmware version SPU version Комментарий
v11_26_02_04_PSN_01C64V_7_10_3Из MSP приходит ALERT, перестает работать сеть
v10_23_03_01_AS_03C64V_7_7_6Сеть не работает сразу (нет линка на eth2)
v7_20C64V_7_4_3Сеть не работает сразу (нет линка на eth2)
v10_23_03_01_AS_11C64V_7_7_12Проблема не воспроизводится
v10_23_03_01_AS_12C64V_7_7_12Проблема не воспроизводится
v11_26_03_08_SS_04C64V_7_10_13Проблема не воспроизводится
v7_22_03_16_HW_49C64V_7_6_36Проблема не воспроизводится
v7_22_03_16_HW_50C64V_7_6_36Проблема не воспроизводится

Обрати внимание, что в процессе экспериментов ни один файл в CSP не менялся. Менялась только MSP firmware. Мне кажется, результаты экспериментов достаточно ясно указывают на то, что проблема в MSP firmware. Из всех имеющихся версий firmware проблема воспроизводится только с одной.

Учитывая вышесказанное, мне не совсем понятна задача. Что мне сделать в рамках этого переоткрытого тикета?

comment:35 by alx, 3 years ago

Resolution: готово
Status: reopenedclosed

В репозиторий добавлен новый пакет ve-02-msp, содержащий файл firmware v11_26_03_08_SS_04. При прошивке VE-02 в блоке MC04-DSL-3U теперь используется он.

Note: See TracTickets for help on using tickets.