TCP/IP вопрос

uniqueman
Уже с Приветом
Posts: 2013
Joined: 16 Mar 2002 10:01
Location: New York City

TCP/IP вопрос

Post by uniqueman »

Проясните пожалуйста, нормально ли поведение такое.

Имеется сервер, который постоянно шлет данные пользователям (stream). Клиенты устанавливают TCP соединения с сервером (обычно где то порядка 200 соединений).

На сервере стоит софтина, которая, используя SNMP протокол, засекает выходящий траффик (там полно функций, но нас интересует outbound траффик). Так вот график этот выглядит как кардиограмма, то бишь скачет вниз и вверх каждые две, три секунды. Выглядит как пила короче.. разница между top and down spikes примерно 750 Килобайт. То бишь в одну секунду толкается 1 мег, через секунду 1.75 Мег.. потом опять 1, потом опять 1.75.. примерно так.

Данные серверу подаются постоянно, без перерыва.

Меня волнует кроется ли такое поведение в свойствах протокола TCP/IP (размеры буферов, параметры какие то или чего то еще) или это скорее всего так написан сервер.

Выскажите идеи свои любые по этому поводу.. очень хочется чтобы сейчас именно создался флейм, потому что любые идеи подкинут пищу для размышления.

Могу предоставить доп. инфу, только скажите какую.

Спасибо
User avatar
Amirko
Уже с Приветом
Posts: 5199
Joined: 08 Jul 2002 09:36
Location: В глухой провинции, у моря...

Re: TCP/IP вопрос

Post by Amirko »

uniqueman wrote:Имеется сервер, который постоянно шлет данные ...


Какая LAN/WAN? Какова пропускная способность при одновременной работе всех клиентов? Какая операционная систем? На чем стоит сервер? Что за реализация SNMP?
Вряд ли это TCP. Посмотрите SNMP статистику "number of packets dropped in a TCP connection". Если пакеты дропаются, то это не обязательно TCP -- это вернее всего другой уровень сети, например Ethernet оборудование, или сервер. Если пакеты не дропаются, то тоже дело не в TCP -- клиентов много и каждое соединение в отдельности не скоростное. А если работает один клиент? Тоже так же?

И посмотрите сюда:
http://dast.nlanr.net/Guides/GettingSta ... _size.html
http://www.psc.edu/networking/perf_tune.html
Cheers,
Amirko
Michael Popov
Уже с Приветом
Posts: 991
Joined: 09 Sep 2001 09:01
Location: The Earth

Post by Michael Popov »

Возможно проблемы в самих замерах. Попробуйте другие tools. Сравните результаты.
Best regards,

Michael Popov
User avatar
idle0
Уже с Приветом
Posts: 2846
Joined: 28 Jun 2000 09:01
Location: Milwaukee, WI

Post by idle0 »

По идее напоминает картину с включенным QoS или traffic shaping
moria# show running-config
uniqueman
Уже с Приветом
Posts: 2013
Joined: 16 Mar 2002 10:01
Location: New York City

Re: TCP/IP вопрос

Post by uniqueman »

Какая LAN/WAN? Какова пропускная способность при одновременной работе всех клиентов? Какая операционная систем? На чем стоит сервер? Что за реализация SNMP?
Вряд ли это TCP. Посмотрите SNMP статистику "number of packets dropped in a TCP connection". Если пакеты дропаются, то это не обязательно TCP -- это вернее всего другой уровень сети, например Ethernet оборудование, или сервер. Если пакеты не дропаются, то тоже дело не в TCP -- клиентов много и каждое соединение в отдельности не скоростное. А если работает один клиент? Тоже так же?

И посмотрите сюда:
http://dast.nlanr.net/Guides/GettingSta ... _size.html
http://www.psc.edu/networking/perf_tune.html


LAN - Ethernet.

SNMP monitoring tool - Solarwinds Engineering Edition

Операционка - 2000 Про.

Проверить как работает при одном клиенте невозможно к сожалению.
Спасибо за ссылки, щас гляну
uniqueman
Уже с Приветом
Posts: 2013
Joined: 16 Mar 2002 10:01
Location: New York City

Post by uniqueman »

idle0 wrote:По идее напоминает картину с включенным QoS или traffic shaping


Это в настройках сетевой платы? Если установки стоят эти то отключить?
User avatar
Amirko
Уже с Приветом
Posts: 5199
Joined: 08 Jul 2002 09:36
Location: В глухой провинции, у моря...

Re: TCP/IP вопрос

Post by Amirko »

uniqueman wrote:LAN - Ethernet


100 Mb, конечно? Какой switch стоит? Загружена ли еще чем-то ? Попробуйте сервер посадить на 10 Mb, посмотрите что будет.
Cheers,
Amirko
User avatar
idle0
Уже с Приветом
Posts: 2846
Joined: 28 Jun 2000 09:01
Location: Milwaukee, WI

Post by idle0 »

uniqueman wrote:
idle0 wrote:По идее напоминает картину с включенным QoS или traffic shaping


Это в настройках сетевой платы? Если установки стоят эти то отключить?


Нет, это в настройках всяких switches/routers
moria# show running-config
User avatar
Pink Panther
Уже с Приветом
Posts: 3811
Joined: 14 Oct 2001 09:01

Re: TCP/IP вопрос

Post by Pink Panther »

uniqueman wrote:Выскажите идеи свои любые по этому поводу.. очень хочется чтобы сейчас именно создался флейм, потому что любые идеи подкинут пищу для размышления.


Читал в книге Richard Stevens, TCP/IP Illustrated: The protocols о подобных явлениях, не уверен что данный случай там описан, но идей почерпнуть можно.
uniqueman
Уже с Приветом
Posts: 2013
Joined: 16 Mar 2002 10:01
Location: New York City

Re: TCP/IP вопрос

Post by uniqueman »

Amirko wrote:
uniqueman wrote:LAN - Ethernet


100 Mb, конечно? Какой switch стоит? Загружена ли еще чем-то ? Попробуйте сервер посадить на 10 Mb, посмотрите что будет.


да 100 мегабит. Switch = Catalyst 2900 series XL (Cisco). Больше компьютер ничем не загружен.

Проблема вот в чем встала. Есть три таких сервера, которые являются так называемыми вещателями. С одной стороны они получают информацию с порта, с другой к ним подключается порядка 100 пользователей (к каждому), и они распределяют приходящие пакеты среди этих пользователей.

периодически сервера стали падать (вылетает ошибка ран тайма и просит закрыть приложение). Причем падают все три одно временно (хотя друг с другм никакой связи у них нет).

Проверили порты на свитче, куда подключены эти сервера и обнаружили следующее.

У первого сервера порт постояно flilpping. Monitoring tool говорит :

The port state has changed to down.
The port state has changed to up.

и так довольно часто (NIC стоит Intel)

На втором сервере (точнее сетевой плате его) очень много output errors (где то примерно 200 ошибок в минуту), а именно late collision errors.
NIC стоит от 3COM.

Думаем не является ли это причиной падения серверных приложений.
User avatar
Amirko
Уже с Приветом
Posts: 5199
Joined: 08 Jul 2002 09:36
Location: В глухой провинции, у моря...

Re: TCP/IP вопрос

Post by Amirko »

uniqueman wrote:
Amirko wrote:
uniqueman wrote:LAN - Ethernet


100 Mb, конечно? Какой switch стоит? Загружена ли еще чем-то ? Попробуйте сервер посадить на 10 Mb, посмотрите что будет.


да 100 мегабит. Switch = Catalyst 2900 series XL (Cisco). Больше компьютер ничем не загружен.

Проблема вот в чем встала. Есть три таких сервера, которые являются так называемыми вещателями. С одной стороны они получают информацию с порта, с другой к ним подключается порядка 100 пользователей (к каждому), и они распределяют приходящие пакеты среди этих пользователей.

периодически сервера стали падать (вылетает ошибка ран тайма и просит закрыть приложение). Причем падают все три одно временно (хотя друг с другм никакой связи у них нет).

Проверили порты на свитче, куда подключены эти сервера и обнаружили следующее.

У первого сервера порт постояно flilpping. Monitoring tool говорит :

The port state has changed to down.
The port state has changed to up.

и так довольно часто (NIC стоит Intel)

На втором сервере (точнее сетевой плате его) очень много output errors (где то примерно 200 ошибок в минуту), а именно late collision errors.
NIC стоит от 3COM.

Думаем не является ли это причиной падения серверных приложений.


Причиной их падения является ошибка, не замеченная программистом. А проявляется она похоже при плохой работе сети. Мониторить удобнее свич, у него все эти порт встал-лег просто в логе консоли видно. Заведите syslog сервер и пишите лог с этой циски. и порты ее тоже можно мониторить тем же snmp. Или по http на него ходите, но SNMP лучше, быстрее. Цисковский cluster management suite на яве написан, работает нетогопливо.

Порт не должен разрывать соединение, это ненормально. У вас похоже сетевые проблемы на Ethernet-слое, не на IP. У меня кстати те же свичи сейчас да и карты наверное те же есть. У вас что, все это стоит в production? Тогда конечно экспериментировать тяжело... А может, slammer virus или что-то вроде него сидит и грузит сеть своими multicast packets? Очень похожий эффект будет... Достаточно в сети одной WS с непатченным MS SQL DE, и сеть чтобы была не нарезанная на VLAN'ы, и все начнет падать периодически.
Cheers,
Amirko
uniqueman
Уже с Приветом
Posts: 2013
Joined: 16 Mar 2002 10:01
Location: New York City

Re: TCP/IP вопрос

Post by uniqueman »

Причиной их падения является ошибка, не замеченная программистом. А проявляется она похоже при плохой работе сети. Мониторить удобнее свич, у него все эти порт встал-лег просто в логе консоли видно. Заведите syslog сервер и пишите лог с этой циски. и порты ее тоже можно мониторить тем же snmp. Или по http на него ходите, но SNMP лучше, быстрее. Цисковский cluster management suite на яве написан, работает нетогопливо.


Да, мы именно мониторили порты на свитче. Подключались через консоль и смотрели. Те ошибки, которые я описал выше снимались именно с портов свитча.

Порт не должен разрывать соединение, это ненормально. У вас похоже сетевые проблемы на Ethernet-слое, не на IP. У меня кстати те же свичи сейчас да и карты наверное те же есть. У вас что, все это стоит в production?


Да все стоит в production.

Тогда конечно экспериментировать тяжело...


очень, во время дня ничего трогать нельзя. А после работы когда можно, то нагрузка уже не та, потому что клиенты отсоединились.

А может, slammer virus или что-то вроде него сидит и грузит сеть своими multicast packets? Очень похожий эффект будет... Достаточно в сети одной WS с непатченным MS SQL DE, и сеть чтобы была не нарезанная на VLAN'ы, и все начнет падать периодически.


поподробнее можно пожалуйста. Как обнаружить такую заразу? Что значит не нарезана на VLAN? У нас сеть разбита на подсети. Сервера которые падают находятся в DMZ.

PS: Порт на свитче одного из серверов продолжает показывать input errors (frame errors). Порт на втором сервере продолжает накапливать output errors (late collision errors)
User avatar
KYKAH
Ник закрыт.
Posts: 994
Joined: 26 Aug 2003 16:14
Location: Riga > Ottawa > Hartford

Re: TCP/IP вопрос

Post by KYKAH »

uniqueman wrote:
PS: Порт на свитче одного из серверов продолжает показывать input errors (frame errors). Порт на втором сервере продолжает накапливать output errors (late collision errors)


late collisions -- 99% вероятности, что это port speed/duplex mismatch.

Наверняка хотя бы один из портов установлен на Auto/Auto и в результате один порт работает на 100BaseTx-FD а второй на 100BaseTX-HD. Вашим сетевикам или тем кто сервера поддерживает, или и тем и другим надо уши надрать. Input errors наверняка тоже с этим связаны. В production environment нужно, чтобы ВСЕ линки, кроме User access (читай workstations) были hardcoded, без этих Auto/Auto.

P.S. VLANS тут IMHO нипричем.
uniqueman
Уже с Приветом
Posts: 2013
Joined: 16 Mar 2002 10:01
Location: New York City

Post by uniqueman »

На машине с сетевой картой от Интел режим Duplex/Speed стоит в 100Mbits/sec/Full duplex.

На второй машине с 3COM Duplex mode стоит в Full Duplex, Media type стоит в 100base-tx

на третьей машине тоже с 3СОМ все установки стоят в hardcode default.

первые две машины толкают unicast траффик внешним клиентам, третья машина толкает multicast траффик внутренним клиентам.

Машины все независимы друг от друга. Единственное что их связывает, так сервер который доставляет им пакеты делает это для всех. То есть один пакет доставляется всем серверам одновременно.
uniqueman
Уже с Приветом
Posts: 2013
Joined: 16 Mar 2002 10:01
Location: New York City

Re: TCP/IP вопрос

Post by uniqueman »

Наверняка хотя бы один из портов установлен на Auto/Auto и в результате один порт работает на 100BaseTx-FD а второй на 100BaseTX-HD.


можно поподробнее про какие порты Вы говорите? режимы портов на свитче совпадают с режимами работы сетевых карт компьютеров
User avatar
Amirko
Уже с Приветом
Posts: 5199
Joined: 08 Jul 2002 09:36
Location: В глухой провинции, у моря...

Re: TCP/IP вопрос

Post by Amirko »

uniqueman wrote:
Amirko wrote:А может, slammer virus или что-то вроде него сидит и грузит сеть своими multicast packets? Очень похожий эффект будет... Достаточно в сети одной WS с непатченным MS SQL DE, и сеть чтобы была не нарезанная на VLAN'ы, и все начнет падать периодически.

поподробнее можно пожалуйста. Как обнаружить такую заразу?


Обнаруживается по обилию multicast packets. Последних можно ловить каким-нибудь сниффером, можно собирать статистику по протоколам с помощью SNMP, можно просто в цисковской консоли делать show interfaces до одурения, как душе угодно. Еще видно по тому что все лампочки в серверной начинают как ненормальные моргать :)

uniqueman wrote:Что значит не нарезана на VLAN? У нас сеть разбита на подсети. Сервера которые падают находятся в DMZ.


То что вы говорите (подсети) это наверное в IP смысле. VLAN это Ethernet. Ваша циска может нарезать физически единую сеть на много независимых подсетей. Тогда то, что происходит в одной сети (например, multicast-storm) не будет воздействовать на другие.

http://www.blackhat.com/presentations/b ... itches.pdf

uniqueman wrote:PS: Порт на свитче одного из серверов продолжает показывать input errors (frame errors). Порт на втором сервере продолжает накапливать output errors (late collision errors)


Вам товарищ выше правильно заметил -- наверное что-то с настройкой сетевых адаптеров.
Cheers,
Amirko
User avatar
KYKAH
Ник закрыт.
Posts: 994
Joined: 26 Aug 2003 16:14
Location: Riga > Ottawa > Hartford

Re: TCP/IP вопрос

Post by KYKAH »

uniqueman wrote:
Наверняка хотя бы один из портов установлен на Auto/Auto и в результате один порт работает на 100BaseTx-FD а второй на 100BaseTX-HD.


можно поподробнее про какие порты Вы говорите? режимы портов на свитче совпадают с режимами работы сетевых карт компьютеров


если у вас на всех портах свитча и всех сетевых адаптерах все hardcoded, везде стоит full duplex, и везде попарно совпадают скорости и при этом вы видите late collisions -- значит проблема либо cabling, либо железо накрылось где-то.
User avatar
KYKAH
Ник закрыт.
Posts: 994
Joined: 26 Aug 2003 16:14
Location: Riga > Ottawa > Hartford

Post by KYKAH »

uniqueman wrote:на третьей машине тоже с 3СОМ все установки стоят в hardcode default.


Вы хотите сказать "hardware default"?
Это не есть good.
uniqueman
Уже с Приветом
Posts: 2013
Joined: 16 Mar 2002 10:01
Location: New York City

Post by uniqueman »

сегоодндя поменяем все 3СОМ на Интел. Посмотрим если поможет
User avatar
r00t
Уже с Приветом
Posts: 676
Joined: 28 Apr 2003 02:06
Location: Vilnius->Boston

Post by r00t »

А я-бы свитч поменял. На время. На возможно более тупой. Найдите где-нить тупой безманагнутый 8-портовый свитч и воткните туда эти 3 линка и посмотрите как оно. Чем умнее свитч, тем больше вероятность глюкающего софта в нем.
uniqueman
Уже с Приветом
Posts: 2013
Joined: 16 Mar 2002 10:01
Location: New York City

Post by uniqueman »

r00t wrote:А я-бы свитч поменял. На время. На возможно более тупой. Найдите где-нить тупой безманагнутый 8-портовый свитч и воткните туда эти 3 линка и посмотрите как оно. Чем умнее свитч, тем больше вероятность глюкающего софта в нем.


свитч меняли уже несколько раз. Нашли более менее хороший. Ставили последние модели - плохо работали. Пришлось поставить постарее зато понадежднее
User avatar
Sanek
Уже с Приветом
Posts: 6991
Joined: 04 Sep 2002 04:06

Re: TCP/IP вопрос

Post by Sanek »

KYKAH wrote:
uniqueman wrote:
Наверняка хотя бы один из портов установлен на Auto/Auto и в результате один порт работает на 100BaseTx-FD а второй на 100BaseTX-HD.


можно поподробнее про какие порты Вы говорите? режимы портов на свитче совпадают с режимами работы сетевых карт компьютеров


если у вас на всех портах свитча и всех сетевых адаптерах все hardcoded, везде стоит full duplex, и везде попарно совпадают скорости и при этом вы видите late collisions -- значит проблема либо cabling, либо железо накрылось где-то.


Я с тобой Кукан согласен. Видел такое чудо на FreeBSD, отттрейсилось именно к тому, что ты написал.
uniqueman
Уже с Приветом
Posts: 2013
Joined: 16 Mar 2002 10:01
Location: New York City

Post by uniqueman »

пришел на работу и обнаружил что сервера опять лежат. Ошибка - abnormal program termination.

Запустил netstat. На обоих машинах заметил такие соединения

local address foreign address
-----------------------------------------------------------------------------
machine name:port SPOOZ: 5920
machine name:port SPOOZ: 46290
machine name:port SPOOZ: 49384

Не подскажете что такое SPOOZ ?

Спасибо
User avatar
idle0
Уже с Приветом
Posts: 2846
Joined: 28 Jun 2000 09:01
Location: Milwaukee, WI

Post by idle0 »

uniqueman wrote:пришел на работу и обнаружил что сервера опять лежат. Ошибка - abnormal program termination.

Запустил netstat. На обоих машинах заметил такие соединения

local address foreign address
-----------------------------------------------------------------------------
machine name:port SPOOZ: 5920
machine name:port SPOOZ: 46290
machine name:port SPOOZ: 49384

Не подскажете что такое SPOOZ ?

Спасибо


Это DNS имя компьютера. Попробуйте "netstat -n" - он должен показать IP адреса вместо имен.
moria# show running-config
SkyWalker
Уже с Приветом
Posts: 317
Joined: 16 Feb 2001 10:01
Location: US

Re: TCP/IP вопрос

Post by SkyWalker »

uniqueman wrote:
Наверняка хотя бы один из портов установлен на Auto/Auto и в результате один порт работает на 100BaseTx-FD а второй на 100BaseTX-HD.


можно поподробнее про какие порты Вы говорите? режимы портов на свитче совпадают с режимами работы сетевых карт компьютеров


Вам надо на данных портах CISCO проставить жестко скорость и дуплех.
Грубо говoря:

config terminal
int fa0/x ( x - номер порта)
speed 100
duplex full

Правильно выше сказали что скорее всего не согласуется скорость и дуплех. Ето кстати очень часто проявляется с 3COM.

Если же ето не поможет, попробуйте поиграть с дуплексом.
Например явно убрать дуплех на обоих коцах. Были такие проблемы именно с 3COM.

Return to “Вопросы и новости IT”