TCP/IP вопрос
-
- Уже с Приветом
- Posts: 2013
- Joined: 16 Mar 2002 10:01
- Location: New York City
TCP/IP вопрос
Проясните пожалуйста, нормально ли поведение такое.
Имеется сервер, который постоянно шлет данные пользователям (stream). Клиенты устанавливают TCP соединения с сервером (обычно где то порядка 200 соединений).
На сервере стоит софтина, которая, используя SNMP протокол, засекает выходящий траффик (там полно функций, но нас интересует outbound траффик). Так вот график этот выглядит как кардиограмма, то бишь скачет вниз и вверх каждые две, три секунды. Выглядит как пила короче.. разница между top and down spikes примерно 750 Килобайт. То бишь в одну секунду толкается 1 мег, через секунду 1.75 Мег.. потом опять 1, потом опять 1.75.. примерно так.
Данные серверу подаются постоянно, без перерыва.
Меня волнует кроется ли такое поведение в свойствах протокола TCP/IP (размеры буферов, параметры какие то или чего то еще) или это скорее всего так написан сервер.
Выскажите идеи свои любые по этому поводу.. очень хочется чтобы сейчас именно создался флейм, потому что любые идеи подкинут пищу для размышления.
Могу предоставить доп. инфу, только скажите какую.
Спасибо
Имеется сервер, который постоянно шлет данные пользователям (stream). Клиенты устанавливают TCP соединения с сервером (обычно где то порядка 200 соединений).
На сервере стоит софтина, которая, используя SNMP протокол, засекает выходящий траффик (там полно функций, но нас интересует outbound траффик). Так вот график этот выглядит как кардиограмма, то бишь скачет вниз и вверх каждые две, три секунды. Выглядит как пила короче.. разница между top and down spikes примерно 750 Килобайт. То бишь в одну секунду толкается 1 мег, через секунду 1.75 Мег.. потом опять 1, потом опять 1.75.. примерно так.
Данные серверу подаются постоянно, без перерыва.
Меня волнует кроется ли такое поведение в свойствах протокола TCP/IP (размеры буферов, параметры какие то или чего то еще) или это скорее всего так написан сервер.
Выскажите идеи свои любые по этому поводу.. очень хочется чтобы сейчас именно создался флейм, потому что любые идеи подкинут пищу для размышления.
Могу предоставить доп. инфу, только скажите какую.
Спасибо
-
- Уже с Приветом
- Posts: 5199
- Joined: 08 Jul 2002 09:36
- Location: В глухой провинции, у моря...
Re: TCP/IP вопрос
uniqueman wrote:Имеется сервер, который постоянно шлет данные ...
Какая LAN/WAN? Какова пропускная способность при одновременной работе всех клиентов? Какая операционная систем? На чем стоит сервер? Что за реализация SNMP?
Вряд ли это TCP. Посмотрите SNMP статистику "number of packets dropped in a TCP connection". Если пакеты дропаются, то это не обязательно TCP -- это вернее всего другой уровень сети, например Ethernet оборудование, или сервер. Если пакеты не дропаются, то тоже дело не в TCP -- клиентов много и каждое соединение в отдельности не скоростное. А если работает один клиент? Тоже так же?
И посмотрите сюда:
http://dast.nlanr.net/Guides/GettingSta ... _size.html
http://www.psc.edu/networking/perf_tune.html
Cheers,
Amirko
Amirko
-
- Уже с Приветом
- Posts: 991
- Joined: 09 Sep 2001 09:01
- Location: The Earth
-
- Уже с Приветом
- Posts: 2846
- Joined: 28 Jun 2000 09:01
- Location: Milwaukee, WI
-
- Уже с Приветом
- Posts: 2013
- Joined: 16 Mar 2002 10:01
- Location: New York City
Re: TCP/IP вопрос
Какая LAN/WAN? Какова пропускная способность при одновременной работе всех клиентов? Какая операционная систем? На чем стоит сервер? Что за реализация SNMP?
Вряд ли это TCP. Посмотрите SNMP статистику "number of packets dropped in a TCP connection". Если пакеты дропаются, то это не обязательно TCP -- это вернее всего другой уровень сети, например Ethernet оборудование, или сервер. Если пакеты не дропаются, то тоже дело не в TCP -- клиентов много и каждое соединение в отдельности не скоростное. А если работает один клиент? Тоже так же?
И посмотрите сюда:
http://dast.nlanr.net/Guides/GettingSta ... _size.html
http://www.psc.edu/networking/perf_tune.html
LAN - Ethernet.
SNMP monitoring tool - Solarwinds Engineering Edition
Операционка - 2000 Про.
Проверить как работает при одном клиенте невозможно к сожалению.
Спасибо за ссылки, щас гляну
-
- Уже с Приветом
- Posts: 2013
- Joined: 16 Mar 2002 10:01
- Location: New York City
-
- Уже с Приветом
- Posts: 5199
- Joined: 08 Jul 2002 09:36
- Location: В глухой провинции, у моря...
Re: TCP/IP вопрос
uniqueman wrote:LAN - Ethernet
100 Mb, конечно? Какой switch стоит? Загружена ли еще чем-то ? Попробуйте сервер посадить на 10 Mb, посмотрите что будет.
Cheers,
Amirko
Amirko
-
- Уже с Приветом
- Posts: 2846
- Joined: 28 Jun 2000 09:01
- Location: Milwaukee, WI
-
- Уже с Приветом
- Posts: 3811
- Joined: 14 Oct 2001 09:01
Re: TCP/IP вопрос
uniqueman wrote:Выскажите идеи свои любые по этому поводу.. очень хочется чтобы сейчас именно создался флейм, потому что любые идеи подкинут пищу для размышления.
Читал в книге Richard Stevens, TCP/IP Illustrated: The protocols о подобных явлениях, не уверен что данный случай там описан, но идей почерпнуть можно.
-
- Уже с Приветом
- Posts: 2013
- Joined: 16 Mar 2002 10:01
- Location: New York City
Re: TCP/IP вопрос
Amirko wrote:uniqueman wrote:LAN - Ethernet
100 Mb, конечно? Какой switch стоит? Загружена ли еще чем-то ? Попробуйте сервер посадить на 10 Mb, посмотрите что будет.
да 100 мегабит. Switch = Catalyst 2900 series XL (Cisco). Больше компьютер ничем не загружен.
Проблема вот в чем встала. Есть три таких сервера, которые являются так называемыми вещателями. С одной стороны они получают информацию с порта, с другой к ним подключается порядка 100 пользователей (к каждому), и они распределяют приходящие пакеты среди этих пользователей.
периодически сервера стали падать (вылетает ошибка ран тайма и просит закрыть приложение). Причем падают все три одно временно (хотя друг с другм никакой связи у них нет).
Проверили порты на свитче, куда подключены эти сервера и обнаружили следующее.
У первого сервера порт постояно flilpping. Monitoring tool говорит :
The port state has changed to down.
The port state has changed to up.
и так довольно часто (NIC стоит Intel)
На втором сервере (точнее сетевой плате его) очень много output errors (где то примерно 200 ошибок в минуту), а именно late collision errors.
NIC стоит от 3COM.
Думаем не является ли это причиной падения серверных приложений.
-
- Уже с Приветом
- Posts: 5199
- Joined: 08 Jul 2002 09:36
- Location: В глухой провинции, у моря...
Re: TCP/IP вопрос
uniqueman wrote:Amirko wrote:uniqueman wrote:LAN - Ethernet
100 Mb, конечно? Какой switch стоит? Загружена ли еще чем-то ? Попробуйте сервер посадить на 10 Mb, посмотрите что будет.
да 100 мегабит. Switch = Catalyst 2900 series XL (Cisco). Больше компьютер ничем не загружен.
Проблема вот в чем встала. Есть три таких сервера, которые являются так называемыми вещателями. С одной стороны они получают информацию с порта, с другой к ним подключается порядка 100 пользователей (к каждому), и они распределяют приходящие пакеты среди этих пользователей.
периодически сервера стали падать (вылетает ошибка ран тайма и просит закрыть приложение). Причем падают все три одно временно (хотя друг с другм никакой связи у них нет).
Проверили порты на свитче, куда подключены эти сервера и обнаружили следующее.
У первого сервера порт постояно flilpping. Monitoring tool говорит :
The port state has changed to down.
The port state has changed to up.
и так довольно часто (NIC стоит Intel)
На втором сервере (точнее сетевой плате его) очень много output errors (где то примерно 200 ошибок в минуту), а именно late collision errors.
NIC стоит от 3COM.
Думаем не является ли это причиной падения серверных приложений.
Причиной их падения является ошибка, не замеченная программистом. А проявляется она похоже при плохой работе сети. Мониторить удобнее свич, у него все эти порт встал-лег просто в логе консоли видно. Заведите syslog сервер и пишите лог с этой циски. и порты ее тоже можно мониторить тем же snmp. Или по http на него ходите, но SNMP лучше, быстрее. Цисковский cluster management suite на яве написан, работает нетогопливо.
Порт не должен разрывать соединение, это ненормально. У вас похоже сетевые проблемы на Ethernet-слое, не на IP. У меня кстати те же свичи сейчас да и карты наверное те же есть. У вас что, все это стоит в production? Тогда конечно экспериментировать тяжело... А может, slammer virus или что-то вроде него сидит и грузит сеть своими multicast packets? Очень похожий эффект будет... Достаточно в сети одной WS с непатченным MS SQL DE, и сеть чтобы была не нарезанная на VLAN'ы, и все начнет падать периодически.
Cheers,
Amirko
Amirko
-
- Уже с Приветом
- Posts: 2013
- Joined: 16 Mar 2002 10:01
- Location: New York City
Re: TCP/IP вопрос
Причиной их падения является ошибка, не замеченная программистом. А проявляется она похоже при плохой работе сети. Мониторить удобнее свич, у него все эти порт встал-лег просто в логе консоли видно. Заведите syslog сервер и пишите лог с этой циски. и порты ее тоже можно мониторить тем же snmp. Или по http на него ходите, но SNMP лучше, быстрее. Цисковский cluster management suite на яве написан, работает нетогопливо.
Да, мы именно мониторили порты на свитче. Подключались через консоль и смотрели. Те ошибки, которые я описал выше снимались именно с портов свитча.
Порт не должен разрывать соединение, это ненормально. У вас похоже сетевые проблемы на Ethernet-слое, не на IP. У меня кстати те же свичи сейчас да и карты наверное те же есть. У вас что, все это стоит в production?
Да все стоит в production.
Тогда конечно экспериментировать тяжело...
очень, во время дня ничего трогать нельзя. А после работы когда можно, то нагрузка уже не та, потому что клиенты отсоединились.
А может, slammer virus или что-то вроде него сидит и грузит сеть своими multicast packets? Очень похожий эффект будет... Достаточно в сети одной WS с непатченным MS SQL DE, и сеть чтобы была не нарезанная на VLAN'ы, и все начнет падать периодически.
поподробнее можно пожалуйста. Как обнаружить такую заразу? Что значит не нарезана на VLAN? У нас сеть разбита на подсети. Сервера которые падают находятся в DMZ.
PS: Порт на свитче одного из серверов продолжает показывать input errors (frame errors). Порт на втором сервере продолжает накапливать output errors (late collision errors)
-
- Ник закрыт.
- Posts: 994
- Joined: 26 Aug 2003 16:14
- Location: Riga > Ottawa > Hartford
Re: TCP/IP вопрос
uniqueman wrote:
PS: Порт на свитче одного из серверов продолжает показывать input errors (frame errors). Порт на втором сервере продолжает накапливать output errors (late collision errors)
late collisions -- 99% вероятности, что это port speed/duplex mismatch.
Наверняка хотя бы один из портов установлен на Auto/Auto и в результате один порт работает на 100BaseTx-FD а второй на 100BaseTX-HD. Вашим сетевикам или тем кто сервера поддерживает, или и тем и другим надо уши надрать. Input errors наверняка тоже с этим связаны. В production environment нужно, чтобы ВСЕ линки, кроме User access (читай workstations) были hardcoded, без этих Auto/Auto.
P.S. VLANS тут IMHO нипричем.
-
- Уже с Приветом
- Posts: 2013
- Joined: 16 Mar 2002 10:01
- Location: New York City
На машине с сетевой картой от Интел режим Duplex/Speed стоит в 100Mbits/sec/Full duplex.
На второй машине с 3COM Duplex mode стоит в Full Duplex, Media type стоит в 100base-tx
на третьей машине тоже с 3СОМ все установки стоят в hardcode default.
первые две машины толкают unicast траффик внешним клиентам, третья машина толкает multicast траффик внутренним клиентам.
Машины все независимы друг от друга. Единственное что их связывает, так сервер который доставляет им пакеты делает это для всех. То есть один пакет доставляется всем серверам одновременно.
На второй машине с 3COM Duplex mode стоит в Full Duplex, Media type стоит в 100base-tx
на третьей машине тоже с 3СОМ все установки стоят в hardcode default.
первые две машины толкают unicast траффик внешним клиентам, третья машина толкает multicast траффик внутренним клиентам.
Машины все независимы друг от друга. Единственное что их связывает, так сервер который доставляет им пакеты делает это для всех. То есть один пакет доставляется всем серверам одновременно.
-
- Уже с Приветом
- Posts: 2013
- Joined: 16 Mar 2002 10:01
- Location: New York City
Re: TCP/IP вопрос
Наверняка хотя бы один из портов установлен на Auto/Auto и в результате один порт работает на 100BaseTx-FD а второй на 100BaseTX-HD.
можно поподробнее про какие порты Вы говорите? режимы портов на свитче совпадают с режимами работы сетевых карт компьютеров
-
- Уже с Приветом
- Posts: 5199
- Joined: 08 Jul 2002 09:36
- Location: В глухой провинции, у моря...
Re: TCP/IP вопрос
uniqueman wrote:Amirko wrote:А может, slammer virus или что-то вроде него сидит и грузит сеть своими multicast packets? Очень похожий эффект будет... Достаточно в сети одной WS с непатченным MS SQL DE, и сеть чтобы была не нарезанная на VLAN'ы, и все начнет падать периодически.
поподробнее можно пожалуйста. Как обнаружить такую заразу?
Обнаруживается по обилию multicast packets. Последних можно ловить каким-нибудь сниффером, можно собирать статистику по протоколам с помощью SNMP, можно просто в цисковской консоли делать show interfaces до одурения, как душе угодно. Еще видно по тому что все лампочки в серверной начинают как ненормальные моргать
uniqueman wrote:Что значит не нарезана на VLAN? У нас сеть разбита на подсети. Сервера которые падают находятся в DMZ.
То что вы говорите (подсети) это наверное в IP смысле. VLAN это Ethernet. Ваша циска может нарезать физически единую сеть на много независимых подсетей. Тогда то, что происходит в одной сети (например, multicast-storm) не будет воздействовать на другие.
http://www.blackhat.com/presentations/b ... itches.pdf
uniqueman wrote:PS: Порт на свитче одного из серверов продолжает показывать input errors (frame errors). Порт на втором сервере продолжает накапливать output errors (late collision errors)
Вам товарищ выше правильно заметил -- наверное что-то с настройкой сетевых адаптеров.
Cheers,
Amirko
Amirko
-
- Ник закрыт.
- Posts: 994
- Joined: 26 Aug 2003 16:14
- Location: Riga > Ottawa > Hartford
Re: TCP/IP вопрос
uniqueman wrote:Наверняка хотя бы один из портов установлен на Auto/Auto и в результате один порт работает на 100BaseTx-FD а второй на 100BaseTX-HD.
можно поподробнее про какие порты Вы говорите? режимы портов на свитче совпадают с режимами работы сетевых карт компьютеров
если у вас на всех портах свитча и всех сетевых адаптерах все hardcoded, везде стоит full duplex, и везде попарно совпадают скорости и при этом вы видите late collisions -- значит проблема либо cabling, либо железо накрылось где-то.
-
- Ник закрыт.
- Posts: 994
- Joined: 26 Aug 2003 16:14
- Location: Riga > Ottawa > Hartford
-
- Уже с Приветом
- Posts: 2013
- Joined: 16 Mar 2002 10:01
- Location: New York City
-
- Уже с Приветом
- Posts: 676
- Joined: 28 Apr 2003 02:06
- Location: Vilnius->Boston
-
- Уже с Приветом
- Posts: 2013
- Joined: 16 Mar 2002 10:01
- Location: New York City
r00t wrote:А я-бы свитч поменял. На время. На возможно более тупой. Найдите где-нить тупой безманагнутый 8-портовый свитч и воткните туда эти 3 линка и посмотрите как оно. Чем умнее свитч, тем больше вероятность глюкающего софта в нем.
свитч меняли уже несколько раз. Нашли более менее хороший. Ставили последние модели - плохо работали. Пришлось поставить постарее зато понадежднее
-
- Уже с Приветом
- Posts: 6991
- Joined: 04 Sep 2002 04:06
Re: TCP/IP вопрос
KYKAH wrote:uniqueman wrote:Наверняка хотя бы один из портов установлен на Auto/Auto и в результате один порт работает на 100BaseTx-FD а второй на 100BaseTX-HD.
можно поподробнее про какие порты Вы говорите? режимы портов на свитче совпадают с режимами работы сетевых карт компьютеров
если у вас на всех портах свитча и всех сетевых адаптерах все hardcoded, везде стоит full duplex, и везде попарно совпадают скорости и при этом вы видите late collisions -- значит проблема либо cabling, либо железо накрылось где-то.
Я с тобой Кукан согласен. Видел такое чудо на FreeBSD, отттрейсилось именно к тому, что ты написал.
-
- Уже с Приветом
- Posts: 2013
- Joined: 16 Mar 2002 10:01
- Location: New York City
пришел на работу и обнаружил что сервера опять лежат. Ошибка - abnormal program termination.
Запустил netstat. На обоих машинах заметил такие соединения
local address foreign address
-----------------------------------------------------------------------------
machine name:port SPOOZ: 5920
machine name:port SPOOZ: 46290
machine name:port SPOOZ: 49384
Не подскажете что такое SPOOZ ?
Спасибо
Запустил netstat. На обоих машинах заметил такие соединения
local address foreign address
-----------------------------------------------------------------------------
machine name:port SPOOZ: 5920
machine name:port SPOOZ: 46290
machine name:port SPOOZ: 49384
Не подскажете что такое SPOOZ ?
Спасибо
-
- Уже с Приветом
- Posts: 2846
- Joined: 28 Jun 2000 09:01
- Location: Milwaukee, WI
uniqueman wrote:пришел на работу и обнаружил что сервера опять лежат. Ошибка - abnormal program termination.
Запустил netstat. На обоих машинах заметил такие соединения
local address foreign address
-----------------------------------------------------------------------------
machine name:port SPOOZ: 5920
machine name:port SPOOZ: 46290
machine name:port SPOOZ: 49384
Не подскажете что такое SPOOZ ?
Спасибо
Это DNS имя компьютера. Попробуйте "netstat -n" - он должен показать IP адреса вместо имен.
moria# show running-config
-
- Уже с Приветом
- Posts: 317
- Joined: 16 Feb 2001 10:01
- Location: US
Re: TCP/IP вопрос
uniqueman wrote:Наверняка хотя бы один из портов установлен на Auto/Auto и в результате один порт работает на 100BaseTx-FD а второй на 100BaseTX-HD.
можно поподробнее про какие порты Вы говорите? режимы портов на свитче совпадают с режимами работы сетевых карт компьютеров
Вам надо на данных портах CISCO проставить жестко скорость и дуплех.
Грубо говoря:
config terminal
int fa0/x ( x - номер порта)
speed 100
duplex full
Правильно выше сказали что скорее всего не согласуется скорость и дуплех. Ето кстати очень часто проявляется с 3COM.
Если же ето не поможет, попробуйте поиграть с дуплексом.
Например явно убрать дуплех на обоих коцах. Были такие проблемы именно с 3COM.