Русфонд

пятница, 29 июня 2012 г.

Основы HA Admission control

_
Конспект по принципам работы HA admission control.
Почти все, что нужно знать об admission control, умещается в одном предложении:
vCenter Server использует admission control, чтобы обеспечить достаточное количество ресурсов для отказоустойчивости и выполнения требований резервирования ресурсов.
Это утверждение делится на две задачи для admission control:
   - обеспечить достаточное количество ресурсов на случай сбоя;
   - обеспечить соблюдение резервирования ресурсов для виртуальных машин (CPU reservations, memory reservations).
Т.о. admittion control - это резервирование ресурсов, а не управление ими.
При расчетах admission control учитывает только включенные виртуальные машины и активные хосты.
Admission control имеет три политики, каждая из которых по разному резервирует ресурсы кластера:
    1. Host failures the cluster tolerates;
    2. Percentage of cluster resorces reserved as failover spare capacity;
    3. Specify failover hosts.

Политика Specify failover hosts наиболее проста для понимания. Она позволяет определить хост, который будет использоваться в случае сбоя. Этот хост будет стоять и ждать своего часа. Простой оборудования - основной минус этой политики.

Две другие политики рассчитывают резервы на отказоустойчивость, исходя в основном из значений резервов CPU и памяти, выставленных на включенных виртуальных машинах.

Политика Host failures the cluster tolerates (количество сбоев хостов, на которое рассчитан кластер) ведет расчет ресурсов с помощью так называемых слотов и учитывает наихудший сценарий событий. Слот состоит из двух компонентов:
 - Memory slot (слот памяти);
 - CPU slot (слот CPU).
При расчете слота памяти учитывается включенная виртуальная машина в кластере, которая имеет самый большой резерв памяти, и ее overhead. Размер слота памяти равен  memory overhead + memory rezervation.
Размер слота CPU определяется по наибольшему значению резерва CPU для включенной виртуальной машины, либо берется значение по умолчанию 32MHz для vSphere 5.0, 256MHz для более ранних версий.
Разделив общее количество ресурсов на размер слота HA admission control получает количество свободных слотов. Между числом слотов памяти и числом слотов CPU выбирается наименьшее. Например, имеем 80 слотов памяти и 120 слотов CPU, значит, фактически имеем 80 слотов. Из этого числа отнимаем количество слотов на самом мощном хосте, т.к. на нем этих самых слотов помещается больше всего (т.е. потеря этого хоста - это и есть наихудший сценарий). Т.о. если у нас 5 хостов, и на каждом по 10 слотов памяти и CPU, то мы имеем не 50, а 40 слотов для работы при "Host failures the cluster tolerates" = 1.
Очевидно, что алгоритм этой политики "reservations -> slot size -> worst case" (резерв -> размер слота -> наихудший случай) очень сильно зависит от значений резервирования, выставленных на виртуальных машинах.

Политика Percentage of cluster resorces reserved as failover spare capacity дает возможность установить размер резерва ресурсов под отказоустойчивость. В vSphere 5.0 этот резерв устанавливается отдельно для памяти и CPU. В этой политике сравниваются текущее значение ресурсов, доступных для включения новых виртуальных машин (Current Failover Capacity), с заданным резервом ресурсов под отказоустойчивость (Configured Failover Capacity). Если Current меньше Configured, виртуальная машина не включится. Грубо принцип такой: если в кластере из четырех хостов Configured Failover Capacity установлен 25%, то ресурсы, эквивалентные ресурсам одного хоста, резервируются под отказоустойчивость.
Расчеты выглядят так
Current Failover Capacity = (root resource pool - resource requirements) / root resource pool,
где
root resource pool - общее число ресурсов хостов минус расходы на гипервизор (т.е. это не все физические ресурсы хостов);
resource requirements - ресурсы, необходимые для работы включенных виртуальных машин.

Resource requirements - это сумма требований к ресурсам от каждой включенной виртаульной машины:
 - для памяти:  memory overhead + memory rezervation;
 - для CPU  берется установленный резерв либо значение по умолчанию 32MHz для vSphere 5.0, 256MHz для более ранних версий.
Например,
    - кластер состоит из трех хостов по 9GHz и 24GB (расходы на гипервизор уже учтены);
    - в нем 4 включенных виртуальных машины:
- VM1 использует 2GHz и 1GB (без резерва),
- VM2 использует 2GHz и 2GB (резерв 2GB),
- VM3 использует 1GHz и 2GB (резерв 2GB),
- VM4 использует 3GHz и 6GB (резерв 1GHz и 2GB);
    - memory overhead для каждой виртуальной машины 100MB;
    - Configured CPU Failover Capacity - 25%,  Configured Memory Failover Capacity - 25%.

Получаем
root resource pool CPU = 9GHz+9GHz+9GHz = 27GHz,
root resource pool memory = 24GB+24GB+24Gb=72GB,
-
CPU resource requirements = 32MHz+32MHz+32MHz+1GHz= 1.096GHz,
Memory resource requirements = 0+100+2048+100+2048+100+2048+100= 6544MB = 6.4GB;
-
Current CPU  Failover Capacity = (27GHz-1.096GHz)/27= 95.94%=96%,
Current Memoty Failover Capacity =  (72GB – 6.4Gb)/72= 91%.
-
Из этих ресурсов мы можем использовать на новые виртуальные машины:
CPU = 96-25 = 71%,
Memory = 91- 25 = 66%.
Логично было бы параметры Configured Failover Capacity настраивать при изменении количества хостов в кластере.
Самой прозрачной и логичной выглядит политика Specify failover hosts. Используем ее, если не душит жаба по поводу простаивающих мощностей.
Между политиками Host failures the cluster tolerates и Percentage of cluster resorces reserved as failover spare capacity есть смысл выбрать вторую, как наиболее гибкую и простую. Собственно, из всех трех политик заокеанские гуру как правило рекомендуют выбирать Percentage of cluster resorces reserved as failover spare capacity.

Источники:
HA Admission Control the basics Part 1,  Part 2 и HA admission control, the answers... на yellow-bricks.com

понедельник, 18 июня 2012 г.

В vSphere Client не подключается CD\DVD к виртуальной машине

При попытке подключения через vSphere Client к виртуальной машине CD\DVD-ROM от рабочей станции получаем сообщение "The remote device on <VMname> connected to <local path> is disconnected.", устройство не подключается.
vSphere Client нужны необходимые права для доступа к CD\DVD-ROM локальной машины. Поэтому запускаем vSphere Client от имени администратора:
   Правый клик на ярлыке VMware vSphere Client > Run as Administrator
или
  Правый клик на ярлыке VMware vSphere Client > Properties > Закладка Compatibility или Emulation > Ставим галку Run this program as Administrator > OK.

четверг, 7 июня 2012 г.

Обучающие видео по работе с Veeam Backup&Replication 6.0.

http://www.veeam.com/vmware-esx-backup/university.html
Немного неудобно, что видео постоянно останавливается, и приходится нажимать play. Очевидно подразумевается, что смотришь и параллельно выполняешь ))

Опыт работы со сбойным диском в Windows 2003

Исходные данные:
  • ОС Windows Server 2003,
  • на сервере системный диск и диск с данными,
  • диск с данными в несколько сотен GB с большим количеством папок и файлов разного размера (файлов около 2 млн.), на большее количество папок наложены специфические разрешения для доступа пользователей (ACL), как правило входящих в доменные и локальные группы (в общем довольно большая и важная помойка).
В один прекрасный день диск с данными становится не доступен. ОС его видит как диск, назначает ему букву, но данные на нем и его свойства не читаются.
Запускаем проверку на диске с исправлением ошибок:
chkdsk d: /f ,
d - буква диска с данными.
Через 10-15 минут после запуска останавливаем проверку, не дождавшись ее окончания, т. к. такая проверка на нашем объеме будет выполнятся несколько часов. Диск и данные уже доступны, но на них отсутствуют данные ACL. Как показал опыт, разрешения на папках и файлах не будут восстановлены и при завершении проверки. Правильный ACL берем из бэкапа. В нашем случае это Veeam Backup&Replication. Восстанавливаем сервер, используя Instant Recovery, и бэкапим на нем ACL в файл с помощью утилиты командной строки icacls:
icacls d:\folder\* /save c:\temp\AclFile /T /C ,
d:\folder - папка на сбойном диске,
AclFile - файл бэкапа разрешений на объекты в d:\folder,
/T - параметр для работы с вложенными объектами (папками и файлами),
- параметр для продолжения работы утилиты при сбоях (нет прав на объект или объект неисправен).
Восстановление Instant Recovery и бэкап ACL занимает 15 минут.
Полученный AclFile копируем на боевой сервер и восстанавливаем разрешения на нем:
icacls  d:\folder\ /restore AclFile /C .
Если для резервирования файлового ресурса используется Symantec BacupExec, то восстановить ACL можно из резервной копии Symantec, указав при создании задания параметр "Restore only the NTFS permissions for files that exist at the destination; do not restore the file content".
Восстановление ACL в нашем случае происходит около двух часов.
После восстановления ACL данные доступны для работы, но диск до сих пор имеет dirty bit, т. е. будет проверятся на ошибки при перезагрузке сервера. Наличие dirty bit можно проверить запросом
fsutil dirty query d: .
Т. к. проверка на нашем объеме будет выполнятся несколько часов, отключаем проверку диска при загрузке ОС:
  • chkntfs /x d: ,
  • или правим в реестре HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Session Manager параметр BootExecute. Его значение по умолчанию "autocheck autochk *" изменяем на  "autocheck autochk /k: D", где D - буква сбойного диска.
При этом диск все еще имеет dirty bit, т. е. с точки зрения ОС находится в неустойчивом состоянии. Для снятия dirty bit необходимо выполнить полностью проверку диска. chkdsk d: /f запускаем в нерабочее время.