Какая серия у geforce 9600 gt. Определяем серию продукта видеокарт Nvidia

Девятое поколение видеокарт от Nvidia появилось на свет в начале 2008 года. Центром внимания станет чипсет средней ценовой категории - GeForce 9600 GT. Характеристики, результаты тестов, общее впечатление от стабильности работы - всё это вы сможете найти ниже. В результате сможете определиться с выбором

История появления

В 2008 году, когда AMD вовсю занимались выпуском бюджетных видеокарт, у компании Nvidia имелись только экземпляры топового варианта. Тем самым они лишили себя самого крупного сегмента потребителей. Встал вопрос о создании конкурента для Radeon 3800 Series. Первым делом попробовали занять эту нишу с помощью более слабой версии топовой видеокарты GeForce 8800. был уменьшен до смешных 256 МБ. И плата была выпущена в продажу. Однако среди пользователей ПК эта модификация видеокарты не снискала популярности.

Прибыль от продаж была ничтожно мала. Всё потому, что стоимость подобного топового чипа достаточно высока, чтобы урезать его показатели и продавать по низкой цене. В результате на передний план вышла девятая серия. Изначально производство планировалось начать не раньше, чем через год. В частности, это относится к первой GT. Характеристики видеокарты находятся на среднем уровне: между 8600 и 8800 GTS. Из модельного ряда AMD конкурентом стала серия 3800.

Девизом для повышения продаж 9600 GT стала следующая фраза: хорошая производительность за малые деньги. Из обзора вы узнаете, подтвердилось утверждение или нет по поводу видеокарты Nvidia 9600 GT, характеристики которой впечатляют. Этот графический чип стал настоящим основоположником целого поколения новых чипсетов, которые принесли ещё большую популярность компании и значительно расширили клиентскую базу как среди покупателей железа hi-end класса, так и в среднем ценовом сегменте.

Nvidia 9600 GT: технические характеристики

Итак, разберёмся, что же представляет собой эта видеокарта. Основой для неё стал чипсет 8800 GTS. Только урезанный по параметрам. Поскольку 8800 GTS была всего лишь промежуточной разработкой, технологии которой применили позднее в 9800. Базой для карты стал чипсет G94, тот же, что и в 8800 серии. Вы спросите: почему же тогда она стоит гораздо дешевле и на чём экономит производитель? Ответ достаточно простой. В 9600 GT урезано количество потоковых процессов вдвое, по сравнению со старшей моделью. Это позволило существенно снизить цену. Но прирост производительности был достигнут за счёт использования одинаковых шин с разрядностью 256 бит. Это позволило выйти на более высокие показатели частоты процессора и обработки шейдеров.

По словам 9600 GT, характеристики которой урезаны, производительнее 8800 серии на целых 15%. Вот уж прорыв в технологиях! Немного позже мы на практических тестах определим: правда это или нет. Также видеокарта оснащается 512 Мб встроенной памяти, поддержкой режима SLI (одновременное подключение к системе до трёх одинаковых видеокарт, работающих параллельно). У неё имеется интерфейс DirectX 10 и все необходимые разъёмы для подключения мониторов, вывода изображения на телевизор и так далее.

Внешний обзор видеокарты

Плата стала несколько меньше своего предшественника в основном за счёт упрощения технологии. Это позволяет устанавливать её в достаточно тесные бюджетные корпуса. Ведь 9600 GT (характеристики middle-end уровня) должна соответствовать своему классу, как ни крути. По всей площади платы имеется множество отверстий, которые предназначены для улучшения теплоотдачи. Сверху она закрыта пластиковым корпусом с радиатором и одним кулером. Этого вполне достаточно для поддержания стабильно низкой температуры даже при высоких нагрузках.

Результаты тестирования

Для проведения тестов в играх был установлен следующий стенд. Процесс от Intel - Core 2 Duo, двухъядерный с частотой по 3 Гц на каждое ядро. Кроме того, были в наличии 4 Гб оперативной памяти, жёсткий диск объёмом 750 Гб и блок питания Acbel на 500 Вт. Тестирование проводилось в тех играх, которые были актуальны на момент выпуска видеокарты 9600 GT. Характеристики стендового компьютера также соответствуют тому времени.

За основу взяты показатели в играх Crysis, Call of Duty 4, Bioshock, Lost Planet. Все они запускались с поддержкой DirectX 10 и на максимальных настройках при разрешении Full-HD. Первая игра (Crysis) повела себя совсем плохо - всего 10 кадров в секунду. Сказывается бюджетность модели видеокарты. В Call of Duty 4 и Bioshock игра выдаёт стабильные 40 кадров в секунду на максимальных настройках. Это уже хорошо для среднего ценового сегмента видеочипов. В Lost Planet комфортно было играть на средних или низких настройках с максимальным разрешением экрана.

Энергопотребление и разгон

Перейдём к энергопотреблению. Инженеры Nvidia умудрились снизить расход электроэнергии на целых 15%. Создатели показывают всеми способами принадлежность к среднему классу видеокарт Nvidia 9600 GT: характеристики, энергопотребление, производительность находятся именно на хорошем уровне за свою цену. Не забыли создатели видеокарты и о любителях поэкспериментировать над своим железом. Разгонные возможности решили не трогать. Поэтому на свой страх и риск владельцы могут попробовать создать из платы со средней производительностью настоящего монстра и покорителя современных игр.

Модели видеокарт, которые появились на рынке больше 10 лет назад, до сих пор не теряют свою актуальность. Главное их преимущество перед современными моделями – это низкая стоимость. Nvidia Geforce 9600 GT – один из ярких представителей подобных видеоускорителей. Модель появилась на рынке в 2008 году и представляла из себе устройство среднего класса. По прошествии времени видеокарта не может похвастаться высокой производительностью. Но, даже несмотря на это, эта модель – неплохое решение для выполнения офисных задач: работа с Microsoft Office и простыми графическими редакторами.

Чтобы понять, что именно из себя предоставляет видеускоритель этой модели, необходимо более подробно рассмотреть характеристики Nvidia Geforce 9600 GT.

Процессор видеокарты: G94;
Тактовая частота GPU: 650МГц;
Техпроцесс: 65-нанометров;
Объем памяти видеоускорителя: 512 MB;
Тип ОЗУ: GDDR3;
Пропускная способность: 57 Гбит/с;
Тактовая частота ОЗУ: 1800 МГц;
Частота SPU: 1625 МГц;
Число блоков растеризации: 16;
Текстурные блоки: 32;
Число SPU: 64;
Количество транзисторов: 505 миллионов.

Обзор Geforce 9600 GT

Для раскрытия максимального потенциала этой видеокарты не требуется дорогостоящих и мощных процессоров. Оптимальным вариантом для комфортной работы будут модели от компаний Intel и AMD из бюджетного сегмента.

Энергопотребление 9600GT составляет 96 Ватт. Поэтому при выборе блока питания будет достаточно модели объемом от 300 Ватт, даже при учете того, что процессор и материнская плата тоже потребляют мощность установленного на компьютер блока питания.

В рабочем состоянии видеокарта нагревается до 50-60 градусов. Этот показатель – нормальная температура видеокарты Geforce 9600 GT во время работы. Иногда она может повышаться до 80 градусов при запуске «тяжелых» приложений: программ для монтажа видео или современных игр.

В том случае, если вы наблюдаете подобное повышение температуры в состоянии простоя или при выполнение простых задач, то тогда следует заменить термопасту видеокарты и убедиться в работоспособности кулера.

Как разогнать видеокарту Nvidia Geforce 9600 GT

Если вы хотите повысить базовые параметры и увеличить скорость работы видеоускорителя, тогда вам нужно выполнить разгон видеокарты Nvidia Geforce 9600 GT.

Для осуществления процесса потребуется три утилиты:

Funmark.
GPU-Z.
MSI Afterburner.

В первой программе увеличьте показатели тактовой частоты GPU видеоускорителя и видеопамяти. За эти два показателя отвечают Memory Clock и Core Clock в интерфейсе программы.

Важно! Для этой модели видеокарты не нужно повышать эти показатели более, чем на 15% за один раз. Увеличивайте их постепенно.

Повысив Core Clock с 650 МГц до 800 Мгц и Memory Clock до 1900 МГц, запустите утилиту Funmark. С помощью этой программы произведите стресс-тест видеоускорителя. Если утилита Funmark не обнаружила никаких сбоев в работе, продолжайте разгон Nvidia Geforce 9600 GT.

По завершению процесса повышения базовых технических параметров откройте программу GPU-Z. Она предназначена для мониторинга текущих показателей вашего устройства.

Возможен ли майнинг на 9600 GT? С вероятностью в 95% видеокарта не справится с задачей добычи криптовалюты. Главная причина этому – маленький объем видеопамяти, которого недостаточно для комфортного процесса майнинга.

Какие игры потянет Nvidia Geforce 9600 GT

Произведем тест в играх Geforce 9600 GT и посмотрим, на что способна видеокарта.

Crysis 3. На высоких графических настройках и разрешении 1920×1080 пикселей показатель FPS был достаточно нестабилен. В некоторых локациях и сценах он опускался с 30 кадров до 22. Такие просадки обусловлены низким объемом видеопамяти. Что же касается фризов, то во время игры их не наблюдалось.

Ведьмак 2. Тестовый запуск производился в формате FullHD (1920×1080 пикселей) и высоких графических настройках. Показатель количества кадров составил 37 FPS. Фризов в локациях с преобладанием растительности, а также во время сцен перестрелок не наблюдалось.

Assassin’s Creed 2. Еще один игровой проект от студии Ubisoft. Тестирование игры производилось на средних графических настройках. Показатель FPS находился на достаточно приемлемом уровне – 30-34 кадров. Ниже этого уровня он не опускался даже в крупных городах.

Dishonored. Игра тестировалась на минимальных настройках графики в разрешении 1280×720. Показатель FPS находился на уровне 22-25 кадров в секунду. Из этого следует вывод, что мощностей этого видеоускорителя недостаточно для комфортной игры в Dishonored.

Mirror’s Edge. На высоких графических настройках и FullHD-разрешении Mirror’s Edge показывала стабильные 38-40 кадров в секунду. Этот показатель не опускался даже в моменты серьезных экшен-сцен и большого обилия объектов на игровой локации.

GTA 4. Объема видеопамяти недостаточно для комфортной игры в GTA 4. В среднем, показатель FPS находился на уровне 24-26 кадров. Часть настроек графики были выставлены на средние, часть – на низкие. В некоторых локациях количество кадров снижалось до 22. Причиной этому стала загруженность эти локаций. Из положительных моментов следует отметить отсутствие фризов во время игрового процесса.

The Evil Within. Тестирование проводилось на средних настройках в разрешении 1280×720 пикселей. Показатель FPS не поднимался выше 20 кадров. После снижения качества графики до минимальных настроек показатель количества кадров находился на приемлемом уровне в 23 кадра.

На основе теста видеокарты в играх следует вывод, что 9600 GT – не лучший вариант для запуска и комфортной игры в современных играх, вышедших 2-4 года назад.

Сравнение разных производителей

Производством видеокарты этой модели занимаются пять крупных компаний. Перед тем как сделать выбор производителя, произведем сравнительный анализ каждой модели в формате таблицы.

Производитель	MSI	Asus	Palit	Zotac	Gigabyte
GPU	G94	G94	G94	G94	G94
Техпроцесс	65 нм	65 нм	65 нм	65 нм	65 нм
Число транзисторов	505 миллионов	505 миллионов	505 миллионов	505 миллионов	505 миллионов
Блоков растеризации	16	16	16	16	16
Количество текстурных блоков	32	32	32	32	32
Частота SPU	1625 МГц	1625 МГц	1625 МГц	1625 МГц	1625 МГц
Объем видеопамяти (Мбайт)	512	512	512	512	512
Тип видеопамяти	GDDR3	GDDR3	GDDR3	GDDR3	GDDR3
Частота GPU (МГц)	700	600	650	675	650
Предельная температура процессора (°С)	100	100	100	100	100
Ширина шины	256 бит	256 бит	256 бит	256 бит	256 бит
Частота памяти (МГц)	1800	1800	1800	1800	1800
Пропускная способность(Гбайт/c)	57	57	57	57	57
Энергопотребление, Вт	96	96	96	96	96
Цена Nvidia Geforce 9600 GT, руб.	4100	3900	4200	4000	4150

Как скачать и установить новые драйвера

Очень важно обновлять видеодрайвера для видеоускорителя. Они оптимизируют видеоускоритель, что позволяет улучшить скорость работы в различных приложениях.

Зайдите на сайт производителя, чтобы скачать драйвер для Nvidia Geforce 9600GT. Процесс скачивания доступен для большей части популярных операционных систем, начиная от последней Windows 10 и популярной в народе Windows 7 и заканчивая версией XP.

На момент появления в продаже в начале 2008 года графический ускоритель модели GeForce 9600 от компании NVidia принадлежал к решениям среднего класса и позволял решать большинство задач. При этом использование наиболее продвинутого технологического процесса существенно сокращало его энергопотребление. Ну а стоимость у таких адаптеров была вполне демократичная и позволяла их использовать в составе вычислительных систем среднего уровня.

Ниша ускорителя

Графические ускорители компании NVidia в начале 2008 года распределялись следующим образом:

К решениям начального класса принадлежали 8600 GT. Весьма скромные характеристики и очень низкие тактовые частоты обеспечивали минимально допустимый уровень производительности. При этом стоимость на такие видеокарты находилась в пределах от 100 до 120 долларов.

К решениям среднего класса принадлежали 8800GT, 8800GTS и GeForce 9600 с приставкой GT. Эти адаптеры имели достаточно схожие характеристики и стоимость, но использование улучшенной технологии производства и повышенные тактовые частоты позволяли рассматриваемому решению без особых проблем опережать своих конкурентов.

Флагманским акселератором являлся 8800 Ultra. Достойной конкуренции решения среднего класса ему не могли составить, но и стоимость у него была существенно выше.

Комплектация

В комплект поставки компания NVidia включала в этом случае следующее:

Графический адаптер.

Гарантийный талон.

Компакт-диск, на котором был записан весь необходимый софт и документация в электронном виде.

Руководство пользователя.

Переходник DVI TO HDMI.

Специальный переходник для организации электропитания ускорителя через дополнительный 6-контактный разъем.

Спецификации чипа

G94 - это кодовое обозначение графического чипа, который лежал в основе GeForce 9600. Характеристики его указывают на то, что в его состав входило 505 миллионов транзисторных компонентов. Тактовая частота данного полупроводникового элемента была равна 650 МГц, а изготавливался он по нормам 65-нм техпроцесса. Его предшественники серии 8ХХХ, в свою очередь, производились по нормам 80 нм и имели худшие характеристики в плане энергоэффективности. Количество блоков обработки шейдеров составляло 64 штуки, а их частота в номинальном режиме была равна 1625 МГц. Модулей растеризации было включено в состав адаптера всего 16 штук, а количество TMU для каждого конвейера - 32.

Память

Единственный тип памяти, в связке с которым мог работать рассматриваемый графический ускоритель, - это GDDR3. Номинальная эффективная частота микросхем была равна 1800 МГц. Объем видеобуфера мог быть равен 512 Мб или 1 Гб. Разрядность шины подключения оперативной памяти к графическому процессору была равна 256 битам. Все ранее перечисленное позволяло получить пропускную способность на уровне 57,6 Гб/сек.

Коммуникации

Адаптер GeForce 9600 устанавливается в слот расширения PCI Express в исполнении 16Х. В базовом исполнении такой адаптер должен комплектоваться двумя цифровыми портами DVI. Но также некоторые производители могли дополнять их аналоговым VGA или цифровым HDMI. Поэтому оснащение с позиции портов зависит от конкретной модели, и этот нюанс необходимо учитывать перед покупкой.

Энергопотребление. Температурный режим

Применение передовой технологии производства полупроводниковой основы процессора позволило существенно понизить уровень потребляемой мощности. Видеокарта NVidia GeForce 9600 GT имеет тепловой пакет в 95 Вт. Конечно, в рекомендованные 75 Вт, достаточные для работы видеоподсистемы без дополнительного электроснабжения, это число не вписывается, но для графических решений такого класса такая организация питания типична. Максимальная температура для данного продукта установлена производителем на отметке в 105 0 С. В штатном режиме это значение не превышает 60 0 С, в режиме же разгона и при решении наиболее требовательных задач она может повыситься до 75 0 С.

Тесты. Сравнение с аналогами

Видеокарта GeForce 9600 является решением среднего уровня, и ее наиболее рационально сравнивать с аналогичными решениями. Поскольку прямые конкуренты от компании АМД производились по устаревшему на тот момент техпроцессу, сравнивать их с 9600 GT нецелесообразно по той причине, что при сопоставимом быстродействии потребляемая мощность у них будет значительно выше. Из перечня компании NVidia этот адаптер можно лишь сравнить с 8800 GTS и 8800 GT. Тестовый стенд базировался на наборе системной логики Р35, оперативная память была стандарта DDR2 с частотой 800 МГц, и ее объем был равен 2 Гб (2 модуля по 1 Гб для того, чтобы контроллер ОЗУ функционировал в двухканальном режиме, за счет этого обеспечивался прирост быстродействия около 10-15%). В синтетическом тесте 3DMark06 адаптеры набрали такие условные баллы в режиме 1600Х1200:

Скорее всего, на момент проведения данного теста не была проведена полная оптимизация драйверов, и показатели более поздней видеокарты из-за этого были несущественно занижены. С другой стороны, разница не настолько уж и большая между ними. Кардинально меняется расстановка сил в игре Gears Of War. В этом случае мы получаем такое количество fps при 1280Х1024:

Разница, конечно, в один кадр в секунду не настолько уж и большая, но она все же выводит более свежий ускоритель в лидеры этого теста. Приведенные ранее результаты указывают на то, что за 9600 GT скрывается слегка модифицированный 8800 GT, который изготовлен по новому техпроцессу. Разница между этими видеокартами минимальна. Причем в некоторых случаях представитель более раннего поколения обходит свою обновленную модификацию.

Стоимость

В самом начале продаж NVidia GeForce 9600 можно было приобрести по цене 150-170 долларов. С учетом позиционирования и технических спецификаций подобный подход к ценообразованию был оправдан. Сейчас же такой ускоритель можно приобрести по цене от 1500 (бывшие в использовании решения) до 3000 (абсолютно новые акселераторы) рублей. Покупать такой адаптер для нового ПК сейчас нецелесообразно. Новые интегрированные видеоускорители имеют равный уровень быстродействия, и их дополнительно приобретать нет нужды. А вот для ремонта старого ПК такой акселератор все же можно купить.

21 февраля 208 года канадская компания официально представила видеокарту 9600 GT. Она была призвана отправить на "заслуженный покой" 8600 GTS в middle-end-сегменте в ценовой категории до 0. Новое ядро G94 отличается от своего старшего "брата" G92 лишь количественными характеристиками, а функциональное назначение и принцип действия исполнительных блоков остались без каких-либо значимых изменений. С точки зрения количественных характеристик 9600 GT имеет в запасе 64 универсальных процессора - это в два раза больше, чем у "старичка" 8600 GTS, и в два раза меньше, чем у GeForce 8800 GTS (G92) или GeForce 8800 GTX. На этот раз уже будем надеяться, что не произойдет такого колоссального разрыва в производительности по сравнению со старшими решениями, как это было между 8800 и 8600.

Итак, новоиспеченное ядро G94 состоит из 505 млн транзисторов (для сравнения: у G86 их было 210 млн, у G92 - 754 млн, у G80 - 681 млн). Оно работает на номинальной частоте 650 MHz для NVIDIA GeForce 9600 GTS. Графический процессор использует унифицированную шейдерную архитектуру, которая превосходно себя зарекомендовала в чипах G80/84/92. Идея унификации функциональных блоков GPU заключается в следующем: ранее они разделялись на вершинные и шейдерные, а теперь универсальные блоки способны обрабатывать любые виды инструкций без существенных потерь в производительности. Это позволит динамически изменять производительность ядра за счет перераспределения ресурсов для нужной в данный момент задачи. В итоге у нас получается полная загрузка чипа, и как следствие повышается производительность.

В случае G94 мы видим элементарную редукцию - 4 шейдерных блока, в каждом из которых сосредоточены по 16 потоковых процессоров (Streaming Processor) и 8 текстурных блоков (TMU). Всего получается 64 потоковых процессора и 32 текстурных модуля. Все процессоры G94, как и в предыдущих чипах, работают с повышенными относительно GPU тактовыми частотами. В частности, для 9600 GT она равняется 1650 MHz. Напоследок отметим блоки записи в кадровый буфер (ROP), которых в данном случае 4 (на диаграмме синие блоки рядом с кэшем L2). В работе и концепции построения потоковых процессоров (SP) NVIDIA не вносила никаких поправок со времен чипов G84.

На каждые четыре потоковых процессора приходится два модуля адресации текстур TA и по два модуля фильтрации текстур TF. Поэтому теперь каждый текстурный блок в связи с увеличением числа вычисляемых текстурных адресов сможет обрабатывать вдвое больше выборок, чем таковой, к примеру, у G80. Каждый шейдерный блок снабжен собственным кэшем первого уровня L1. В нем могут храниться не только текстуры, но и в связи с унифицированностью самих блоков различного рода данные. Все потоковые процессоры (SP), на которых основана архитектура G94, являются скалярными. Почему не векторными? Причина кроется в том, что на основе исследований шейдерных программ разработчиками компании NVIDIA было выяснено, что векторная архитектура достаточно неэкономично использует вычислительные ресурсы, когда идет обработка сложных инструкций - например, скалярных и векторных одновременно (вообще говоря, скалярные вычисления на векторных процессорах выполняются очень неэффективно). В свете наметившейся в последнее время тенденции к все большему переходу от векторных вычислений к скалярным стратегия разработчиков NVIDIA, пожалуй, становится ясной. Ну, а что же делать с векторным программным кодом? Все очень просто: он преобразуются в скалярные операции непосредственно самим чипом G94. Как уже говорилось, у GeForce 9600 имеется в наличии 4 блока записи в кадровый буфер (ROP). Они не претерпели каких-либо изменений относительно архитектуры G92 и поддерживают следующие методы антиалиасинга: мультисэмплинг, суперсэмплинг и адаптивное сглаживание.

Характеристики NVIDIA GeForce 9600 GT

Наименование	GeForce 9600 GT
Ядро	G94 (D9P)
Техпроцесс (мкм)	0.065
Транзисторов (млн)	505
Частота работы ядра	650
Частота работы памяти (DDR)	900
Шина и тип памяти	GDDR3 256-bit
ПСП (Гб/с)	57.60
Унифицированные шейдерные блоки	64
Частота унифицированных шейдерных блоков	1625
TMU на конвейер	32
ROP	16
Shaders Model	4.0
Fill Rate (Mpix/s)	10400
Fill Rate (Mtex/s)	20800
DirectX	10.0
Объем памяти	512/1024
Интерфейс	PCI-E 2.0

технология (нм) 90 80 65/55 транзисторов (М) 681 289 210 754 505 314 универсальных процессоров 128 32 16 128 64 32 текстурных блоков 32 16 8 64 32 16 блоков блендинга 24 8 16 8 шина памяти 384 (64х6) 128 (64х2) 256 (64х4) 128 (64х2) типы памяти DDR, GDDR2, GDDR3, GDDR4 системная шина чипа PCI-Express 16х PCI-Express 2.0 16х RAMDAC 2 х 400МГц интерфейсы TV-Out
TV-In (нужен чип захвата)
2 x DVI Dual Link
HDTV-Out TV-Out
TV-In (нужен чип захвата)
2 x DVI Dual Link
HDTV-Out
HDMI TV-Out
TV-In (нужен чип захвата)
2 x DVI Dual Link
HDTV-Out
HDMI
DisplayPort вершинные шейдеры 4.0 пиксельные шейдеры 4.0 точность пиксельных вычислений FP32 точность вершинных вычислений FP32 форматы текстур FP32)
FP16
I8
DXTC, S3TC
3Dc форматы рендеринга FP32
FP16
I8
10
другие MRT есть Антиалиасинг TAA (AA прозрачных полигонов)
CSAA 2x-16x
генерация Z 2х в режиме без цвета буфер шаблонов двусторонний технологии теней аппаратные карты теней
оптимизации геометрических теней

Спецификации референсных карт на базе семейства G8X

карта	чип шина	блоков ALU/TMU	частота ядра (МГц)	частота памяти (МГц)	объем памяти (Мбайт)	ПСП (Гбайт)	тексель рэйт (Мтекс)	филл рэйт (Мпикс)
GeForce 8500 GT	G86 PEG16х	16/8	450	400(800)	256 DDR2	12.8 (128)	3600
GeForce 8600 GT	G84 PEG16х	32/16	540	700(1400)	256 GDDR3	22.4 (128)	8600	4300
GeForce 8600 GTS	G84 PEG16х	32/16	675	1000(2000)	256 GDDR3	32.0 (128)	10800	5400
GeForce 8800 GTS 320MB	G80 PEG16х	96/24	500	800(1600)	320 GDDR3	64.0 (320)	12000	10000
GeForce 8800 GTS 640MB	G80 PEG16х	96/24	500	800(1600)	640 GDDR3	64.0 (320)	12000	10000
GeForce 8800 GTX	G80 PEG16х	128/32>	575	900(1800)	768 GDDR3	86.4 (384)	18400	13800
GeForce 8800 Ultra	G80 PEG16х	128/32	612	1080(2160)	768 GDDR3	104.0 (384)	19600	14700
GeForce 8800 GT 256MB	G92 PEG16х	112/56	600	700(1400)	256 GDDR3	44.8 (256)	33600	9600
GeForce 8800 GT 512MB	G92 PEG16х	112/56	600	900(1800)	512 GDDR3	57.6 (256)	33600	9600
GeForce 8800 GTS 512MB	G92 PEG16х	128/64	650	1000(2000)	512 GDDR3	64.0 (256)	41600	10400
GeForce 8800 GS	G92 PEG16х	96/48	550	800(1600)	384 GDDR3	38.4 (192)	26400	6600
GeForce 9400 GT	G96 PEG16х	16/8	550	800(1600)	256/512 GDDR2	25.6 (128)	4400	4400
GeForce 9500 GT	G96 PEG16х	32/16	550	800(1600)	256/512 GDDR2/GDDR3	25.6 (128)	8800	4400
GeForce 9600 GSO	G92 PEG16х	96/48	550	800(1600)	384 GDDR3	38.4 (192)	26400	6600
GeForce 9600 GT	G94 PEG16х	64/32	650	900(1800)	512 GDDR3	57.6 (256)	20800	10400
GeForce 9800 GT	G92 PEG16х	112/56	600	900(1800)	512 GDDR3	57.6 (256)	33600	9600
GeForce 9800 GTX	G92 PEG16х	128/64	675	1100(2200)	512 GDDR3	70.4 (256)	43200	10800
GeForce 9800 GTX+	G92 PEG16х	128/64	738	1100(2200)	512/1024 GDDR3	70.4 (256)	47200	11800
GeForce 9800 GX2	2xG92 PEG16х	2x(128/64)	600	1000(2000)	2x512 GDDR3	2x64.0 (2x256)	76800	19200
GeForce GTS 250	G92 PEG16х	128/64	738	1100(2200)	512/1024 GDDR3	70.4 (256)	47200	11800
карта	чип шина	блоков ALU/TMU	частота ядра (МГц)	частота памяти (МГц)	объем памяти (Мбайт)	ПСП (Гбайт)	тексель рэйт (Мтекс)	филл рэйт (Мпикс)

Подробности: G80, семейство GeForce 8800

Спецификации G80

Официальное название чипа GeForce 8800
Кодовое имя G80
Технология 90 нм
681 миллион транзисторов
Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других возможных видов данных
Аппаратная поддержка последних новшеств DirectX 10, в том числе и новой шейдерной модели - Shader Model 4.0, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
384 бит шина памяти, 6 независимых контроллеров шириной 64 бита, поддержка GDDR4
Частота ядра 575 ГГц (GeForce 8800 GTX)
128 скалярных ALU с плавающей точкой (целочисленные и плавающие форматы, поддержка FP 32-бит точности в рамках стандарта IEEE 754, MAD+MUL без потери тактов)
ALU работают на более чем удвоенной частоте (1.35 ГГц для 8800 GTX)
32 текстурных блока, поддержка FP16 и FP32 компонент в текстурах
64 блока билинейной фильтрации (т.е. возможна бесплатная честная трилинейная фильтрация, а также вдвое более эффективная по скорости анизотропная фильтрация)
- размер блока планирования - 8х4 (32) пикселя.
6 широких блоков ROP (24 пикселя) c поддержкой режимов антиалиасинга до 16 семплов на пиксель в том числе при FP16 или FP32 формате буфера кадра (т.е. возможны HDR+AA). Каждый блок состоит из массива гибко конфигурируемых ALU и отвечает за генерацию и сравниение Z, MSAA, блендинг. Пиковая производительность всей подсистемы до 96 MSAA отсчетов (+ 96 Z) за такт, в режиме без цвета (Z only) - 192 отсчета за такт.
Все интерфейсы вынесены на внешний дополнительный чип NVIO (2 RAMDAC, 2 Dual DVI, HDMI, HDTV)
Очень хорошая масштабируемость архитектуры, можно по одному блокировать или убирать контроллеры памяти и ROP (всего 6), шейдерные блоки (всего 8 блоков TMU+ALU)

Спецификации референсной карты GeForce 8800 GTX

Частота ядра 575 МГц
Частота универсальных процессоров 1350 МГц
Количество текстурных блоков - 32, блоков блендинга - 24
Объем памяти 768 мегабайт
Пропускная способность памяти 86.4 гигабайта в сек.
Теоретическая максимальная скорость закраски 13.8 гигапикселя в сек.
Теоретическая скорость выборки текстур 18.4 гигатекселя в сек.
SLI разъем
Шина PCI-Express 16х
Рекомендуемая цена $599

Спецификации референсной карты GeForce 8800 GTS

Частота ядра 500 МГц
Частота универсальных процессоров 1200 МГц
Количество универсальных процессоров 96
Количество текстурных блоков - 24, блоков блендинга - 20
Тип памяти GDDR3, 1.1 нс (штатная частота 2*900 МГц)
Объем памяти 640 мегабайт
Теоретическая максимальная скорость закраски 10.0 гигапикселя в сек.
Теоретическая скорость выборки текстур 12.0 гигатекселя в сек.
Два DVI-I разъема (Dual Link, поддерживается вывод в разрешениях до 2560х1600)
SLI разъем
Шина PCI-Express 16х
TV-Out, HDTV-Out, поддержка HDCP
Рекомендуемая цена $449

Архитектура

Перехода на унифицированные графические архитектуры мы ждали долго. Теперь можно констатировать факт - с появлением GeForce 8800 этот переход случился, и критическая вершина уже пройдена. Дальше последует постепенный спуск подобных архитектур в средний и бюджетный сегменты и их дальнейшее развитие, вплоть до слияния с многоядерными процессорными архитектурами в дальней перспективе. Итак, знакомимся с первой унифицированной архитектурой от NVIDIA:

Перед нами вся диаграмма чипа. Чип состоит из 8 универсальных вычислительных блоков (шейдерных процессоров) и хотя NVIDIA говорит о 128 процессорах, заявляя, что каждое ALU является таковым, это несколько неверно - единица исполнения команд - такой вот процессорный блок, в котором сгруппированы 4 TMU и 16 ALU. Всего, таким образом, мы имеем 128 ALU и 32 TMU, но гранулярность исполнения составляет 8 блоков, каждый из которых в один момент может заниматься своим делом, например, исполнять часть вершинного, или пиксельного, или геометрического шейдера над блоком из 32 пикселей (или блоком из соответствующего числа вершин и иных примитивов). Все ветвления, переходы, условия и т.д. применяются целиком к одному блоку и таким образом логичнее всего, его и называть шейдерным процессором, пускай и очень широким.

Каждый такой процессор снабжен собственным кэшем первого уровня, в котором теперь хранятся не только текстуры, но и другие данные, которые могут быть запрошены шейдерным процессором. Важно понимать, что основной поток данных, например пиксели или вершины, которые и проходят обработку, двигаясь по кругу под управлением серого кардинала (блока, помеченного на схеме Thread Processor) - не кэшируются, а идут потоком, в чем и состоит основная прелесть сегодняшних графических архитектур - отсутствие полностью случайного доступа на уровне обрабатываемых примитивов.

Кроме управляющего блока и 8 вычислительных шейдерных процессоров в наличии 6 блоков ROP, исполняющих определение видимости, запись в буфер кадра и MSAA (синие, рядом с блоками кэша L2) сгруппированные с контроллерами памяти, очередями записи и кэшем второго уровня.

Таким образом, мы получили очень широкую (8 блоков, обрабатывающих порции по 32 пикселя каждый) архитектуру способную плавно масштабироваться в обе стороны. Добавление или удаление контроллеров памяти и шейдерных процессоров, будет соответствующим образом масштабировать пропускную способность всей системы, не нарушая баланса и не создавая узких мест. Это логичное и красивое решение, реализующее основной плюс унифицированной архитектуры - автоматический баланс и высокий КПД использования имеющихся ресурсов.

Кроме шейдерных блоков и ROP в наличии набор управляющих и административных блоков:

Блоки, запускающие на исполнение данные тех или иных форматов (Vertex, Geometry и Pixel Thread Issue) - своеобразные привратники, подготавливающие данные для числодробилки в шейдерных процессорах в соответствии с форматом данных, текущим шейдером и его состоянием, условиями ветвлений и т.д.
Setup/Raster/ZCull - блок, превращающий вершины в пиксели - здесь выполняется установка, растеризация треугольника на блоки по 32 пикселя, предварительный блочный HSR.
Input Assembler - блок, выбирающий геометрические и прочие исходные данные из памяти системы или локальной памяти, собирающий из потоков исходные структуры данных, которые пойдут извне на вход нашей «карусели». А на выходе, после многих кругов под управлением вершинного, геометрического, пиксельного шейдера и настроек блендинга, мы получим готовые (и сглаженные, если нужно) пиксели из ROP блоков.

Кстати, небольшое отступление: хорошо видно, что в будущем эти блоки приобретут более общий характер и не будут так завязаны на конкретные виды шейдеров. Т.е. превратятся просто в универсальные блоки, осуществляющие запуск данных на вычисление и конверсию форматов - например, от одного шейдера к другому, от вершинного к пиксельному и т.д. Никаких принципиальных изменений в архитектуру это уже не внесет, диаграмма будет выглядеть и работать практически также, за исключением меньшего числа специальных «серых» блоков. Уже сейчас все три блока Thread Issue являются, скорее всего (реально) одним блоком с общей функциональностью и контекстными дополнениями:

Шейдерный процессор и его TMU/ALU

Итак, в каждом из 8 шейдерных блоков в наличии 16 скалярных ALU. Что, опять таки дает нам потенциальную возможность увеличить КПД их нагрузки вплоть до 100%, вне зависимости от кода шейдера. ALU работают на удвоенной частоте и таким образом соответствуют или превосходят (в зависимости от операций в шейдере) 8 четырехкомпонентных векторных ALU старого образца (G70) на равной базовой частоте ядра. NVIDIA приводит такой расчет пиковой производительности:

Однако он действителен для самого невыгодного для других варианта, когда имеют место два умножения. В реальной жизни стоит поделить это преимущество в полтора раза или около того. Но, в любом случае, эти скалярные ALU за счет более высокой тактовой частоты и их числа обгонят все ранее существовавшие чипы. За исключением, может быть, SLI конфигурации G71, в случае не самых выгодных для новой архитектуры шейдеров.

Интересно, что точность всех ALU составляет FP32 и, с учетом новой архитектуры, мы не предвидим никакого преимущества для FP16 шейдеров с пониженной точностью. Еще один интересный момент - поддержка вычислений в целочисленном формате. Этот пункт необходим для реализации SM4. При реализации арифметики соблюден стандарт IEEE 754, что делает ее пригодной для серьезных неигровых вычислений - научных, статистических, экономических и др.

Теперь о взаимодействии текстурных блоков и ALU в рамках одного шейдерного блока:

Операция выборки и фильтрации текстур не требует ресурсов ALU и может теперь производиться полностью параллельно математическим вычислениям. Генерация же текстурных координат (на схеме - А ) по прежнему отнимает часть времени ALU. Это логично, если мы хотим использовать транзисторы чипа на все 100%, ведь генерация текстурных координат требует стандартных плавающих операций и заводить для нее отдельные ALU было бы непредусмотрительно.

Сами по себе текстурные модули имеют следующую конфигурацию:

В наличии 4 модуля для адресации текстур TA (определения по координатам точного адреса для выборки) и вдвое больше модулей для билинейной фильтрации TF. Почему так? Это позволяет при умеренном расходовании транзисторов обеспечить бесплатную честную трилинейную фильтрацию или вдвое понизить падение скорости при анизотропной фильтрации. Скорость на обычных разрешениях, в обычной фильтрации и без АА давно не имеет смысла - и предыдущее поколение ускорителей прекрасно справляется в таких условиях. Новым чипом поддерживаются и FP16/FP32 форматы текстур, а также SRGB гамма коррекция на входе (TMU) и выходе (ROP).

Приведем спецификации шейдерной модели новых процессоров, соответствующей требованиям SM4:

Налицо значительные количественные и качественные перемены - все меньше и меньше ограничений для шейдеров, все больше и больше общего с CPU. Пока что без особого произвольного доступа (такая операция появилась в SM4, - пункт Load Op на диаграмме, но ее эффективность для общих целей пока сомнительна, особенно в первых реализациях), но нет сомнений, что в скором времени и этот аспект будет развит, как была развита за эти 5 лет поддержка FP форматов - от первых проб в NV30 до тотального, сквозного FP32 конвейера во всех режимах сейчас - в G80.

Как мы помним, кроме 8 шейдерных блоков, в наличии 6 блоков ROP:

На диаграмме показаны два отдельных пути для Z и C однако реально это просто один набор ALU, которые делятся на две группы при обработке пикселей с цветом, либо действуют как одна группа при обработке в режиме Z-Only, увеличивая таким образом пропускную способность вдвое. В наше время нет смысла считать отдельные пиксели - их и так достаточно, важнее посчитать сколько MSAA сэмплов может быть обработано за такт. Соответственно, при MSAA 16х чип может выдавать 6 полноценных пикселей за такт, при 8х - 12 и т.д. Интересно, что масштабируемость работы с буфером кадров на высоте - как мы помним, каждый блок ROP работает с собственным контроллером памяти и не мешает соседним.

И наконец-то есть полноценная поддержка FP32 и FP16 форматов буфера кадров вместе с антиалиасингом, теперь нет никаких ограничений для фантазии разработчиков, и HDR на протяжении всего конвейера не требует изменения общей последовательности построения кадра даже в AA режиме.

CSAA

Появился и новый метод сглаживания - CSAA . Скоро на сайте будет его подробное исследование, а пока отметим, что этот метод во многом похож на подход ATI и также имеет дело с псевдостохастическими паттернами и распространением отсчетов на соседние геометрические зоны (происходит размазывание пикселя, пиксели не имеют резкой границы, а как бы переходят один в другой с т.з. AA, покрывая некую зону). Причем цвета отсчетов и глубина хранятся отдельно от информации об их местоположении и таким образом на один пиксель может приходиться 16 отсчетов но, например, всего 8 вычисленных значений глубины - что дополнительно экономит пропускную способность и такты.

Известно, что классический MSAA в режимах, больших чем 4х, становится очень требователен с точки зрения памяти, в то время как качество растет все меньше и меньше. Новый метод корректирует это, позволяя получать 16х режим сглаживания, заметно более качественный чем MSAA 16х, с вычислительными затратами, сравнимыми с 4х MSAA.

NVIO

Еще одно новшество в G80 - вынесенные за предел основного чипа ускорителя интерфейсы. За них теперь отвечает отдельный чип под названием NVIO:

В этом чипе интегрированы:

2 * 400 МГц RAMDAC
2 * Dual Link DVI (или LVDS)
HDTV-Out

Подсистема вывода выглядит так:

Точность при этом всегда составляет 10 бит на компоненту. Разумеется, в среднем сегменте и тем более в бюджетных решениях отдельный внешний чип может не сохраниться, но для дорогих карт в таком решении больше плюсов, чем минусов. Интерфейсы занимают значительную площадь чипа, сильно зависят от помех, требуют особого питания. Устранив все эти проблемы при помощи внешнего чипа, можно выиграть в качестве выходных сигналов и гибкости конфигурации, а также не усложнять разработку и так сложного чипа учетом оптимальных режимов для встроенных RAMDAC.

Подробности: G84/G86, семейства GeForce 8600 и 8500

Спецификации G84

Официальное название чипа GeForce 8600
Кодовое имя G84
Технология 80 нм
289 миллионов транзисторов
Частота ядра до 675 МГц (GeForce 8600 GTS)
ALU работают на более чем удвоенной частоте (1.45 ГГц для GeForce 8600 GTS)
16 текстурных блоков, поддержка FP16 и FP32 компонент в текстурах
16 блоков билинейной фильтрации (по сравнению с G80 нет возможности бесплатной трилинейной фильтрации и более эффективной по скорости анизотропной фильтрации)
Возможность динамических ветвлений в пиксельных и вершинных шейдерах
Запись результатов до 8 буферов кадра одновременно (MRT)

Спецификации референсной карты GeForce 8600 GTS

Частота ядра 675 МГц
Частота универсальных процессоров 1450 МГц
Тип памяти GDDR3
Объем памяти 256 мегабайт
Пропускная способность памяти 32.0 гигабайта в сек.
Теоретическая максимальная скорость закраски 5.4 гигапикселя в сек.
Теоретическая скорость выборки текстур 10.8 гигатекселя в сек.
Энергопотребление до 71 Вт
SLI разъем
Шина PCI-Express 16х
TV-Out, HDTV-Out, поддержка HDCP
Рекомендуемая цена $199-229

Спецификации референсной карты GeForce 8600 GT

Частота ядра 540 МГц
Частота универсальных процессоров 1180 МГц
Количество универсальных процессоров 32
Количество текстурных блоков 16 (см. синтетику), блоков блендинга 8
Тип памяти GDDR3
Объем памяти 256 мегабайт
Пропускная способность памяти 22.4 гигабайта в сек.
Теоретическая максимальная скорость закраски 4.3 гигапикселя в сек.
Теоретическая скорость выборки текстур 8.6 гигатекселя в сек.
Энергопотребление до 43 Вт
SLI разъем
Шина PCI-Express 16х
Рекомендуемая цена $149-159

Спецификации G86

Официальное название чипа GeForce 8500
Кодовое имя G86
Технология 80 нм
210 миллионов транзисторов
Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
Аппаратная поддержка DirectX 10, в том числе и новой шейдерной модели Shader Model 4.0, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
128-бит шина памяти, два независимых контроллера шириной 64 бита
Частота ядра до 450 МГц (GeForce 8500 GT)
ALU работают на удвоенной частоте (900 МГц для GeForce 8500 GT)
16 скалярных ALU с плавающей точкой (целочисленные и плавающие форматы, поддержка FP 32-бит точности в рамках стандарта IEEE 754, MAD+MUL без потери тактов)
8 текстурных блоков, поддержка FP16 и FP32 компонент в текстурах
8 блоков билинейной фильтрации (по сравнению с G80, нет возможности бесплатной трилинейной фильтрации и более эффективной по скорости анизотропной фильтрации)
Возможность динамических ветвлений в пиксельных и вершинных шейдерах
2 широких блока ROP (8 пикселей) с поддержкой режимов антиалиасинга до 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Каждый блок состоит из массива гибко конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг. Пиковая производительность всей подсистемы до 32 MSAA отсчетов (+ 32 Z) за такт, в режиме без цвета (Z only) 64 отсчета за такт
Запись результатов до 8 буферов кадра одновременно (MRT)
Все интерфейсы (два RAMDAC, два Dual DVI, HDMI, HDTV) интегрированы на чип (в отличие от вынесенных на внешний дополнительный чип NVIO у GeForce 8800)

Спецификации референсной карты GeForce 8500 GT

Частота ядра 450 МГц
Частота универсальных процессоров 900 МГц
Эффективная частота памяти 800 МГц (2*400 МГц)
Тип памяти DDR2
Объем памяти 256/512 мегабайт
Пропускная способность памяти 12.8 гигабайта в сек.
Теоретическая максимальная скорость закраски 3.6 гигапикселя в сек.
Теоретическая скорость выборки текстур 3.6 гигатекселя в сек.
Энергопотребление до 40 Вт
Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600)
SLI разъем
Шина PCI-Express 16х
TV-Out, HDTV-Out, опциональная поддержка HDCP
Рекомендуемая цена $89-129

Архитектура G84 и G86

Уже по спецификациям видно, что G84 это что-то среднее между одной четвертой и одной третьей частей флагмана линейки G80. С точки зрения количества универсальных процессоров получается четверть, а с точки зрения количества блоков ROP и контроллера памяти треть. С текстурниками сложнее, это вроде бы не четверть, но и не половина, об этом мы поговорим ниже. G86, в свою очередь, вообще нечто интересное по вычислительной мощности всего лишь 1/8 от G80, а по ROP всё та же 1/3. Явно NVIDIA не торопится спускать в low-end чипы, быстрые вычислительно.

Основной вопрос тут а достаточно ли будет этой самой четвертинки и 1/8 для того, чтобы составить достойную конкуренцию нынешним решениям и будущим чипам AMD? Не слишком ли сильно урезали в NVIDIA количество блоков? Причем, не сказать, чтобы по количеству транзисторов оба чипа были слишком маленькие... В G84 почти половина транзисторов G80, в G86 почти треть. Похоже, что решение компромиссное, если бы они оставляли половину блоков G80, то чип был бы слишком дорогим в производстве, да и составлял бы успешную конкуренцию своим же GeForce 8800 GTS.

В ближайшем будущем, скорее всего, на основе технологии 65 нм можно будет сделать более производительные чипы для среднего и нижнего ценовых диапазонов, а сейчас пока что получилось так. Мы рассмотрим вопрос производительности новых чипов в синтетических и игровых тестах, но уже сейчас можно сказать, что G84 и G86 могут быть не слишком быстрыми из-за малого количества ALU, они, скорее всего, будут примерно наравне с текущими решениями схожей с ними цены.

На архитектуре G84 и G86 мы не будем останавливаться слишком подробно, изменений по сравнению с G80 тут немного, в силе остается всё сказанное в обзоре GeForce 8800, с поправкой на количественные характеристики. Но все же опишем основные моменты, которые стоят нашего внимания и приведем несколько слайдов, посвященных архитектурным спецификациям новых чипов.

G80 состоит из восьми универсальных вычислительных блоков (шейдерных процессоров), NVIDIA предпочитает говорить о 128 процессорах. Единица исполнения команд, судя по всему, это такой процессорный блок целиком, в котором сгруппированы 4 TMU и 16 ALU. Каждый из блоков в один момент может исполнять часть вершинного, пиксельного или геометрического шейдера над блоком из 32 пикселей, вершин или иных примитивов, также может заниматься физическими расчетами. У каждого процессора есть свой кэш первого уровня, в котором хранятся текстуры и другие данные. Кроме управляющего блока и вычислительных шейдерных процессоров присутствует шесть блоков ROP, исполняющих определение видимости, запись в буфер кадра и MSAA, сгруппированные c контроллерами памяти, очередями записи и кэшем второго уровня.

Эта архитектура способна масштабироваться в обе стороны, что и было сделано в новых решениях. Мы уже упоминали об этом красивом решении, реализующем основной плюс унифицированной архитектуры автоматический баланс и высокий КПД использования имеющихся ресурсов в статье по GeForce 8800. Там же предполагалось, что решение среднего уровня будет состоять из половины вычислительных блоков, а решение на основе двух шейдерных процессоров и одного ROP станет бюджетным. К сожалению, если в GeForce 8800 было восемь процессоров, составляющих 32 TMU и 128 ALU, в новых чипах их количество урезали сильнее, чем мы предполагали изначально. Судя по всему, схема G84 выглядит так:

То есть, всё осталось неизменным, кроме количества блоков и контроллеров памяти. Есть небольшие изменения, связанные с текстурными блоками и заметные на этом рисунке, но об этом мы поговорим далее. Любопытно, куда ушло столько транзисторов, если всего лишь 32 процессора в G84 оставили? В G84 чуть ли не половина транзисторов, по сравнению с G80, при значительно сниженном числе каналов памяти, ROP и шейдерных процессоров. Да и у G86 транзисторов очень много, при всего лишь 16-ти процессорах...

Интересно также, насколько качественно в реальных приложениях будет балансироваться нагрузка между исполнением вершинных, пиксельных и геометрических шейдеров, ведь число универсальных исполнительных блоков стало теперь значительно меньше. Тем более, что сама по себе унифицированная архитектура ставит новые задачи перед разработчиками, при её использовании придётся думать о том, как эффективно использовать общую мощность между вершинными, пиксельными и геометрическими шейдерами. Приведем простой пример упор в пиксельные расчёты. В этом случае увеличение нагрузки на вершинные блоки в традиционной архитектуре не приведет к падению производительности, а в унифицированной вызовет изменение баланса и уменьшение количества ресурсов для пиксельных расчетов. Мы обязательно рассмотрим вопрос производительности, а сейчас продолжим исследование изменений в архитектуре G84 и G86.

Шейдерный процессор и TMU/ALU

Схема шейдерных блоков и оценка их пиковой вычислительной производительности G80 приводилась в соответствующей статье, для G84 и G86 схема не изменилась, а их производительность пересчитать несложно. ALU в чипах также работают на удвоенной частоте и они скалярные, что позволяет добиться высокого КПД. Никаких отличий нет и по функциональности, точность всех ALU составляет FP32, есть поддержка вычислений в целочисленном формате, а при реализации соблюден стандарт IEEE 754, важный для научных, статистических, экономических и других вычислений.

А вот текстурные модули по сравнению с примененными в G80 изменились, NVIDIA уверяет, что в новых чипах были сделаны архитектурные изменения для увеличения производительности унифицированных процессоров. В G80 каждый текстурник мог вычислять четыре текстурных адреса и выполнять восемь операций текстурной фильтрации за такт. Утверждается, что в новых чипах первое число было увеличено вдвое, и он способен на большее в два раза количество текстурных выборок. То есть, текстурные модули G84 и G86 имеют следующую конфигурацию (для сравнения слева приведена схема блока G80):

По словам NVIDIA, теперь каждый из блоков имеет восемь модулей адресации текстур (определения по координатам точного адреса для выборки) TA и ровно такое же количество модулей билинейной фильтрации (TF). У G80 было четыре модуля TA и восемь TF, что позволяло при сниженном расходе транзисторов обеспечить «бесплатную» трилинейную фильтрацию или вдвое снизить падение скорости при анизотропной фильтрации, что полезно именно для ускорителей верхнего уровня, где анизотропная фильтрации используется пользователями почти всегда. Мы проверим правильность этой информации в практической части, обязательно посмотрите анализ соответствующих синтетических тестов, так как они противоречат этим данным.

Вся остальная функциональность текстурных блоков одинакова, поддерживаются форматы текстур FP16/FP32 и др. Только если на G80 фильтрация FP16 текстур также была на полной скорости из-за удвоенного количества блоков фильтрации, в решениях среднего и нижнего уровней такого уже нет (опять же, при условии, если вышеуказанные изменения действительно имеются).

Блоки ROP, запись в буфер кадра, сглаживание

Блоки ROP, которых в G80 было шесть штук, а в новых чипах стало по два, не изменились:

Каждый из блоков обрабатывает по четыре пикселя (16 субпикселей), всего получается 8 пикселей за такт для цвета и Z. В режиме только Z обрабатывается в два раза большее количество сэмплов за один такт. При MSAA 16х чип может выдавать два пикселя за такт, при 4х 8 и т.д. Как и в G80, есть полноценная поддержка FP32 и FP16 форматов буфера кадров совместно с антиалиасингом.

Поддерживается известный по GeForce 8800 новый метод сглаживания Coverage Sampled Antialiasing (CSAA), который был подробно описан в соответствующем материале:

Вкратце, суть метода такова, что цвета отсчетов и глубина хранятся отдельно от информации об их местоположении, на один пиксель может приходиться по 16 отсчетов и всего 8 вычисленных значений глубины, что экономит пропускную способность и такты. CSAA позволяет обойтись передачей и хранением одного значения цвета или Z на каждый субпиксель, уточняя усредненное значение экранного пикселя за счёт более подробной информации о том, как этот пиксель перекрывает края треугольников. В итоге, новый метод позволяет получать режим сглаживания 16х, заметно более качественный чем MSAA 4х, с вычислительными затратами, сравнимыми с ним. А в редких случаях, в которых метод CSAA не работает, получается обычный MSAA меньшей степени, а не полное отсутствие антиалиасинга.

PureVideo HD

Переходим к наиболее интересным изменениям. Оказывается, в G84 и G86 есть нововведения, выгодно отличающие их даже от G80! Это касается встроенного видеопроцессора, который в новых чипах получил расширенную поддержку PureVideo HD. Заявлено, что эти чипы полностью разгружают центральный процессор системы при декодировании всех типов распространенных видеоданных, в том числе наиболее «тяжелого» формата H.264.

В G84 и G86 используется новая модель программируемого PureVideo HD видеопроцессора, более мощная, по сравнению с примененной в G80, и включающая так называемый BSP движок. Новый процессор поддерживает декодирование H.264, VC-1 и MPEG-2 форматов с разрешением до 1920x1080 и битрейтом до 30-40 Мбит/с, он выполняет всю работу по декодированию CABAC и CAVLC данных аппаратно, что позволяет воспроизводить все существующие HD-DVD и Blu-ray диски даже на средних по мощности одноядерных ПК.

Видеопроцессор в G84/G86 состоит из нескольких частей: сам Video Processor второго поколения (VP2), выполняющий задачи IDCT, компенсации движения и удаления артефактов блочности для MPEG2, VC-1 и H.264 форматов, поддерживающий аппаратное декодирование второго потока; поточный процессор (BSP), выполняющий задачи статистического декодирования CABAC и CAVLC для формата H.264, а это одни из самых трудоёмких расчетов; движок декодирования защищенных данных AES128, предназначение которого понятно из его названия он занимается расшифровкой видеоданных, используемых в защите от копирования на Blu-ray и HD-DVD дисках. Вот так выглядят различия в степени аппаратной поддержки декодирования видео на разных видеочипах:

Голубым цветом выделены задачи, выполняемые видеочипом, а зелёным центральным процессором. Как видите, если предыдущее поколение помогало процессору только в части задач, то новый видеопроцессор, применяемый в последних чипах, делает все задачи сам. Эффективность решений мы проверим в будущих материалах по исследованию эффективности аппаратного декодирования видео, NVIDIA же приводит в материалах такие цифры: при использовании современного двухъядерного процессора и программного декодирования данных, воспроизведение дисков Blu-ray и HD-DVD съедает до 90-100% процессорного времени, при аппаратном декодировании на видеочипе прошлого поколения на той же системе до 60-70%, а с новым движком, который они разработали для G84 и G86 всего лишь 20%. Это, конечно, не похоже на заявленное полностью аппаратное декодирование, но все же на очень и очень эффективное.

На момент анонса, новые возможности, появившиеся в PureVideo HD, работают лишь в 32-битной версии Windows Vista, а поддержка PureVideo HD в Windows XP появится только летом. Что касается качества воспроизведения видео, постобработки, деинтерлейсинга и т.п., то с этим у NVIDIA дела улучшились еще в GeForce 8800, а новые чипы ничем особенно не отличаются в этом плане.

CUDA, неигровые и физические расчеты

В статье по GeForce 8800 упоминалось, что увеличившаяся пиковая производительность плавающей арифметики у новых ускорителей и гибкость унифицированной шейдерной архитектуры, стали достаточны для расчета физики в игровых приложениях и даже более серьезных задач: математического и физического моделирования, экономических и статистических моделей и расчетов, распознавания образов, обработки изображений, научной графики и многого другого. Для этого был выпущен специальный API, ориентированный на вычисления, который удобен для адаптации и разработки программ, перекладывающих вычисления на GPU CUDA (Compute Unified Device Architecture).

Подробнее о CUDA написано в статье о G80, мы остановимся на еще одном модном направлении в последнее время поддержке физических расчетов на GPU. NVIDIA называет подобную свою технологию Quantum Effects. Декларируется, что все видеочипы нового поколения, включая рассматриваемые сегодня G84 и G86, неплохо подходят для расчетов подобного рода, позволяя перенести часть нагрузки с CPU на GPU. В качестве конкретных примеров приводятся симуляции дыма, огня, взрывов, динамики волос и одежды, шерсти и жидкостей, и многого другого. Но пока что больше хочется написать о другом. О том, что пока нам показывают только картинки из тестовых приложений с большим количеством рассчитываемых видеочипами физических объектов, а играми с такой поддержкой даже пока и не пахнет.

Поддержка внешних интерфейсов

Как мы помним, в GeForce 8800 нас несколько удивило еще одно неожиданное новшество дополнительный чип, поддерживающий вынесенные за пределы основного внешние интерфейсы. В случае топовых видеокарт этими задачами занимается отдельный чип под названием NVIO, в котором интегрированы: два 400 МГц RAMDAC, два Dual Link DVI (или LVDS), HDTV-Out. Уже тогда мы предполагали, что в среднем и нижнем сегментах отдельный внешний чип вряд ли сохранится, так и получилось на самом деле. В G84 и G86 поддержка всех указанных интерфейсов встроена в сам чип.

На GeForce 8600 GTS устанавливаются два Dual Link DVI-I выхода с поддержкой HDCP, это первая видеокарта на рынке с подобными возможностями (HDCP и Dual Link совместно). Что касается HDMI, поддержка этого разъема аппаратно реализована полностью и может быть выполнена производителями на картах специального дизайна. А вот у GeForce 8600 GT и 8500 GT поддержка HDCP и HDMI опциональная, но они вполне могут быть реализованы отдельными производителями в своей продукции.

Подробности: G92, семейство GeForce 8800

Спецификации G92

Кодовое имя чипа G92
Технология 65 нм
754 миллиона транзисторов (больше, чем у G80)
Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
Частота ядра 600 МГц (GeForce 8800 GT)
ALU работают на более чем удвоенной частоте (1.5 ГГц для GeForce 8800 GT)
112 (это у для GeForce 8800 GT, а всего, вероятно, 128) скалярных ALU с плавающей точкой (целочисленные и плавающие форматы, поддержка FP 32-бит точности в рамках стандарта IEEE 754, MAD+MUL без потери тактов)
56 (64) блоков текстурной адресации с поддержкой FP16 и FP32 компонент в текстурах (пояснения см. ниже)
56 (64) блоков билинейной фильтрации (как и в G84 и G86, нет бесплатной трилинейной фильтрации и более эффективной анизотропной фильтрации)
Возможность динамических ветвлений в пиксельных и вершинных шейдерах
Запись результатов до 8 буферов кадра одновременно (MRT)
Все интерфейсы (два RAMDAC, два Dual DVI, HDMI, HDTV) интегрированы на чип (в отличие от вынесенных на внешний дополнительный чип NVIO у GeForce 8800)

Спецификации референсной карты GeForce 8800 GT 512MB

Частота ядра 600 МГц
Эффективная частота памяти 1.8 ГГц (2*900 МГц)
Тип памяти GDDR3
Объем памяти 512 мегабайт
Энергопотребление до 110 Вт
Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
SLI разъем
Шина PCI Express 2.0
TV-Out, HDTV-Out, поддержка HDCP
Рекомендуемая цена $249

Спецификации референсной карты GeForce 8800 GT 256MB

Частота ядра 600 МГц
Частота универсальных процессоров 1500 МГц
Количество универсальных процессоров 112
Количество текстурных блоков 56, блоков блендинга 16
Эффективная частота памяти 1.4 ГГц (2*700 МГц)
Тип памяти GDDR3
Объем памяти 256 мегабайт
Пропускная способность памяти 44.8 гигабайта в сек.
Теоретическая максимальная скорость закраски 9.6 гигапикселя в сек.
Теоретическая скорость выборки текстур до 33.6 гигатекселя в сек.
Энергопотребление до 110 Вт
Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
SLI разъем
Шина PCI Express 2.0
TV-Out, HDTV-Out, поддержка HDCP
Рекомендуемая цена $199

Спецификации референсной карты GeForce 8800 GTS 512MB

Частота ядра 650 МГц
Количество универсальных процессоров 128
Эффективная частота памяти 2.0 ГГц (2*1000 МГц)
Тип памяти GDDR3
Объем памяти 512 мегабайт
Пропускная способность памяти 64.0 гигабайта в сек.
Теоретическая скорость выборки текстур до 41.6 гигатекселя в сек.
Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
SLI разъем
Шина PCI Express 2.0
TV-Out, HDTV-Out, поддержка HDCP
Рекомендуемая цена $349-399

Архитектура чипа G92

Архитектурно G92 от G80 отличается не сильно. По тому, что нам известно, можно сказать, что G92 это флагман линейки (G80), переведенный на новый техпроцесс, с небольшими изменениями. NVIDIA указывает в своих материалах, что чип имеет 7 больших шейдерных блоков и, соответственно, 56 текстурных блоков, а также по четыре широких ROP, число транзисторов в чипе вызывает подозрения о том, что они что-то не договаривают. В анонсированных изначально решениях задействованы не все блоки, существующие в чипе физически, их количество в G92 больше, чем активных в GeForce 8800 GT. Хотя увеличенная сложность чипа объясняется включением в его состав ранее отдельного чипа NVIO, а также видеопроцессора нового поколения. Кроме того, на количество транзисторов повлияли и усложненные блоки TMU. Также, вполне вероятно, были увеличены кэши для увеличения эффективности использования 256-битной шины памяти.

В этот раз, чтобы составить достойную конкуренцию соответствующим чипам AMD, в NVIDIA решили оставить в mid-end чипе довольно большое количество блоков. Подтвердилось наше предположение из обзора G84 и G86, что на основе технологии 65 нм выпустят гораздо более производительные чипы для среднего ценового диапазона. Архитектурных изменений в чипе G92 немного, и мы не будем на этом останавливаться подробно. Всё сказанное выше про решения из серии GeForce 8 остаётся в силе, мы повторим только некоторые основные моменты, посвященных архитектурным спецификациям нового чипа.

Для нового решения NVIDIA в своих документах приводит такую схему:

То есть из всех изменений только уменьшенное количество блоков и некоторые изменения в TMU, о которых написано далее. Как выше указано, есть сомнения в том, что физически это так и есть, но даём описание, исходя из того, что пишет NVIDIA. G92 состоит из семи универсальных вычислительных блоков (шейдерных процессоров), NVIDIA традиционно говорит о 112 процессорах (по крайней мере, в первых решениях GeForce 8800 GT). Каждый из блоков, в котором сгруппированы 8 TMU и 16 ALU, может исполнять часть вершинного, пиксельного или геометрического шейдера над блоком из 32 пикселей, вершин или иных примитивов, может заниматься и другими (неграфическими) расчетами. У каждого процессора есть свой кэш первого уровня, в котором хранятся текстуры и другие данные. Кроме управляющего блока и вычислительных шейдерных процессоров присутствует четыре блока ROP, исполняющих определение видимости, запись в буфер кадра и MSAA, сгруппированные c контроллерами памяти, очередями записи и кэшем второго уровня.

Универсальные процессоры и TMU

Схема шейдерных блоков и оценка их пиковой вычислительной производительности G80 приводилась в соответствующей статье, для G92 она не изменилась, их производительность пересчитать несложно, исходя из изменений в тактовой частоте. ALU в чипах работают на более чем удвоенной частоте, они скалярные, что позволяет добиться высокого КПД. Про функциональные отличия пока что неизвестно, доступна ли точность расчетов FP64 в этом чипе или нет. Точно есть поддержка вычислений в целочисленном формате, а при реализации всех вычислений соблюден стандарт IEEE 754, важный для научных, статистических, экономических и других расчетов.

Текстурные модули в G92 не такие, как в G80, они повторяют решение TMU в G84 и G86, в которых были сделаны архитектурные изменения для увеличения производительности. Напомним, что в G80 каждый текстурник мог вычислять по четыре текстурных адреса и выполнять по восемь операций текстурной фильтрации за такт, а в G84/G86 TMU способны на большее в два раза количество текстурных выборок. То есть, каждый из блоков имеет восемь модулей адресации текстур (определения по координатам точного адреса для выборки) TA и ровно такое же количество модулей билинейной фильтрации (TF):

Не стоит думать, что 56 блоков GeForce 8800 GT в реальных применениях будут сильнее 32 блоков в GeForce 8800 GTX. При включенной трилинейной и/или анизотропной фильтрации последние будут быстрее, так как они смогут выполнит чуть больше работы по фильтрации текстурных выборок. Мы проверим эту информацию в практической части, сделав анализ результатов соответствующих синтетических тестов. Вся остальная функциональность текстурных блоков не изменилась, поддерживаются форматы текстур FP16, FP32 и другие.

Блоки ROP, запись в буфер кадра, сглаживание

Блоки ROP сами по себе также не изменились, но их количество стало другим. В G80 было шесть ROP, а в новом решении их стало четыре, для снижения себестоимости производства чипов и PCB видеокарт. Также это урезание может быть связано с тем, чтобы не создавать слишком сильную конкуренцию существующим решениям верхнего уровня.

Каждый из блоков обрабатывает по четыре пикселя или 16 субпикселей, и всего получается 16 пикселей за такт для цвета и Z. В режиме только Z обрабатывается в два раза большее количество сэмплов за один такт. При MSAA 16х чип может выдавать два пикселя за такт, при 4х 8 и т.д. Как и в G80, полноценно поддерживаются форматы буфера кадров FP32 и FP16 совместно с антиалиасингом.

Поддерживается известный по предыдущим чипам серии новый метод сглаживания Coverage Sampled Antialiasing (CSAA). А ещё одним нововведением стало то, что в GeForce 8800 GT был обновлен алгоритм антиалиасинга полупрозрачных поверхностей (transparency antialiasing). На выбор пользователя предлагались два варианта: мультисэмплинг (TRMS) и суперсэмплинг (TRSS), первый отличался очень хорошей производительностью, но эффективно работал далеко не во всех играх, а второй был качественным, но медленным. В GeForce 8800 GT декларируется новый метод мультисэмплинга полупрозрачных поверхностей, улучшающий его качество и производительность. Этот алгоритм даёт почти такое же улучшение качества, как и суперсэмплинг, но отличается высокой производительностью лишь на несколько процентов хуже для режима без включенного антиалиасинга полупрозрачных поверхностей.

PureVideo HD

Одним из ожидаемых изменений в G92 стал встроенный видеопроцессор второго поколения, известный по G84 и G86, получивший расширенную поддержку PureVideo HD. Уже известно, что этот вариант видеопроцессора почти полностью разгружает CPU при декодировании всех типов видеоданных, в том числе «тяжелых» форматов H.264 и VC-1.

Как и в G84/G86, в G92 используется новая модель программируемого PureVideo HD видеопроцессора, включающая так называемый BSP движок. Новый процессор поддерживает декодирование H.264, VC-1 и MPEG-2 форматов с разрешением до 1920x1080 и битрейтом до 30-40 Мбит/с, выполняя работу по декодированию CABAC и CAVLC данных аппаратно, что позволяет воспроизводить все существующие HD-DVD и Blu-ray диски даже на средних по мощности одноядерных ПК. Декодирование VC-1 не такое эффективное, как H.264, но оно всё же поддерживается новым процессором.

Подробнее о видеопроцессоре второго поколения можно прочитать в части, посвященной чипам G84 и G86. Работа современных видеорешений была частично проверена в последнем материале по исследованию эффективности аппаратного декодирования видеоданных.

PCI Express 2.0

Из настоящих нововведений в G92 можно выделить поддержку шины PCI Express 2.0. Вторая версия PCI Express увеличивает стандартную пропускную способность в два раза, с 2.5 Гбит/с до 5 Гбит/с, в результате, по разъему x16 можно передавать данные на скорости до 8 ГБ/с в каждом направлении, в отличие от 4 ГБ/с для версии 1.x. При этом очень важно, что PCI Express 2.0 совместим с PCI Express 1.1, и старые видеокарты будут работать в новых системных платах, и новые видеокарты с поддержкой второй версии останутся работоспособными в платах без его поддержки. При условии достаточности внешнего питания и без увеличения пропускной способности интерфейса, естественно.

Для обеспечения обратной совместимости с существующими PCI Express 1.0 и 1.1 решениями, спецификация 2.0 поддерживает как 2.5 Гбит/с, так и 5 Гбит/с скорости передачи. Обратная совместимость PCI Express 2.0 позволяет использовать прошлые решения с 2.5 Гбит/с в 5.0 Гбит/с слотах, которые будут работать на меньшей скорости, а устройство, разработанное по спецификациям версии 2.0, может поддерживать и 2.5 Гбит/с и 5 Гбит/с скорости. В теории с совместимостью всё хорошо, а вот на практике с некоторыми сочетаниями системных плат и карт расширения возможно возникновение проблем.

Поддержка внешних интерфейсов

Как и следовало ожидать, имеющийся на платах GeForce 8800 дополнительный чип NVIO, поддерживающий вынесенные за пределы основного внешние интерфейсы (два 400 МГц RAMDAC, два Dual Link DVI (или LVDS), HDTV-Out), в данном случае был включен в состав самого чипа, поддержка всех указанных интерфейсов встроена в сам G92.

На видеокартах GeForce 8800 GT обычно устанавливают два Dual Link DVI-I выхода с поддержкой HDCP. Что касается HDMI, поддержка этого разъема реализована полностью, она может быть выполнена производителями на картах специального дизайна, которые могут быть выпущены несколько позже. Хотя наличие разъема HDMI на видеокарте совершенно необязательно, его с успехом заменит переходник с DVI на HDMI, который прилагается в комплекте большинства современных видеокарт.

В отличие от видеокарт серии RADEON HD 2000 компании AMD, GeForce 8800 GT не содержит встроенный аудиочип, необходимый для поддержки передачи звука по DVI при помощи переходника на HDMI. Подобная возможность передачи видео- и аудиосигнала по одному разъему востребована, прежде всего, на картах среднего и низшего уровней, которые устанавливаются в маленькие корпусы медиацентров, а GeForce 8800 GT вряд ли подходит на эту роль.

Подробности: G94, семейство GeForce 9600

Спецификации G94

Кодовое имя чипа G94
Технология 65 нм
505 миллионов транзисторов
Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
Аппаратная поддержка DirectX 10, в том числе шейдерной модели Shader Model 4.0, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
256-бит шина памяти, четыре независимых контроллера шириной по 64 бита
Частота ядра 650 МГц (GeForce 9600 GT)
ALU работают на более чем удвоенной частоте (1.625 ГГц у GeForce 9600 GT)
64 скалярных ALU с плавающей точкой (целочисленные и плавающие форматы, поддержка FP 32-бит точности в рамках стандарта IEEE 754, MAD+MUL без потери тактов)
32 блока текстурной адресации с поддержкой FP16 и FP32 компонент в текстурах
32 блока билинейной фильтрации (как и в G84 и G92, это даёт увеличенное количество билинейных выборок, но без бесплатной трилинейной фильтрации и эффективной анизотропной фильтрации)
Возможность динамических ветвлений в пиксельных и вершинных шейдерах
4 широких блока ROP (16 пикселей) с поддержкой режимов антиалиасинга до 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Каждый блок состоит из массива гибко конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг. Пиковая производительность всей подсистемы до 64 MSAA отсчетов (+ 64 Z) за такт, в режиме без цвета (Z only) 128 отсчета за такт
Запись результатов до 8 буферов кадра одновременно (MRT)

Спецификации референсной карты GeForce 9600 GT

Частота ядра 650 МГц
Частота универсальных процессоров 1625 МГц
Количество универсальных процессоров 64
Количество текстурных блоков 32, блоков блендинга 16
Эффективная частота памяти 1.8 ГГц (2*900 МГц)
Тип памяти GDDR3
Объем памяти 512 мегабайт
Пропускная способность памяти 57.6 гигабайта в сек.
Теоретическая максимальная скорость закраски 10.4 гигапикселя в сек.
Теоретическая скорость выборки текстур до 20.8 гигатекселя в сек.
Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
SLI разъем
Шина PCI Express 2.0
Энергопотребление до 95 Вт
Рекомендуемая цена $169-189

Архитектура G94

С архитектурной точки зрения G94 отличается от G92 только количественными характеристиками, у него меньшее число исполнительных блоков: ALU и TMU. Да и от G8x отличий не так много. Как было написано в предыдущих материалах, линейка чипов G9x является слегка модифицированной линейкой G8x, переведенной на новый техпроцесс с небольшими архитектурными изменениями. Новый mid-end чип имеет 4 больших шейдерных блока (всего 64 ALU) и 32 текстурных блока, а также четыре широких ROP.

Итак, архитектурных изменений в чипе немного, почти обо всех написано выше, и всё ранее сказанное для предыдущих решений остаётся в силе. А здесь приведём только основную диаграмму чипа G94:

Текстурные блоки в G94 точно такие же, что и в G84/G86 и G92, они умеют выбирать вдвое больше билинейно отфильтрованных выборок из текстур, по сравнению с G80. Но 32 текстурных блока GeForce 9600 GT в реальных приложения не будут работать быстрее, чем 32 блока у GeForce 8800 GTX лишь из-за большей рабочей частоты GPU. Такое может наблюдаться только при выключенной трилинейной и анизотропной фильтрации, что бывает крайне редко, только в тех алгоритмах, где применяются неотфильтрованные выборки, к примеру, в parallax mapping.

Ещё одним из преимуществ G9x и GeForce 9600 GT в частности, компания NVIDIA считает некую новую технологию сжатия, реализованную в блоках ROP, которая, по их оценке, работает на 15% эффективнее той, что использовалась в предыдущих чипах. Видимо, это как раз те самые архитектурные модификации в G9x, предназначенные для обеспечения большей эффективности работы 256-битной шины памяти, по сравнению с 320/384-битной, о которых мы писали ранее. Естественно, в реальных приложениях такой большой разницы не будет, даже по данным самой NVIDIA прирост от нововведений в ROP чаще всего составляет лишь около 5%.

Несмотря на все изменения в архитектуре G9x, добавляющие сложности чипу, о которых мы ещё поговорим ниже, число транзисторов в чипе довольно велико. Вероятно, такая сложность GPU объясняется включением в его состав ранее отдельного чипа NVIO, видеопроцессора нового поколения, усложнение блоков TMU и ROP, а также другие скрытые модификации: изменение размеров кэшей и т.п.

PureVideo HD

В G94 встроен всё тот же видеопроцессор второго поколения, известный по G84/G86 и G92, отличающийся улучшенной поддержкой PureVideo HD. Он почти полностью разгружает CPU при декодировании большинства распространенных типов видеоданных, в том числе H.264, VC-1 и MPEG-2, с разрешением до 1920x1080 и битрейтом до 30-40 Мбит/с, выполняя работу по декодированию полностью аппаратно. И хотя декодирование VC-1 у решений NVIDIA не такое эффективное, как H.264, небольшая часть процесса использует мощности центрального процессора, но это всё равно позволяет воспроизводить все существующие HD DVD и Blu-Ray диски даже на средних по мощности компьютерах. Подробнее о видеопроцессоре второго поколения можно прочитать в наших обзорах G84/G86 и G92, ссылки на которые приведены в начале статьи.

Ну а мы отметим программные улучшения PureVideo HD, которые были приурочены к выходу GeForce 9600 GT. Из последних нововведений PureVideo HD можно отметить двухпоточное декодирование, динамическое изменение контрастности и цветовой насыщенности. Эти изменения не исключительны для GeForce 9600 GT, и в новых версиях драйверов, начиная с ForceWare 174, они введены для всех чипов, поддерживающих полное аппаратное ускорение при помощи PureVideo HD. Помимо рассматриваемой сегодня видеокарты, в этот список входят: GeForce 8600 GT/GTS, GeForce 8800 GT и GeForce 8800 GTS 512.

Динамическое улучшение контрастности довольно часто используется в бытовой технике, в телевизорах и видеоплеерах, оно может улучшить изображение с неоптимальной экспозицией (сочетание выдержки и диафрагмы). Для этого, после декодирования каждого кадра, анализируется его гистограмма, и если у кадра неудачная контрастность, гистограмма пересчитывается и применяется к изображению. Вот пример (слева - начальное изображение, справа - обработанное):

Примерно то же самое относится и к появившемуся в PureVideo HD динамическому улучшению цветовой насыщенности. Бытовая техника также очень давно применяет некоторые улучшающие изображение алгоритмы, в отличие от компьютерных мониторов, которые воспроизводят всё как есть, что во многих случаях может вызывать слишком тусклую и неживую картинку. Автоматический баланс компонент цвета в видеоданных, рассчитываемый также каждый новый кадр, улучшает восприятие картинки человеком, немного скорректировав насыщенность её цветов:

Двухпоточное декодирование позволяет ускорять декодирование и постобработку двух разных потоков видеоданных одновременно. Это может быть полезно при выводе в таких режимах, как «картинка-в-картинке», которые используются в некоторых Blu-Ray и HD DVD дисках (к примеру, второе изображение может показывать режиссёра фильма, дающего свои комментарии к показываемым в основном окне сценам), такими возможностями снабжены издания фильмов WAR и Resident Evil: Extinction.

Ещё одним полезным нововведением последней версии PureVideo HD стала возможность одновременной работы оболочки Aero в операционной системе Windows Vista во время проигрывания аппаратно ускоренного видео в оконном режиме, что ранее не было возможно. Не сказать, чтобы это очень сильно волновало пользователей, но возможность приятная.

Поддержка внешних интерфейсов

Поддержка внешних интерфейсов у GeForce 9600 GT аналогична GeForce 8800 GT, за исключением появившейся интегрированной поддержки DisplayPort, разве что. Имеющийся на платах GeForce 8800 дополнительный чип NVIO, поддерживающий вынесенные за пределы основного внешние интерфейсы в G94 также был включен в состав самого чипа.

На референсных видеокартах GeForce 9600 GT установлены два Dual Link DVI выхода с поддержкой HDCP. Поддержка HDMI и DisplayPort реализована аппаратно в чипе, и эти порты могут быть выполнены партнёрами NVIDIA на картах специального дизайна. Причём, как уверяет NVIDIA, в отличие от G92, поддержка DisplayPort теперь встроена в чип и внешние трансмиттеры не требуются. Вообще, разъемы HDMI и DisplayPort на видеокарте необязательны, их могут заменить простые переходники с DVI на HDMI или DisplayPort, которые иногда попадаются в комплекте с современными видеокартами.

Подробности: G96, семейства GeForce 9400 и 9500

Спецификации G96

Кодовое имя чипа G96
Технология 65 нм
314 миллионов транзисторов
Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
Аппаратная поддержка DirectX 10, в том числе шейдерной модели Shader Model 4.0, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
128-бит шина памяти, два независимых контроллера шириной по 64 бита
Частота ядра 550 МГц
ALU работают на более чем удвоенной частоте (1.4 ГГц)
32 скалярных ALU с плавающей точкой (целочисленные и плавающие форматы, поддержка FP 32-бит точности в рамках стандарта IEEE 754, MAD+MUL без потери тактов)
16 блоков текстурной адресации с поддержкой FP16 и FP32 компонент в текстурах
16 блоков билинейной фильтрации (как и для G92, это даёт увеличенное количество билинейных выборок, но без бесплатной трилинейной фильтрации и эффективной анизотропной фильтрации)
Возможность динамических ветвлений в пиксельных и вершинных шейдерах
2 широких блока ROP (8 пикселей) с поддержкой режимов антиалиасинга до 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Каждый блок состоит из массива гибко конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг. Пиковая производительность всей подсистемы до 32 MSAA отсчетов (+ 32 Z) за такт, в режиме без цвета (Z only) 64 отсчета за такт
Запись результатов до 8 буферов кадра одновременно (MRT)
Все интерфейсы (два RAMDAC, два Dual DVI, HDMI, DisplayPort) интегрированы на чип

Спецификации референсной карты GeForce 9500 GT

Частота ядра 550 МГц
Количество универсальных процессоров 32
Количество текстурных блоков 16, блоков блендинга 8
Эффективная частота памяти 1.6 ГГц (2*800 МГц)
Тип памяти GDDR2/GDDR3
Объем памяти 256/512/1024 мегабайт
Теоретическая скорость выборки текстур до 8.8 гигатекселей в сек.
Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
SLI разъем
Шина PCI Express 2.0
TV-Out, HDTV-Out, поддержка HDMI и DisplayPort с HDCP

Спецификации референсной карты GeForce 9400 GT

Частота ядра 550 МГц
Частота универсальных процессоров 1400 МГц
Количество универсальных процессоров 16
Количество текстурных блоков 8, блоков блендинга 8
Эффективная частота памяти 1.6 ГГц (2*800 МГц)
Тип памяти GDDR2
Объем памяти 256/512 мегабайт
Пропускная способность памяти 25.6 гигабайта в сек.
Теоретическая максимальная скорость закраски 4.4 гигапикселя в сек.
Теоретическая скорость выборки текстур до 4.4 гигатекселей в сек.
Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
SLI разъем
Шина PCI Express 2.0
TV-Out, HDTV-Out, поддержка HDMI и DisplayPort с HDCP

Архитектура G96

Архитектурно G96 ровно половина чипа G94, который, в свою очередь, отличается от G92 только количественными характеристиками. У G96 вдвое меньшее число всех исполнительных блоков: ALU, TMU и ROP. Новый видеочип предназначен для решений самого низкого ценового диапазона, и имеет два больших шейдерных блока (всего 32 ALU) и 16 текстурных блоков, а также восемь ROP. Ещё у него урезана шина памяти, с 256-битной до 128-битной, если сравнивать с G94 и G92. Все аппаратные возможности остались неизменными, отличия только в производительности.

Подробности: G92b, семейство GeForce GTS 200

Спецификации референсной видеокарты GeForce GTS 250

Частота ядра 738 МГц
Частота универсальных процессоров 1836 МГц
Количество универсальных процессоров 128
Количество текстурных блоков 64, блоков блендинга 16
Эффективная частота памяти 2200 (2*1100) МГц
Тип памяти GDDR3
Объем памяти 512/1024/2048 мегабайт
Пропускная способность памяти 70.4 ГБ/с
Теоретическая максимальная скорость закраски 11.8 гигапикселей в сек.
Теоретическая скорость выборки текстур до 47.2 гигатекселей в сек.
Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
Двойной SLI разъем
Шина PCI Express 2.0
TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
Энергопотребление до 150 Вт (один 6-штырьковый разъём)
Двухслотовое исполнение
Рекомендуемая цена $129/$149/$169

В общем-то, эта «новая» видеокарта на основе 55 нм чипа G92 не отличается от GeForce 9800 GTX+ ничем. Выход новой модели может быть частично оправдан установкой на неё не 512 мегабайт видеопамяти, как у 9800 GTX+, а гигабайта, что сильно влияет на производительность в тяжёлых режимах с максимальными настройками качества, высокими разрешениями с включенным полноэкранным сглаживанием. А есть ещё двухгигабайтные варианты, но это уже больше маркетинговое преимущество, чем реальное.

В таких условиях старшие версии GeForce GTS 250 действительно должна быть ощутимо быстрее GeForce 9800 GTX+ из-за увеличенного объёма памяти. А некоторые наиболее современные игры получат преимущество даже не в самых высоких разрешениях. Всё бы ничего, да только ведь некоторые производители карт выпустили GeForce 9800 GTX+ с гигабайтом памяти ещё раньше...

Производство видеочипов G92b по 55 нм технологическим нормам и заметное упрощёние дизайна PCB позволило компании NVIDIA сделать решение, аналогичное GeForce 9800 GTX по характеристикам, но с меньшей ценой и сниженными потреблением энергии и тепловыделением. И теперь, чтобы обеспечить GeForce GTS 250 электропитанием, на плате установлен лишь один 6-штырьковый PCI-E разъём питания. Вот и все основные отличия от 9800 GTX+.