Кто же такой Сисадмин? Тестирование AMD FX Bulldozer. Turbo Core ещё более Turbo

Посвящённые анализу новой процессорной микроархитектуры AMD Bulldozer, воплощённых в моделях FX 8120 и FX 8150 из семейства Zambezi. В обзорах флагманские модели предстают не в самом выгодном свете: они потребляют много энергии, довольно сильно греются и обладают быстродействием значительно ниже уровня конкурирующих решений от Intel. Плюс ко всему, они позиционируются как 8-ядерные процессоры, хотя в действительности это 4-ядерные модели с «продвинутой» формой многопоточности, обусловленной «сиамской» природой сдвоенных модулей Bulldozer. Вероятно, в попытке нейтрализовать формирующийся негативный образ и восстановить веру в бренд “AMD” компания представила широкой общественности план по улучшению архитектуры Bulldozer до 2014 года – амбициозная цель с точки зрения сроков реализации, если учесть, сколько всего может произойти за это время и как непредсказуемо может измениться ситуация на переднем крае технологического прогресса.

Как следует из опубликованного графика, различные этапы эволюционного развития, представленные архитектурами Piledriver («копёр»), Steamroller («паровой каток») и Excavator («экскаватор»), к 2014 году позволят в соответствии с расчётными данными обеспечить качественный прирост на уровне 30-50% (представленные материалы, разумеется, могут корректироваться без предварительного уведомления). Используемые маркетинговые наименования передают образ настоящего мужика, предполагая очень хорошую производительность, благодаря которой все конкуренты будут повержены наземь. Таким образом, если новым не удастся составить достойную конкуренцию , используемые условные обозначения будут продолжать вносить элемент запутанности, как это в настоящий момент происходит с архитектурой Bulldozer. Поскольку продукция Intel уже демонстрирует превосходство на уровне 20-50% (в зависимости от конкретного теста), возникает вопрос: как эти скромные улучшения позволят обеспечить достойную конкуренцию с будущими решениями от Intel? В свете недавних перестановок в руководстве AMD остаётся только надеяться, что придёт правильный руководитель, который направит деятельность компании в нужное русло. В противном случае не исключён сценарий, при котором производство x86-совместимых может быть прекращено, а всё внимание сосредоточено на производстве решений в области графики.

Основная проблема вокруг архитектуры Bulldozer по состоянию на данный момент состоит в том, что её выход на рынок запаздывает, причём запаздывает сильно. Работа над созданием Bulldozer началась ещё в 2007 году, т.е. 4 года назад – очень большой срок по меркам индустрии процессоров для настольных . Таким образом, AMD, по сути, представила новый «старый» продукт. В пользу новинок свидетельствуют два важных момента: хорошая масштабируемость в плане выбора необходимого количества ядер и высокие частотные характеристики, ведь те же 8 ГГц, продемонстрированные на примере маркетинговых материалов, не стоит сбрасывать со счетов. Что нам действительно нужно, так это более существенный прогресс по сравнению с тем, который показан на демонстрационном слайде. Необходим качественный прирост на уровне 100% или даже больше, что не является такой уж недостижимой задачей в ближайшие три года. А может правильнее отказаться от выбранного направления и начать всё заново, сделав выбор в пользу дискретных ядер, как у процессоров AMD семейства Phenom? Возможно, недавние изменения в высшем руководстве AMD смогут внести коррективы в деятельность компании.

Итак, даже если AMD удастся достичь прогнозируемых показателей и превысить их, позволит ли это обеспечить возможность конкуренции с Intel или Intel сама закатает «бульдозер» паровым катком?

Компания AMD редко балует свежими процессорными архитектурами. Если Intel обновляет структуру каждые два года, то конкурент последний раз отметился в 2007 году, выпустив K10, переделанную версию старенькой K8. Так что появление свежей Bulldozer — событие знаковое. На ближайшие несколько лет архитектура станет основой для всех кристаллов AMD, а также первым за долгое время шансом побороться с Intel в гонке за производительность.

Ходим парой

Создавая Bulldozer, инженеры AMD отказались от проверенной стратегии улучшения и частичного копирования старых наработок. Строение камней в корне отличается от того, что мы привыкли видеть в x86-системах.

Первое и самое важное нововведение - оригинальная компоновка. Все топовые версии Bulldozer официально оснащаются восемью ядрами. Однако на самом деле полноценных модулей четыре, просто у каждого по два вычислительных блока. Выглядит это так: два целочисленных арифметических кластера (они-то и называются ядрами и отвечают непосредственно за расчеты) делят между собой Front-End, кластер вычислений с плавающей запятой (FPU) и увеличенный до 2 Мб кэш второго уровня.

Польза такого тандема - экономия площади, снижение уровня потребления энергии и стоимости производства. Минус - совместное использование одних и тех же наборов плохо сказывается на итоговой производительности. При большой нагрузке один Front-End может не справиться с двумя ядрами. AMD потерю производительности не отрицает: по ее словам, дуэт примерно на 20% слабее полноценного двухъядерника.

Трудности общения

Чтобы исключить узкое место, Front-End пришлось научить эффективно делить ресурсы между двумя ядрами. Для этого были переработаны блок предсказания ветвления и декодер команд, который получил четвертый канал для обработки инструкций (как в Sandy Bridge) и технологию Branch Fusion . Последняя позволяет склеивать часть инструкций в одну операцию. Все это должно ускорить работу Front-End и не дать простаивать кристаллу.

Что касается самих ядер, то это набор из Out-of-Order, загрузки/выгрузки, L1-кэша и двух вычислительных кластеров. Блок внеочередного исполнения теперь оснащен физическим регистром файлов. Как и в Sandy Bridge, в него скидываются адреса хранения рабочих данных, что позволяет разгрузить основной конвейер Out-of-Order. Процессор загрузки/выгрузки получил увеличенный буфер, удвоенную разрядность и возможность работы с виртуальными адресами, что теоретически должно повысить скорость работы с L1-кэшем данных. Последний в Bulldozer стал в четыре раза меньше: 16 против 64 Кб в K10. Потерю компенсировали скоростью работы. Ассоциативность L1 повысилась с двух до четырех каналов, а это значит вдвое бо льшую эффективность поиска.

Вычислительных кластеров в одном модуле три штуки: два целочисленных и один для работы с данными с плавающей запятой. По сравнению с K10 первая пара потеряла по одному ALU (занимается вычислениями) и AGU (разбирается с адресами памяти). В теории это означает снижение пиковой производительности. На практике изменение будет практически не заметно: полностью нагрузить целочисленные кластеры сложно.

Основные изменения коснулись FPU, отвечающего за сложные расчеты с плавающей запятой. В K10 он стал значительно мощнее: получил по паре MMX и 128-бит FMAC-устройств для выполнения операций сложения и умножения. В отличие от K10, FMAC сделали универсальными: могут замещать друг друга, что положительно сказывается на скорости вычислений. Плюс к этому они научились совмещать операции в одном выражении, что повысило точность расчетов.

Помимо этого FPU получил обновленный ряд инструкций. Во-первых, процессор теперь работает с AVX, поддерживающим регистры длиной 256 бит. Для их расчетов, как и в Sandy Bridge, объединяются два FMAC. Во-вторых, Bulldozer может работать с инструкциями SSE 4.2, AENSI, FMA4 и XOP. Последние два набора уникальны для AMD. Для нас с вами все эти изменения означают только одно - команды, которые раньше делались за несколько тактов, теперь будут рассчитываться за один, а это напрямую влияет на производительность. Правда, чтобы ощутить прирост скорости, необходима поддержка инструкций со стороны софта.

Клей и ножницы

В итоге каждый модуль Bulldozer состоит из одного Front-End, L2- и L1-кэшей данных, двух целочисленных кластеров и блока для работы с числами с плавающей запятой. Всего на одном камне может находиться до четырех таких наборов. При этом каждому из них открыт доступ к ряду общих элементов. Первый - двухканальный контроллер памяти с поддержкой DDR3-1866 МГц. Второй - L3-кэш, объем которого по сравнению с K10 увеличился с 6 до 8 Мб, а ассоциативность - с 48 до 64 каналов. Заметим, что, в отличие от Sandy Bridge, частота L3-кэша не совпадает со скоростью ядер. Если топовый образец функционирует на скорости 3,6 ГГц, то память последнего уровня - на 2,2 ГГц. Это приводит к ощутимым задержкам, которые негативно сказываются на производительности. По словам AMD, на такую жертву пошли ради стабильной работы на высоких частотах.

Тадам!

Несмотря на архитектурные ухищрения и 32-нм техпроцесс, Bulldozer занимает внушительные 315 кв. миллиметров. Это примерно в полтора раза больше, чем четырехъядерный Sandy Bridge и старший Llano . К счастью, энергопотребление удалось сохранить в разумных пределах - 125 Вт.

Помимо восьмиядерных моделей, существуют версии с шестью и четырьмя вычислительными блоками. Младшие братья базируются на том же дизайне с восемью ядрами, но у них отключены один или два модуля.

Базовая частота варьируется от 3,1 до 3,6 ГГц. Как и у Sandy Bridge, в Bulldozer есть технология автоматического разгона. Специальный чип, отвечающий за Turbo Core 2.0 , отслеживает текущие нагрузку на ядра и уровень TDP и, как только появляется возможность, повышает частоту процессора. В случае топового кристалла, когда задействованы все модули, скорость может быть увеличена на 300 МГц. Если часть ресурсов простаивает - на 600 МГц. При низких нагрузках Bulldozer переходит в энергосберегающий режим, за это отвечает технология Cool"n"Quiet .

Ручной разгон прост. Во-первых, у всей линейки разблокирован множитель. Во-вторых, новички хорошо набирают высоту: под жидким азотом старший Bulldozer установил новый мировой рекорд - 8429 МГц.

Компаньоны

Работают Bulldozer на Socket AM3+. По сути, это слегка усовершенствованный AM3 с одним дополнительным контактом. Чипсеты с новым процессорным разъемом называются 990FX , 990X и 970 . Отличаются они контроллером PCIe 2.0. Старшая модель оснащена 32 линиями, младшие - 16. При этом 990FX и 990X поддерживают CrossFireX. Из особенностей чипсетов отметим шесть портов SATA Rev. 3 и 14 разъемов USB 2.0. Контроллера USB 3.0 нет.

Заметим, что Bulldozer могут работать и на старых платах. Все, что для этого нужно, - обновленный BIOS. Ограничения: у Turbo Core и Cool"n"Quiet снижается скорость реакции, а часть энергосберегающих функций недоступна.

Процессорная архитектура Bulldozer получилась интересной. Наконец-то AMD перестала заниматься самокопированием и придумала нечто действительно новое. К сожалению, явных преимуществ перед конкурентами немного. Заявленных восьми ядер нет. По-хорошему, перед нами четырехъядерные модели с увеличенным количеством вычислительных блоков, что-то вроде Intel Hyper-Threading, но на железном уровне. Идея хорошая, но производительность будет зависеть от того, насколько быстрым получился Front-End. Из реальных преимуществ Bulldozer можно выделить только мощный FPU для расчетов чисел с плавающей запятой и увеличенные по сравнению с K10 частоты работы.

Раскатаем! Закопаем!

AMD озвучила планы по выпуску следующих линеек процессоров. Компания рассчитывает ежегодно обновлять архитектуру, каждый раз добиваясь примерно 15-процентного прироста производительности на ватт. Если AMD будет придерживаться намеченного плана, то в 2012 году мы увидим архитектуру Piledriver («копер»), еще через год - Steamroller («паровой каток»), а 2014 год запомнится анонсом Excavator . Такие вот строительные работы.

Неправильные окна

Со слов AMD, Windows 7 не в состоянии раскрыть весь потенциал нового творения: планировщик ОС не учитывает особенности Bulldozer. Например, для новых процессоров важно, чтобы взаимосвязанные потоки были закреплены за одним модулем, в противном случае ядра будут обмениваться данными не через быстрый L2-кэш, а через память третьего уровня. Некоторые раздельные потоки также лучше обрабатывать аналогичным образом, дабы повысить эффективность Turbo Core 2.0. В то же время определенные задачи создают большую нагрузку на блок Front End, и их лучше раскидывать по разным модулям. Благодаря сотрудничеству с Microsoft эти нюансы будут учтены в планировщике Windows 8 . Впрочем, существенного прироста быстродействия ждать не стоит.

Словарик

Целочисленный вычислительный кластер - занимается операциями с целыми числами (1, 2, 10).

Front-End - блок предварительной выборки. Получает команды от программы и переводит их на понятный процессору язык.

FPU - кластер вычислений данных с плавающей запятой. Производит вычисления с дробными числами (1,2345) и большими значениями со степенями (1,2345E-10).

Блок предсказания ветвлений - заранее предугадывает, какие данные и операции могут понадобиться программе в следующий момент. Не дает простаивать процессору.

Декодер команд - разбивает программу на микрооперации, которыми потом пользуются вычислительные кластеры.

Out-of-Order - блок внеочередного исполнения. Занимается распределением действий между ядрами. Отправляет на расчет только те команды, для которых есть данные.

Блок загрузки/выгрузки (LSU ) - следит за перемещением данных между выходом с конвейера и L1-кэшем данных.

Ассоциативность кэша - связывание строчек и столбцов кэш-памяти. Чем выше ассоциативность, тем ниже скорость поиска, но выше его эффективность.

MMX - набор блоков для работы с числами до 8 байт.

Наборы инструкций - позволяют одной командой совершить операцию над несколькими данными.

Таблица 1

Технические характеристики процессоров AMD Bulldozer

Количество вычислительных ядер

Базовая частота

Частота в режиме Turbo Core

Поддержка памяти

Энергопотребление

Техпроцесс

Цена на ноябрь 2011 года

не известна

Bulldozer - кодовое название процессоров AMD64 выполненных по 32 нм технологии и ориентированных в первую очередь на серверные платформы и высокопроизводительных персональные компьютеры.

Нововведения
Процессоры Bulldozer имеют в своем арсенале совершенно другую архитектуру компоновку ядер, в отличии от предшествующего поколения AMD K8 и AMD K10. При беглом взгляде на кристалл Zambezi 8-ми ядерного процессора многие ошибаются, визуально определяя только четыре ядра. На самом деле это вычислительные модули. Инженеры компании AMD - поместили x86-ядра процессоров попарно в одном модуле. Вот и выходит, что восьмиядерные процессоры идут с четырьмя модулями, шестиядерные - имеют в своем арсенале уже три модуля, а четырехъядерные - соответственно только два. Выигрыш от такого решения заключается в повышении производительности процессора при многопоточной нагрузке.

Помимо стандартных функций, свойственных старым процессорам AMD, добавились и новые: SSE4.1, SSE4.2, CVT16, AVX, XOP и FMAC. А также реализована технология AMD Fusion – совмещение графического ядра и центрального процессора, аналог технологии Sandy Bridge.

Процессоры Бульдозер AMD теперь поддерживают новую версию технологии AMD Direct Connect (устраняет недостатки некоторых архитектур во время обмена данными), а также четыре канала HyperTransport 3.1 соответственно на каждый процессор. Технология расширения памяти AMD G3MX дает возможность значительно увеличить пропускную способность процессора.

Кроме этого следует отметить полную поддержку памяти DDR3 с частотой 1866 МГц и значительно увеличенный до 8 Мбайт объем L3 кэша.

Серьезных изменений претерпел и механизм управления энергопотребление. Некоторую роль здесь сыграл 32-нм техпроцесс, благодаря которому штатное напряжение не превышает 1.4 В, но в основном благодаря улучшенному механизму регулировки тактовых частот – тепловой пакет не превышает 125 Вт.

На предыдущих моделях процессорах Phenom II X6, если нагрузка была не более 3-х потоков, частота 3-х активных ядер повышалась на 400 МГц. «Бульдозеры» оснащены более гибким механизмом по управлению быстродействием. В случае отсутствия нагрузки, диспетчер энергосбережения может отключить модуль вместе с массивом памяти L2-кеша. Тем самым достигается снижение тепловыделения. Одновременно тактовая частота задействованных вычислительных модулей при необходимости может возрасти, в активизированном режиме Max Turbo – повышение составляет до - 900 МГц. Когда же идет приблизительно одинаковая нагрузка на все вычислительные модули, то повышение частоты возможно в пределах 300 МГц. В новых процессорах «Бульдозер» есть поддержка технологии Turbo Core 2, аналог Intel Turbo Boost (повышение частоты процессора с номинальной 3,5 до 4,2 Ггц), что положительно сказывается на производительности. Turbo Core активен до того времени, пока энергопотребление процессора не превышает установленный лимит TPD (теплового пакета). По этой причине для новых процессоров AMD FX такое понятие, как «штатная тактовая частота» теряет общепринятый смысл.

Кстати, по потенциалу разгона именно процессор AMD FX-8150 удалось разогнать до 8,429 ГГц, что является на данный момент абсолютным рекордом.

К сожалению, планировщик процессов ОС Windows на сегодняшний день не в полной мере оптимизирован для CPU AMD FX. Существует большая вероятность, что два потока одной программы будут обрабатываться двумя разными модулями, это не позволит задействовать режим Max Turbo или же потребуется повторная загрузка данных в кэш-память нужного модуля, что скажется в итоге на быстродействии.

Согласно информации, в Windows 8 планировщик заданий будет учитывать особенности архитектуры Bulldozer, что позволит использовать использования Turbo Core на полную силу. Ну а пользователям Windows 7 и XP стоит надеяться на обновление, которое быть может, выпустит компания Microsoft или инженеры программисты AMD выпустят в свет некий «волшебный» драйвер.

Тесты процессоров AMD FX Bulldozer (Бульдозер), мы не наводим – в Интернете их уже огромное количество, да и статья больше направлена на знакомство с данной линейкой и раскрытие особенностей, нежели на получение тестовых результатов.

Итак, из многочисленных графиков и бенчмарков можно наблюдать картину. Самый топовый в модельном ряду FX-8150 при сравнении с Core i5 2500k:

Проигрывает в тестах, генерирующих однопоточную загрузку (кстати тут его обходит и Phenom II K10);

Выигрывает в большинстве в многопоточных тестах, где нагрузка распределяется равномерно на все 8 ядер;

Поддержка криптографический инструкции AES-NI позволяет приблизится к Core I7 2600K;

Результаты тестов 3D, к сожалению, также не радуют, FX-8150 отстает от своих конкурентов;

В играх процессор AMD FX-8150 уступает Core i5 2500k, даже в тех играх в которых декларируется загрузка всех ядер процессора.

Хотя процессоры AMD FX Бульдозер уступают своим конкурентам по производительности, у них заложен неплохой потенциал на будущее. Проблема не в том, что инженеры компании AMD не смогли добиться поставленной цели. Планировалось, что основой высокой производительности процессоров базирующихся на новой микроархитектуре, будет реализовано за счет большего количества ядер, работающих на повышенных частотах. Но в период реализации идеи Bulldozerа в кремень, возникли трудности и увидевшие свет CPU AMD FX на достаточной тактовой частоте так и не заработали. Что повлекло за собой малое число исполняемых каждым отдельным ядром инструкций, а это в свою очередь снизило производительность в целом. Компенсировать же этот негативный эффект не смогли даже установленные 8-мь ядер на AMD FX-8150.

Это и объясняет, что во время многопоточной нагрузки восьмиядерный AMD FX-8150 оказался на уровне 4-х ядерного процессора от Intel Core i5, а при однопоточной показывает весьма посредственные результаты.

Но компания AMD работает над ошибками и в скором времени появится второе поколение бульдозеров Piledriver, что вселяет надежду на получение более удачного продукта. Из заявленной информации сотрудников AMD новое поколение процессоров будет иметь производительность выше на 40-50% по сравнению с FX-8150, ну а «штатная частота» на 30 превышать современную.

Что касается вопроса покупки процессора Bulldozer для игр, то это решение не слишком выглядит удачно на фоне отсутствия превосходства над процессорами Intel и в виду ценовой политики AMD.

Для узкопрофильных многопоточных задач: обработка видео, рендеринг и т.д. AMD Bulldozer будет хорошим решением.

AMD FX-8350 | Встречайте линейку процессоров AMD FX на базе Piledriver

Нас, как обозревателей компьютерного железа, не очень интересуют проблемы, с которыми сталкиваются его производители. Многие согласятся, что прошлый год оказался ужасным для подразделения AMD по разработке процессоров, начиная с прожорливых CPU Bulldozer, которые за двенадцать месяцев медленно подешевели в ответ на появление процессоров Intel Core третьего поколения. Недавно в нашу лабораторию в Южной Калифорнии поступили новые образцы. Разговоры о недостатках в управлении, увольнениях и тяжёлом прошлом AMD конечных потребителей особо волновать не должны. Так что давайте перейдём к делу.

Иногда удаётся предсказать концовку статьи. Если бы AMD прислала нам FX-8170, работающий на 200 МГц быстрее предшественника, можно было бы предположить, что процессор покажет прежние недостатки в малопоточных приложениях, вероятно, обгонит Core i5-2500K в более интенсивных задачах, но по сравнению с чипами мощностью 77 Вт энергопотребление у него будет просто ужасное.

Но вместо этого мы получили процессор AMD FX-8350 , который, по аналогии с APU Trinity , представленными менее месяца назад, основан на архитектуре Piledriver. Опыт нам подсказывает, что по производительности на ядро и на такт Piledriver может обогнать дизайн Bulldozer на 15%. Стоит также учесть, что AMD FX-8350 будет работать как минимум на 400 МГц быстрее, чем FX-8150 . Кстати архитектура обеспечила заметно меньший прирост скорости линейке процессоров Intel Core. Велик шанс того, что сегодняшнее сравнение окажется гораздо более интересным, чем полный разнос FX-8150 в прошлогоднем обзоре.

Встречайте семейство FX на архитектуре Piledriver

Будучи верной своей традиции начиная с Bulldozer, AMD разослала прессе самые быстрые модели новой линейки, которая будет включать в себя восьми-, шести- и четырёхъядерные модели. Хотя они все построены на архитектуре Piledriver, сами чипы называются Vishera, и по-прежнему будут продаваться под брендом FX.


Кристалл AMD Vishera

Процессор Vishera занимает 315 квадратных миллиметров и состоит из 1,2 миллиарда транзисторов. Точно такие же показатели характеризируют Zambezi предыдущего поколения на базе архитектуры AMD Bulldozer.

Линейка процессоров AMD FX 2012 года
Количество ядер/потоков Базовая частота, ГГц Макс, Частота в режиме Turbo, ГГц Частота северного моста, МГц TDP, Вт Цена, $ OPN
FX-8350 8/8 4 4,2 2200 125 195 FD8350FRW8KHK
FX-8320 8/8 3,5 4 2200 125 169 FD8320FRW8KHK
FX-6300 6/6 3,5 4,1 2000 95 132 FD6300WMW6KHK
FX-4300 4/4 3,8 4 2000 95 122 FD4300WMW4MHK

Два из четырёх процессоров используют восемь вычислительных ядер или четыре модуля Piledriver, как их называет AMD. Базовая частота флагманской модели AMD FX-8350 составляет 4 ГГц. В малопоточных приложения технология Turbo Core может увеличить этот показатель до 4,2 ГГц, хотя в большей степени прирост скорости работы чипа будет связан с базовой частотой. Насколько Turbo Core ускоряет AMD FX-8350 ? Не на много. В однопоточном бенчмарке iTunes результат улучшился всего на три секунды.

В FX-8320 базовая частота понижена до 3,5 ГГц, но в рамках отведённого теплового пакета Turbo Core увеличивает её до 4 ГГц (ускорение на 500 МГц имеет большее значение для FX-8320). Обе восьмиядерные модели оснащаются 8 Мбайт кэша второго уровня (разделён на 2 Мбайт для каждого модуля) и 8 Мбайт кэша L3 (общий для всех четырёх модулей чипа). Рекомендованная цена на AMD FX-8350 составляет $195, а FX-8320 - $169.

В FX-6300 уже три активных модуля (шесть ядер), а цена снижения до $132. Частота 3,5 ГГц даёт архитектуре преимущество в многопоточных задачах, а Turbo Core пытается компенсировать недостатки в однопоточных приложениях, повышая частоту до 4,1 ГГц. Как и четырёхмодульные чипы, FX-6300 использует 2 Мбайт кэша L2 на каждый модуль (всего 6 Мбайт) и общий кэш третьего уровня ёмкостью 8 Мбайт. Меньшее число активных ресурсов, а также более низкая частота северного моста (2 ГГц) позволяют FX-6300 находиться в пределах теплового пакета 95 Вт, что заметно отличается от 125 Вт старших процессоров FX-83x0.

TDP двухмодульного процессора FX-4300 тоже не превышает 95 Вт. Значение базовой частоты 3,8 ГГц в малопоточных приложениях повышается до 4 ГГц, а северный мост работает на частоте 2 ГГц как у FX-6300. Однако ёмкость кэша L3 уменьшена до 4 Мбайт, причём цена ниже всего на $10 по сравнению с трёхмодульным чипом, что побудит многих покупателей потратить лишние $10.

Архитектура AMD особого недостатка в пропускной способности памяти не ощущает, тем не менее, двухканальный контроллер DDR3 официально поддерживает скорость передачи данных 1866 МТ/с. Чтобы сократить общую стоимость платформы, мы будем использовать модули DDR3-1600 c низкой задержкой, тем более, по результатам тестов (кроме Sandra 2013 Beta) видно, что потратив больше денег на более быструю память прироста скорости вы не получите.

Всё линейка FX обладает разблокированным множителем, что значительно упрощает разгон. А достаточно ли у Vishera разгонного потенциала? А что насчёт частоты 5,125 ГГц при поддержке системы жидкостного охлаждения замкнутого цикла?

AMD FX-8350 | Разгон и совместимость платформы

Разгон

Хотя процессоры AMD уже несколько лет не получали звание самых быстрых, компания старается удержать внимание энтузиастов, предоставляя важные для них функции. Программное обеспечение, позволяющее менять настройки конфигурации в Windows в режиме реального времени, разблокированные множители и платформы с большим числом слотов PCI Express – это лишь некоторые из ключевых особенностей, которые AMD предлагает людям, знающим как их использовать для увеличения производительности своих систем.

Те же оверклокеры, которые разочаровались в масштабируемости процессоров FX Zambezi с обычной системой охлаждения, в этот раз сильно удивятся, даже не смотря на то, что мы рассматриваем очень похожую архитектуру на таком же 32-нанометровом ядре.

При напряжении CPU и северного моста 1,375 В и 1,175 В соответственно, нам удалось добиться стабильной работы AMD FX-8350 на частоте 4,8 ГГц при полной нагрузке. На скриншоте выше запущен однопоточный тест для "раскрутки" чипа, но подсвеченная максимальная температура соответствует пиковой нагрузке всего тестового пакета.

AMD FX-8350 мог бы работать ещё быстрее, но ключевым фактором здесь является настройка напряжения при которой температура не превысит 70 градусов по шкале Цельсия. В этой точке температурный датчик заставляет ядра понижать частоту (изображение выше это доказывает), предохраняя чип от перегрева и негативно влияя на производительность. Не давая многопоточных нагрузок нам даже удалось запустить тесты на 5,125 ГГц (для этого нужно выставить напряжение a 1,4375 в для CPU и 1,2 В для северного моста).

Очевидно, что в большинстве пользовательских систем узким местом окажется охлаждение. Референсного радиатора и вентилятора AMD, мягко говоря, недостаточно, а мощное стороннее решение увеличит стоимость платформы с процессором FX. Но исключительно для проведения тестов мы использовали систему жидкостного охлаждения замкнутого цикла, которую AMD предлагала вместе с процессорами FX в прошлом году. Она обойдётся вам примерно в $70. В таком случае можно рассматривать за $300 в качестве альтернативы. К счастью, у нас есть результаты тестирования .


Разгона до 4,8 ГГц достаточно, чтобы AMD FX-8350 обогнал в многопоточной среде типа 3ds Max 2012, однако он не помог архитектуре AMD Piledriver обойти в однопоточном приложении iTunes. Конечно, если вы готовы потратить дополнительно $30 на и ещё больше на сторонний кулер, то его базовую частоту относительно легко можно увеличить с 3,5 ГГц до 4,5 ГГц и померятся с AMD FX разгоном.

Совместимость

Все четыре чипа FX Piledriver совместимы с существующим процессорным интерфейсом Socket AM3+. Чтобы старые материнские платы распознали новые процессоры серии FX нужно обновить BIOS. Однако платы, ранее испытывающие проблемы с процессорами FX, вряд ли избавятся от этого недостатка.

В качестве эксперимента Asus добавила поддержку линейки FX в 2011 году. Однако компания так и не выпустила обновления, необходимые для исправления возникновения синего экрана смерти в некоторых ситуациях. Поэтому мы не считаем, что старые платформы AM3 обеспечат должную поддержку процессоров FX, и с приходом Piledriver проблемы никуда не денутся. AMD заверяла, что проблема не глобальная, и поставщики могут решить её с помощью обновлений. Но некоторые производители плат, похоже, не очень заботятся об обновлениях для старой продукции.

AMD FX-8350 | Архитектура Piledriver: что изменилось по сравнению с Bulldozer

Текущая архитектура AMD x86 была очень подробно рассмотрена в обзоре FX-8150 (Обзор AMD FX-8150: от Bulldozer к Zambezi и FX ). Все эти принципы можно переложить на архитектуру Piledriver. Однако инженеры AMD набрались опыта, когда реализовывали концепцию Bulldozer на практике. Мы знаем, что за год технологический процесс эволюционировал даже несмотря на то, что компания по-прежнему использует 32-нанометровое ядро в производстве процессоров Vishera. Поэтому не стоит удивляться, если новая архитектура окажется просто модифицированной старой, где внесенные изменения лишь оказались давно запланированной "работой над ошибками".

Улучшения на входе

После премьеры AMD Bulldozer утверждалось, что предсказание ветвлений является одним из слабых мест архитектуры. Концепция модуля Piledriver включает некоторые общие ресурсы на два исполнительных конвейера, и архитекторы пытались минимизировать узкие места в препроцессоре, реализуя одну очередь предсказания ветвлений на поток. Компания утверждает, что в Piledriver точность предсказания увеличилась.

В Piledriver добавлена поддержка нескольких расширений ISA, которые мы впервые рассматривали в обзоре APU Trinity . Объединённый блок умножения был представлен год назад в Bulldozer. Та версия называлась FMA4 и позволяла инструкциям иметь до четырёх операндов. Но в предстоящей архитектуре Haswell Intel только планирует использовать более простой набор инструкций FMA3 с тремя операндами, поэтому AMD сохраняет за собой это преимущество в Piledriver. Ещё одно расширение называется F16C. Оно включает поддержку преобразования до четырёх значений половинной точности в значения с плавающей запятой за раз. Архитектура Intel уже имеет такое расширение, поэтому Piledriver просто догоняет конкурента. Нельзя сказать, что Bulldozer ощущал острую необходимость в FMA3/F16C, ведь поддержка на уровне компилятора была добавлена только в Visual Studio 2012.

Целочисленный блок

Каждое из двух целочисленных ядер использует отдельный блок загрузки/сохранения, способный выполнять две 128-битных загрузки за такт или одно 128-битное сохранение за такт. AMD обнаружила, что в некоторых случаях Bulldozer не мог обнаружить сохраненные данные в регистровом файле, которые там уже находились. После исправления, инструкции попадают в целочисленный блок быстрее.

В целочисленном ядре по-прежнему находятся два исполнительных блока и два блока генерации адресов (называются просто AGen). В этот раз способности AGen расширились, и они могут обрабатывать инструкции MOV. Когда активность блока AGen низка, архитектура будет перенаправлять инструкции MOV по этим каналам.

Одним из важных изменений является увеличение буфера быстрого преобразования адреса (TLB) для кэша L1 с 32 до 64 записей. Поскольку TLB L2 имеет довольно высокую 20-тактовую задержку, увеличение частоты успешных обращений в кэш L1 может существенного увеличить производительность в приложениях, работающих с большими объёмами данных. Это особенно актуально для серверных окружений, однако, по словам инженеров AMD, некоторые игры тоже к этому чувствительны, хотя они такого не ожидали.

Оптимизации кэша второго уровня

Аппаратная выборка в L2 тоже подверглась улучшению. Минимальная задержка не изменилась, вот почему задержка кэша в тесте Sandra 2013 не улучшилась. Тем не менее, блок предвыборки и кэш L2 используются более эффективно, и, по заявлению AMD, средняя задержка (её очень тяжело измерить) должна снизиться. Тот же модуль Sandra 2013 демонстрирует минимальные изменения в задержке L3, и архитекторы Vishera подтверждают, что в общем для всех модулей процессора FX кэше третьего уровня изменений не производилось.

Собираем все вместе: пять архитектур на частоте 4 ГГц

Какой же эффект оказывают все эти изменения на производительность Piledriver? Чтобы сравнить относительные результаты мы протестируем пять различных архитектур на частоте 4 ГГц.

Однако это очень обобщённый результат. В подтестах видно, как каждая платформа влияет на общий показатель игровой производительности.

Похоже, единственный процессор, выбившийся из общей канвы – это AMD Phenom II X6 1100T, и только на пару процентов. Все остальные демонстрируют одинаковые результаты, поскольку подтест Graphics изолирует GeForce GTX 680 .

В подтесте Physics производительность процессора играет главную роль, поскольку Futuremark делит мир на несколько отдельных регионов, создавая множество потоков.

AMD FX-8350 быстрее чем AMD Phenom II X6 1100T. Но шестиядерный чип имеет более низкое энергопотребление, и если его скорость не на много ниже, эффективность может оказаться на более высоком уровне. Это будет катастрофой для AMD.

К сожалению, платформа на базе чипа Vishera вряд ли сможет догнать процессоры Intel по эффективности, поскольку результаты среднего энергопотребления отличаются разительно.

Здесь AMD может гордиться собой. AMD FX-8350 финиширует вторым среди выбранных нами процессоров (CPU подбирались таким образом, чтобы не было большого разброса в результатах). Было очень любопытно, как AMD FX-8350 будет противостоять Core i5-3570K , и в результате новый процессор обогнал более дорогую модель на 12 секунд.

Тот факт, что AMD просит за новый флагман, который справился с тестами почти на 10 минут быстрее, чем FX-8150 , меньше $200, только добавляет ему ценности. Но что насчёт эффективности?

AMD FX-8350 почти на 13% эффективнее предшественника. Но что ещё более важно, новый процессор эффективнее, чем Phenom II X6 1100T.

Год назад Phenom в этом плане обошёл Bulldozer. И нельзя было отрицать, что AMD представила процессор, который потреблял больше энергии и работал медленнее. Сегодня мы признаём более высокую производительность, улучшенную эффективность и более привлекательную цену. Достаточно ли этого, чтобы получить рекомендацию?

AMD FX-8350 | Все ещё чего-то не хватает

Проверив новый процессор по всем параметрам, мы с уверенностью можем сказать, что AMD FX-8350 Core i5-3570K , даже наплевав на серьёзные различия по эффективности и энергопотреблению. Таково наше мнение в 2012 году.

Как уже говорилось, AMD FX-8350 оказался гораздо сильнее FX-8150 и позволяет AMD вернуть позиции, потерянные архитектурой Bulldozer. Piledriver не исправляет все недостатки Bulldozer, но тонкая настройка дизайна и энергопотребления позволяют компании увеличить тактовую частоту при этом не затрагивая тепловой пакет, который составляет 125 Вт. Изменения не столь существенны, но их достаточно чтобы создать неплохую альтернативу лучшим моделям Intel Core i5.

Конечно, если бы AMD решила просить за новый чип $245 как за FX-8150 , процессор AMD FX-8350 ожидал бы такой же "успех" как и прошлогоднюю модель. Однако рекомендованная цена не превышает $200. Благодаря этому AMD FX-8350 стоит в одном ряду с Intel Core i5-3470, с заблокированным множителем, который оказался позади во многих бенчмарках. В этих же тестах, новый чип FX обгоняет Core i5-3570K за $230. И только в однопоточных приложениях процессоры Intel остаются вне досягаемости.

Но остаётся ещё вопрос энергопотребления. В России, слава Богу, электроэнергия относительно дешёвая. И вряд ли, кто-нибудь будет беспокоиться о лишних 50 Вт, если для их рассеивания не нужен громкий кулер. Но, например, жители Дании платят $0,40/кВт*ч, и разница всего в 10 Вт между процессорами Core i5 и AMD FX-8350 в простое обойдётся в несколько долларов в месяц. Система, работающая круглосуточно под нагрузкой, уже запросит лишние $15 в месяц. Преимущество за Intel.

Всё же давайте попробуем определиться с рекомендацией. Учитывая, что профессиональные пользователи предпочитают больше AMD, чем Intel, мы считаем, что многие энтузиасты всерьёз заинтересуются AMD FX-8350 , в отличие от чипов Bulldozer, и это правильно. Все хотели увидеть больше скорости, улучшенную эффективность и более низкую цену, и AMD всё это даёт. Есть ли компромиссы? Да есть. Производительность в однопоточных приложениях нас совсем не впечатлила, да и энергопотребление по-прежнему является больным вопросом. Но AMD FX-8350 по цене менее $200 определённо можно использовать в рабочей станции среднего уровня.

Выбрали бы мы AMD FX-8350 для новой системы? Скорее всего, нет. Несмотря на то, что архитекторы AMD отлично поработали за прошедший год, производительность всё же сильно зависит от типа задачи. И учитывая, что электроэнергия постоянно дорожает, а производительность находится на близком уровне, мы бы выбрали более эффективный вариант.

Недавний анонс новейших процессоров AMD стал одним из самых ярких событий текущего года. Напряженное ожидание, которое подогревалось многочисленными утечками информации и секретными слайдами, не оставляло в покое не только фанатов бело-зеленого лагеря, но и приверженцев продукции конкурирующей компании. Данные о производительности поступали самые противоречивые: от подавляющего преимущества над конкурентами до полного провала. Никто не станет спорить с утверждением, что микроархитектура Stars, лежащая в основе всех нынешних настольных решений компании AMD, на сегодняшний день порядком устарела. Возможности наследников легендарных К8, процессоров AMD Phenom II и Athlon II, более не отвечают современным реалиям. Именно поэтому вывод на рынок процессоров, основанных на принципиально новой архитектуре Bulldozer, был чрезвычайно необходим. Это позволило бы сравняться или даже обогнать решения конкурентов по производительности и энергоэффективности. Преимущество в быстродействии должна обеспечить принципиально новая восьмиядерная архитектура, а внедрение тонкого 32-нм технологического процесса вместе с «продвинутыми» возможностями управления напряжениями и частотами отдельных функциональных блоков обещают значительное снижение энергопотребления в сравнении с решениями предыдущего поколения.

Наконец, 12 октября покров таинственности был сорван: именно тогда состоялся долгожданный анонс процессоров AMD FX, в основе которых лежит микроархитектура Bulldozer. Чипмейкер представил целую линейку CPU — носителей этой микроархитектуры, которая включает четырех-, шести- и восьмиядерные модели. Кроме прочего, компания AMD возродила торговую марку «FX», имя которой в прошлом носили продукты для энтузиастов. Действительно, все процессоры AMD FX нынешнего поколения имеют разблокированный на повышение коэффициент умножения, что, по идее, должно сделать их привлекательными для любителей разгона. Гибко варьируя количеством функциональных блоков и рабочими частотами, AMD удалось заполнить практически все основные рыночные ниши, начиная от недорогих игровых систем и заканчивая предложениями для конфигураций верхнего ценового диапазона. Полный модельный ряд новейших процессоров AMD в сравнении с четырех- и шестиядерными Phenom II выглядит так:

FX 8150 FX 8120 FX 6100 FX 4100 Phenom II X6 Phenom II X4
Ядро Zambezi Zambezi Zambezi Zambezi Thuban Deneb
Разъем Socket AM3/AM3+ Socket AM3/AM3+ Socket AM3/AM3+ Socket AM3/AM3+ Socket AM2+/AM3 Socket AM2+/AM3
Техпроцесс CPU, нм 32 32 32 32 45 45
Количество транзисторов, млн. 2000 2000 2000 2000 904 758
Площадь кристалла, кв. мм 315 315 315 315 346 243
Число ядер 8 8 6 4 6 4
Номинальная частота, МГц 3600 3100 3600 3100 2600 — 3300 3200 — 3700
Частота Turbo Core, МГц 3900/4200* 3400/4000* 3300/3900* 3600/3800* 3100 — 3700
Частота NB, МГц 2200 2200 2200 2200 2000 2000/1800
Объем L1 кэша, КБ 16 x 8 + 64 x 4 16 x 8 + 64 x 4 16 x 6 + 64 x 3
16 x 4 + 64 x 2 128 x 6 128 x 4
Объем L2 кэша, КБ 2048 x 4
2048 x 4
2048 x 4
2048 x 4
512 x 6
512 x 4
Объем L3 кэша, МБ 8 8 8 8 6 6
Множитель 18 15,5 16,5 18 13 — 16,5 16 — 18,5
Каналов памяти 2 2 2 2 2 2
Поддерживаемый тип памяти DDR3 1333/1600/1866 DDR3 1333/1600/1866 DDR3 1333/1600/1866 DDR3 1333/1600/1866 DDR2 800/1066, DDR3 1333/1600
Шина для связи с чипсетом Hyper Transport 3.1 Hyper Transport 3.1 Hyper Transport 3.1 Hyper Transport 3.1 Hyper Transport 3.0 Hyper Transport 3.0
Частота Hyper Transport, МГц 5200 5200 5200 5200 4000 4000
Рабочее напряжение, В 0,825-1,4 0,825-1,4 0,825-1,4 0,825-1,4 0,825-1,4 0,825-1,4
TDP, Вт 125 125 95 95 125 125
Рекомендованная стоимость, $ 245 205 165 115 165 — 205 117 — 185

Если закрыть глаза на количество вычислительных ядер, в сравнении с предшественниками процессоры FX получили более быструю шину Hyper Transport 3.1, поддержку скоростной памяти DDR3 1866 МГц и увеличенную до 8 Мбайт кэш-память 3-го уровня. Кроме того, обращаем ваше внимание на достаточно высокие тактовые частоты, которые вплотную приблизились, а в отдельных случаях даже преодолели рубеж в 4000 МГц. Если исходить из рекомендованной цены, четырехъядерный процессор FX 4100 должен конкурировать с двухядерными Sandy Bridge и младшими Phenom II X4; соперниками шестиядерного FX 6100 станут младшие модели Core i5 и шестиядерные Phenom II X6. Восьмиядерные модели FX 8120 и FX 8150 играют в «высшей лиге», где правят бал старшие Core i5 и Core i7, которые до сих пор показывали великолепный уровень производительности. Как видно, позиционирование новых процессоров AMD FX обязывает их держаться на уровне очень серьезных соперников, так что новичкам придется ой как нелегко!

Микроархитектура Bulldozer: строение и особенности функционирования

Прежде всего, необходимо отметить, что AMD FX являются чистокровными центральными процессорами и не имеют в своем составе графического ядра. Конечно, в этой связи можно обвинить AMD в непоследовательности, ведь продвижение на рынок APU (Accelerated Processing Unit) — одна из основных стратегических инициатив компании. Взамен встроенного видеоадаптера пользователи получают полную совместимость AMD FX с производительной платформой Socket AM3/AM3+, для которой предлагается множество отличных системных плат и обеспечена поддержка всех актуальных возможностей расширения. Специально для процессоров FX компания AMD выпустила обновленную 9-ю серию наборов системной логики.


Напомним основные возможности флагманского чипсета AMD 990FX. Итак, он позволяет строить графические конфигурации AMD CrossFireX и NVIDIA SLI, благодаря южному мосту SB950 поддерживает стандарт SATA 6 Гбит/с, но лишен возможности подключения устройств USB 3.0. Что касается материнских плат Socket AM3, основанных на наборах системной логики предыдущих поколений, то после обновления микрокода прошивки они тоже должны будут поддерживать Bulldozer. Но это уже зависит от конкретной модели.

Одной из ключевых особенностей процессоров на базе микроархитектуры Bulldozer стал переход на 32-нм литографический процесс, который на протяжении почти двух лет весьма успешно используется основным конкурентом — компанией Intel. Кроме потенциального уменьшения энергопотребления и улучшения разгонного потенциала, этот факт положительно отразился на стоимости производства полупроводниковых кристаллов. AMD уже нельзя назвать новичком в деле освоения 32-нм техпроцесса: именно с таким уровнем детализации выпускаются вполне удачные APU Llano, которые хоть и не завоевали признания среди энтузиастов, зато отлично подходят для построения недорогих и компактных универсальных ПК. Благодаря применению современных технологий производства чип (несмотря на то что содержит почти 2000 млн. транзисторов) вышел весьма компактным. Восьмиядерные AMD FX 8150 имеют площадь ядра всего в 315 мм², что меньше, чем у флагманов предыдущего поколения — Phenom II X6, кристалл которых занимает целых 346 мм². Впрочем, до показателей четырехъядерных Sandy Bridge процессорам AMD FX все же далеко, так как у первых чип, несмотря на наличие встроенного графического акселератора, занимает всего 216 мм².

Главные нововведения, которые были сделаны в микроархитектуре Bulldozer, коснулись алгоритма выполнения многопоточных вычислений. Долгое время центральные процессоры были способны выполнять единственный вычислительный поток в один момент времени. Так называемая одновременная работа нескольких программ осуществлялась при помощи обработчика прерываний, то есть вычислительные задачи разных приложений по очереди получали кратковременный доступ к ресурсам процессора. Именно благодаря этому стала возможной работа многозадачных операционных систем. Стоит ли говорить, что скорость работы в таком режиме была невысокой. В то же время, разработчики CPU стали замечать, что в нагрузке разные функциональные блоки процессора могут простаивать без работы, пока другие заняты обработкой вычислительного потока. Именно это и натолкнуло их на совместное использование одних и тех же ресурсов процессора для обработки нескольких вычислительных потоков. Компания Intel внедрила такую возможность под названием Hyper-Threading в свои процессоры еще в далеком 2002 году. Данный принцип дает некоторый прирост в определенном типе задач. В то же время, подход AMD к реализации многопоточных вычислений долгое время оставался неизменным: каждый поток должен выполняться на отдельном ядре. Теперь же, после оптимизации производительности отдельных узлов процессора и тщательного анализа нагрузки, разработчики AMD посчитали, что быстродействия некоторых узлов вполне достаточно для обслуживания сразу двух независимых вычислительных потоков. Такой подход позволил здорово сократить количество транзисторов, но сохранить высокую продуктивность. Теперь же, в свете увеличения требований к быстродействию при сохранении приемлемых параметров энергопотребления, разработчики вынуждены искать пути увеличения количества исполняемых за такт инструкций.

Итак, в основе всех центральных процессоров AMD FX лежит полупроводниковый кристалл, состоящий из четырех вычислительных модулей, каждый из которых снабжен собственным массивом кэш-памяти 2-го уровня, общего кэша 3-го уровня объемом 8 Мбайт, двухканального контроллера памяти DDR3, контроллеров шины HyperTransport и встроенного северного моста.


Очевидно, что младшие модели получаются из полноценных чипов путем отключения отдельных функциональных блоков. Глядя на структуру кристалла Zambezi невольно создается впечатление, что перед нами обычный четырехъядерный процессор. На самом деле это не так, и более всего данный факт демонстрирует строение вычислительного модуля — структурной единицы процессоров AMD FX.

В состав вычислительного модуля входят два блока целочисленных вычислений (ALU), каждый из которых способен выполнять до четырех инструкций за такт, снабженных собственной кэш-памятью 1-го уровня для хранения данных. Все остальные блоки, такие как предсказатель ветвлений, декодер инструкций, буферная память для хранения инструкций и массив кэш-памяти 2-го уровня размеров 2 Мбайт, представлены в единичном экземпляре. Очевидно, разработчики посчитали, что производительности этих блоков достаточно для обслуживания двух ALU.


Кроме того, каждый из вычислительных модулей располагает блоком вычислений с плавающей точкой (FPU), который также подвергся значительным доработкам. Так к стандартным SIMD-расширениям добавились наборы SSE4.1 и SSE4.2, а также специфические инструкции XOP, AES и AVX, которые позволяют значительно повысить быстродействие при условии их поддержки со стороны программного обеспечения. Интересно выглядит возможность выполнения 256-битных инструкций AVX, для этого задействуются ресурсы сразу двух блоков, каждый из которых способен обрабатывать 128-битные команды FMAC. При этом блок FPU способен выполнять две коротких инструкции AVX одновременно.

Как видно, микроархитектура Bulldozer имеет весьма продвинутые возможности вычисления, особенно в сравнении с процессорами AMD предыдущих поколений. Однако за такое технологическое преимущество приходится платить необходимостью тщательной оптимизации программного кода. В противном случае, особенно в старых приложениях, уровень быстродействия может быть далеким от ожидаемого.

Пару слов следует сказать про организацию внутренней памяти AMD FX, которые стали чемпионами не только по количеству ядер, но и по суммарному объему кэша. Как мы уже говорили, каждый из блоков целочисленных вычислений располагает буфером для хранения данных объемом 16 Кбайт, при этом оба буфера могут использоваться для работы блока FPU. Для хранения инструкций каждый вычислительный модуль располагает отдельным кэшем L1 объемом 64 Кбайт, а промежуточные данные накапливаются в кэш-памяти второго уровня, размеры которого составляют впечатляющие 2 Мбайт. Общий для всех четырех вычислительных блоков массив кэша 3-го уровня имеет объем 8 Мбайт и обладает ассоциативностью в 64 линии на каждый модуль. Благодаря применению эксклюзивной организации кэшей 2-го и 3-го уровней можно говорить об их суммарном объем в 16 Мбайт. Не удивительно, что кристалл Bulldozer получился таким сложным, львиная доля транзисторного бюджета отведена для организации внутренней памяти процессора. Заметим, что рабочая частота кэш-памяти L3 может составлять 2000 МГц или 2200 МГц в зависимости от модели процессора.

Как видно из краткого описания дизайна ядра, микроархитектура Bulldozer, несмотря на все свои новшества, не лишена некоторых недостатков. Все-таки на каждый вычислительный модуль приходится только один предсказатель ветвлений, блок выборки инструкций и один декодер инструкций, который, к слову, способен обрабатывать не более четырех инструкций за такт. Посмотрим, как поведет себя AMD FX в реальных приложениях, но интуиция подсказывает, что в приложениях, активно использующих FPU, но не имеющих программной оптимизации для новых наборов SIMD-инструкций, новейшие процессоры будут демонстрировать уровень производительности, характерный для четырехъядерных моделей.

Помимо архитектуры изменения претерпели и механизмы управления энергопотребления. Несмотря на большее количество транзисторов и высокие тактовые частоты, даже старшие восьмиядерные AMD FX имеют тепловой пакет, не превышающий 125 Вт. Конечно, определенную роль в этом сыграл и 32-нм технологический процесс, благодаря которому штатное напряжение питания не превышает 1,4 В, но основная заслуга все таки принадлежит продвинутым механизмам регулировки тактовых частот и питающих напряжений. Первое поколение данной концепции было реализовано в Phenom II X6, где в случае вычислительной нагрузки не более трех потоков, частоты трех активных ядер могли повышаться на 400 МГц. Процессоры AMD FX предлагают гораздо более гибкий поход к управлению ключевыми параметрами быстродействия. Так, благодаря применению силовых вентильных транзисторов диспетчер энергосбережения процессора способен отключать целые функциональные блоки. При отсутствии нагрузки вычислительный модуль вместе с массивом кэш-памяти 2-го уровня может полностью отключаться, высвобождая часть бюджета TDP. В то же время, тактовая частота и напряжение активных вычислительных модулей может повышаться, причем прирост частоты в режиме Max Turbo достигает солидных 900 МГц. Согласитесь, столь агрессивный алгоритм работы автоматического разгона нам еще не встречался. Более того, при равномерной нагрузке всех вычислительных модулей существует возможность увеличения тактовой частоты порядка 300 МГц. Собственно, это и есть режим работы Turbo Core, причем он будет активен до тех пор, пока энергопотребление процессора не выходит за рамки теплового пакета. Иными словами, самое понятие «штатная тактовая частота» для AMD FX теряет свой первоначальный смысл.


И все было бы очень хорошо, если бы не было так грустно. А дело в том, что планировщик процессов операционных систем Windows пока недостаточно оптимизирован для процессоров AMD FX. Существует вероятность того, что два потока одного приложения будут выполняться на целочисленных вычислительных блоках разных модулей, что не позволит процессору перейти в режим Max Turbo и потребует повторной загрузки данных и инструкций в кэш-память. В идеальном случае планировщик операционной системы должен учитывать архитектурные особенности Bulldozer, в этом случае комбинация использования Turbo Core и Max Turbo должны дать максимальный положительный эффект.


Уже сейчас известно, что планировщик заданий будущей Microsoft Windows 8 будет оптимизирован для работы на процессорах Bulldozer. А что касается дня сегодняшнего, возможно, будет выпущено обновление для нынешних операционных систем, или же программисты AMD наконец-то разработают «чудо-драйвер»…