Определение понятия "архитектура"
Термин "архитектура системы" часто употребляется как в узком, так и в широком смысле этого слова. В узком смысле под архитектурой понимается архитектура набора команд. Архитектура набора команд служит границей между аппаратурой и программным обеспечением и представляет ту часть системы, которая видна программисту или разработчику компиляторов. Следует отметить, что это наиболее частое употребление этого термина. В широком смысле архитектура охватывает понятие организации системы, включающее такие высокоуровневые аспекты разработки компьютера как систему памяти, структуру системной шины, организацию ввода/вывода и т.п.
Применительно к вычислительным системам термин "архитектура" может быть определен как распределение функций, реализуемых системой, между ее уровнями, точнее как определение границ между этими уровнями. Таким образом, архитектура вычислительной системы предполагает многоуровневую организацию. Архитектура первого уровня определяет, какие функции по обработке данных выполняются системой в целом, а какие возлагаются на внешний мир (пользователей, операторов, администраторов баз данных и т.д.). Система взаимодействует с внешним миром через набор интерфейсов: языки (язык оператора, языки программирования, языки описания и манипулирования базой данных, язык управления заданиями) и системные программы (программы-утилиты, программы редактирования, сортировки, сохранения и восстановления информации).
Интерфейсы следующих уровней могут разграничивать определенные уровни внутри программного обеспечения. Например, уровень управления логическими ресурсами может включать реализацию таких функций, как управление базой данных, файлами, виртуальной памятью, сетевой телеобработкой. К уровню управления физическими ресурсами относятся функции управления внешней и оперативной памятью, управления процессами, выполняющимися в системе.Следующий уровень отражает основную линию разграничения системы, а именно границу между системным программным обеспечением и аппаратурой. Эту идею можно развить и дальше и говорить о распределении функций между отдельными частями физической системы. Например, некоторый интерфейс определяет, какие функции реализуют центральные процессоры, а какие - процессоры ввода/вывода. Архитектура следующего уровня определяет разграничение функций между процессорами ввода/вывода и контроллерами внешних устройств. В свою очередь можно разграничить функции, реализуемые контроллерами и самими устройствами ввода/вывода (терминалами, модемами, накопителями на магнитных дисках и лентах). Архитектура таких уровней часто называется архитектурой физического ввода/вывода.
Архитектуры CISC и RISC
Здесь рассматриваются базовые свойства архитектур CISC и RISC, а также особенности интеграции элементов RISC-архитектуры в процессорах x86. Особое внимание уделяется описанию преимуществ и недостатков этой интеграции. Показано естественность взаимообогащения CISC и RISC-процессоров эффективными аппаратно-программными решениями, а также практичность развития процессоров в этом направлении.
Организация первых моделей процессоров - i8086/8088 - была направлена, в частности, на сокращение объёма программ, критичного для систем того времени, отличавшихся малой оперативной памятью. Расширение спектра операций, реализуемых системой команд, позволило уменьшить размер программ, а также трудоёмкость их написания и отладки. Однако увеличение числа команд повысило трудоёмкость разработки их топологических и микропрограммных реализаций.
Последнее проявилось в удлинении сроков разработки CISC-процессоров, а также в проявлении различных ошибок в их работе. Кроме того, нерегулярность потока команд ограничила развитие топологии временным параллелизмом обработки инструкций на конвейере "выборка команды- дешифрация команды- выборка данных- вычисление- запись результата".
Эти недостатки обусловили необходимость разработки альтернативной архитектуры, нацеленной, прежде всего, на снижение нерегулярности потока команд уменьшением их общего количества. Это было реализовано в RISC-процессорах, название которых означает "чипы с сокращённой системой команд" (Reduced Instruction Set Computer). Одновременно "классические" процессоры получили обозначение CISC (Complex Instruction Set Computer) - компьютер со сложным набором инструкций.
Сокращение нерегулярности потока команд позволило обогатить топологию RISC-процессоров пространственным параллелизмом, специализированными аппаратными АЛУ (ALU - блок логики и арифметики = Arithmetic (and) Logic Unit), независимыми кэш данных и команд, раздельными шинами ввода-вывода. Последние, в частности, увеличили длину конвейеров команд. Всё это повысило и производительность - увеличением числа операций, выполняемых за один такт, и быстродействие - сокращением пути транзактов - RISC-процессоров. При этом срок разработки данных чипов свидетельствует о том, что её трудоёмкость меньше, чем в случае CISC-процессоров.
На мировых рынках CISC-процессоры представлены, в основном, клонами процессоров Intel серии x86, производимыми AMD, Cyrix, а RISC - чипами Alpha, PowerPC, SPARC. Уступая во многом последним, процессоры x86 сохранили лидерство на рынке персональных систем лишь благодаря совместимости с программным обеспечением младших моделей, общая стоимость которого - в начале 90-х годов - составила несколько миллиардов долларов США. В свою очередь, достоинства RISC-процессоров укрепили их позиции на более молодом рынке высокопроизводительных машин.
Несмотря на формальное разделение "сфер влияния", между представителями этих архитектур в начале 90-х годов началась острая конкуренция за превентивное улучшение характеристик. В первую очередь, производительности и её отношения к трудоёмкости разработки процессоров. Следуя принципу "бить врага его оружием", создатели и CISC, и RISC-процессоров нередко боролись с конкурентами, заимствуя их удачные решения.
Первыми на то решились разработчики Intel, реализовавшие в i486 пространственный параллелизм вычислений с фиксированной и плавающей запятой. Поддержка каждого АЛУ своей шиной данных/команд и регистровым блоком повысила производительность i486 одновременным выполнением указанных команд. Кроме того, интеграция кэш и очереди команд позволила поднять частоту ядра процессора в 2-3 раза в сравнении с системной шиной. Однако совместное размещение данных и команд ограничило эффективность кэш необходимостью его полной перезагрузки после выполнения команд переходов.
Для устранения недостатка в Pentium реализованы раздельные кэш для команд и данных, позволяющие после переходов перезагружать лишь команды - такое решение называется Гарвардской архитектурой, а также предсказание переходов, снижающее частоту перезагрузок. Последнее достигается предварительной загрузкой в кэш команд с обоих разветвлений. Введение второго целочисленного тракта, состоящего из АЛУ, адресного блока, шин данных/команд, и работающего на общий блок регистров, повысило производительность поддержкой параллельной обработки целочисленных данных. Развитием данной тенденции стало обогащение Pentium MMX мультимедийным трактом, образованным АЛУ, шинами данных/команд и регистровым файлом.
При этом в случае выборки двух целочисленных команд, зависящих по данным, каждая из них выполняется последовательно, что снижает эффективность работы процессора. Частично поправило ситуацию создание оптимизирующих рекомпиляторов, например, Pen_Opt фирмы Intel, разделяющих по возможности такие команды.
Реализация описанного управления обработкой команд CISC-формата вызвала дополнительный рост трудоёмкости разработки Pentium в сравнении с i8086/i486, что привело не только к увеличению её реального срока на 27% в сравнении с ожидаемым, но и к проявлению ошибок в первых моделях данного процессора.
Учтя это, компания Intel реализовала в Pentium Pro RISC-подобную организацию вычислений. Интерпретация команд х86 внутренними - RISC86 - инструкциями VLIW-формата помимо снижения нерегулярности их потока, обеспечила синхронную загрузку четырёх операционных - по два с плавающей и фиксированной запятой - АЛУ этого чипа. Термин VLIW расшифровывается как "очень длинное командное слово" (Very Long Instruction Word). Инструкции этого формата содержат команды для всех параллельных АЛУ.
Обогащение управления обработкой предвыборкой данных и команд, предполагаемых к обработке в ближайшие 20 тактов, повысило регулярность загрузки вычислительных трактов. В свою очередь, осуществление предвыборки из интегрированного на кристалле кэш второго уровня, обслуживаемого раздельными шинами "интерфейс-кэш" и "кэш-АЛУ" и работающего на частоте АЛУ, повысило быстродействие подготовки команд в сравнении с внешними кэш. Дополнительное повышение производительности Pentium Pro обеспечило увеличение длины команд до 11 ступеней введением ступеней трансляции и предвыборки. Кроме того, интеграция кэш второго уровня позволила умножать частоту ядра в 5-6 раз.
В архитектуре Р6 RISC-решения впервые в семействе х86 перестали быть лишь дополнением исконных CISC-средств повышения производительности - роста разрядности, отложенной записи шины и других. Поэтому частица PRO в названии первого процессора этой серии обозначает "Полноценная RISC-архитектура" (Precision RISC Organization).
Топологические новинки Pentium II - интеграция тракта MMX, мультипроцессорный интерфейс Xeon, вынесение кэш второго уровня на кристалл в корпусе чипа, как и полное устранение кэш второго уровня в Celeron, не имеют в данном случае качественной роли и направлены на оптимизацию отношения характеристик этих процессоров, к их цене.
При этом сокращение нерегулярности потока RISC86-инструкицй ограничило рост требований к развитию управления вычислениями в сравнении с Pentium. Одновременно снижение трудоёмкости разработки аппаратно-программных реализаций алгоритмов работы Pentium Pro, достигнутое развитием САПР, ослабило влияние развития обработки данных, оцениваемого ростом объёма информации, заложенной в реализациях этой обработки, на общую трудоёмкость разработки процессоров, оцениваемую её длительностью.
Последнее создало возможность оптимизации соотношения характеристик чипов и их трудоёмкости не снижением последней ограничением внедрения прогрессивных решений в CISC-архитектуру или ограничением функциональных возможностей RISC-процессоров, а ростом характеристик, достигаемым сочетанием преимуществ упомянутых архитектур.
Сказанное иллюстрирует и организация современных RISC-процессоров. Их отличает, в данном случае, развитие систем команд с целью сохранения иерархической совместимости и снижения трудоёмкости разработки программ. Это сближает технологии обработки команд процессорами упомянутых архитектур. Например, SuperSparc взяли от последних моделей х86 предсказание переходов и предварительную интерпретацию кода.
Таким образом, развиваясь, каждая из рассмотренных архитектур, "отказавшись" от своих черт - CISC от скалярности вычислений, RISC от "простоты" системы команд, приобрела лучшие черты конкурента, что повысило характеристики её представителей.
Это подтверждает и процессор Merced, разрабатываемый недавними противниками - Intel и Hewlett Packard. Имеющиеся сведения позволяют предположить, что его архитектура продолжит тенденции Pentium Pro по оптимизации обработки внутренних VLIW-подобных команд реализацией эффективных архитектурных решений при одновременной оптимизации преобразования "внешних" инструкций. Особо отмечаются намерения создания двух вариантов этого чипа, различающихся лишь множеством этих инструкций. Первый будет совместим с CISC-семейством x86, второй - с RISC-процессорами Alpha.
Будучи "един в двух лицах", Merced ознаменует прекращение соперничества CISC и RISC, в ходе которого представители данных архитектура улучшили свои характеристики реализацией лучших аппаратно-программных решений конкурентов. Это позволяет предположить, что дальнейшее развитие массовых процессоров пройдёт по пути развития топологических и микропрограммных решений вычислительного ядра RISC-организации при одновременном повышении возможностей CISC-подобной "внешней" системы команд.
Архитектура 6x86 остается практически неизменной - с двумя конвейерами, как и Pentium, но в отличие от него более гибкая. В процессорах Pentium II фирмы Intel и K6, выпускаемом AMD, реализован более сложный подход, при котором команды x86 преобразуются в простые внутренние команды, затем передаются на выполнение в процессорное ядро, способное выполнять параллельно четыре и более внутренние команды. Подход, принятый Cyrix, обеспечивает лучшие показатели производительности Winstone при данной тактовой частоте, но механизм, реализованный в процессорах Intel и AMD, позволяет достичь более высоких значений тактовой частоты.
В отличие от AMD компания Cyrix продолжает использовать систему PR для оценки производительности своих простах же High-End Winstone преимущество сократилось до 3% при 32-Мбайт ОЗУ и практически до нуля при 64-Мбайт ОЗУ. Он даже продемонстрировал одинаковую производительность с Pentium II/233 при выполнении теста Business Winstone.
В то же время процессор 6x86, подобно K6 фирмы AMD, отличается невысокой производительностью при выполнении команд MMX и вычислений с плавающей точкой; здесь его быстродействие даже ниже, чем у K6. В режиме трехмерной графики его производительность оставляет желать лучшего - при эмуляции 3D-графики она составила всего 63% от производительности Pentium MMX/233. Даже при наличии хорошей графической платы различие оставалось значительным - 27%, что ставит его на последнее место в ряду рассматриваемых процессоров по производительности в режиме трехмерной графики.
6x86MX показал удивительно хорошее быстродействие на тесте AutoCAD, хотя он по-прежнему значительно уступал Pentium II. На тесте Photoshop он оказался медленнее, чем 233-МГц модели K6 и Pentium MMX.
VIA объявила о начале поставки новой версии Cyrix III, имеющей на этот раз истинную тактовую частоту от 533 до 667 МГц. Это уже новое ядро, Winchip4, и по всей видимости, о Cyrix кроме как в названии процессора, мы больше не услышим. О новом процессоре: 0.18 мкм техпроцесс TSMC позволил сделать чип с площадью всего лишь 76 кв.мм и энергопотреблением менее 10 Вт, правда за счет чего это достигнуто - второй вопрос: процессор имеет лишь 128 Кбайт кэша первого уровня. Теперь осталось лишь посмотреть, как это скажется на производительности. В принципе, отсутствие кэша L2 - это единственное потенциально узкое место нового процессора. Все остальное: частота системной шины, вдвое большая, чем у Celeron, поддержка 3DNow! - все это в этом плане должно сыграть только в плюс. Ну если хоть Winchip4 до России доберется, узнаем точно. Да, цена: младшая модель, 533 МГц, стоит $75, старшая, 667 Мгц - $160. Не слишком впечатляет, по сравнению с Celeron и Duron. Особенно учитывая, что их производительность все же должна быть выше.
VIA вступила в эту эстафету с процессором Matthew. Аналитики и представители VIA полагают, что усовершенствованное ядро Cyrix последуют за WinChip 4, чей 76-кв.мм кристалл более удобен для совмещения с другими компонентами. Однако, это ядро не включает встроенного кэша второго уровня, который так любим соперниками VIA, поэтому аналитики назвали этот процессор PR-чипом, полагая, что он не будет работать на действительных тактовых частотах, как того хотела VIA. Планы VIA по выпуску интегрированных процессоров, также известных как Matthew, получили больше шансов на успешное претворение после того, как Интел оложил выход своих интегрированных процессоров, Timna, до первого квартала 2001 года из-за проблем с MTH (memory-translator hub).
Для пользователя, предъявляющего высокие требования к производительности, микропроцессор семейства Alpha фирмы Digital Equipment Corp. может стать заслуживающей внимания альтернативой процессорам фирмы Intel и их аналогам. Кристаллы Alpha остаются самыми быстрыми и единственными на сегодня RISC-процессорами, совместимыми с Microsoft Windows NT. Если продуктивность вашего труда определяется производительностью одного или двух мощных прикладных пакетов и существуют их версии для Alpha, то ПК на базе Alpha может стать для вас хорошим выбором.
Сегодня семейство Alpha представлено процессором 21164, который фирма Digital предлагает в вариантах с тактовыми частотами от 300 до 600 МГц. При выполнении целочисленных вычислений повышение производительности по сравнению с Intel Pentium II относительно невелико, если принять во внимание столь значительное преимущество в тактовой частоте; тактовая частота высока, а число команд, выполняемых в каждом такте, меньше, чем у ЦП Pentium II. На практике выигрыш в производительности в значительной степени зависит от характера приложения. Для приложений, требующих вычислений с плавающей точкой, например 3D-графики и САПР, процессор 21164 демонстрирует выдающуюся производительность.
Техническое воплощение микропроцессора 21164 безусловно впечатляет - он содержит 9,6 млн. транзисторов. На кристалле размещены кэш L1 емкостью 16 Кбайт и 96-Кбайт кэш L2. Системная 128-разрядная шина обеспечивает более высокую пропускную способность, чем 64-разрядная шина компьютеров с микропроцессорами x86.
Сложная проблема, с которой сталкиваются все изготовители RISC-процессоров при выходе на рынок ПК, состоит в недостатке прикладных программ. Digital активно стимулировала их разработку и на сегодня располагает внушительным арсеналом программных средств, но они представляют собой, главным образом, программы САПР и системы подготовки текстов, а не типичные приложения для ПК.
Чтобы разрешить эту проблему, Digital разработала интересный программный продукт, названный FX!32, который позволяет системе с ЦП Alpha выполнять почти все 32-разрядные приложения, ориентированные на Windows для х86. Производительность при этом значительно выше, чем при использовании других программ эмуляции, например SoftPC, но составляет, по сведениям Digital, лишь 50-70% от производительности, достигаемой при работе в собственной системе команд процессора Alpha. Программа FX!32 позволяет работать с более широким спектром приложений; она, возможно, избавит вас от необходимости иметь компьютер с ЦП x86 помимо ПК на базе Alpha, но, скорее всего, не обеспечит преимуществ ни в отношении производительности, ни в отношении затрат.
Процессоры AMD
Компания Advanced Micro Devices усиливает давление на своего конкурента Intel: в ближайшее время AMD выпустила еще более быстродействующие процессоры Athlon и Duron для настольных ПК.
AMD собирается донимать Intel частыми обновлениями процессоров Athlon, начиная с версии 1,2 ГГц. Недавно шеф AMD Джерри Сандерс (Jerry Sanders) заявил, что компания ставит перед собой цель довести к январю тактовую частоту процессоров Athlon для настольных ПК до 1,5 ГГц. Для этого AMD придется выпускать новый Athlon приблизительно каждые пять-шесть недель. Первым шагом на пути к этому, по словам источников, станет версия 1,2 ГГц, затем последует микропроцессор Duron с тактовой частотой 800 МГц.
Компания работает также над повышением общей производительности систем, готовя к концу года новый чипсет AMD 620 для систем Athlon. Он будет управлять системной шиной 266 МГц и поддерживать память Double Data Rate SDRAM. AMD утверждает, что, несмотря на повышение производительности, новые чипсет и память приведут к весьма незначительному увеличению стоимости ПК.
В то время как AMD несется на всех цилиндрах, Intel пробуксовывает. Не так давно компании пришлось отозвать процессоры Pentium III 1,13 ГГц, а затем перенести дату выпуска нового процессора Pentium 4 из-за проблем, связанных с чипсетом Intel 850. Поставки процессора Pentium III 1 ГГц крупными партиями только начинаются.
Компания Advanced Micro Devices выпустила новые модели настольных микропроцессоров Athlon и Duron с повышенной тактовой частотой и снизила цены на предыдущие модели.
AMD выпустила процессор Athlon 1,2 ГГц для высокопроизводительных настольных систем и процессор Duron 800 МГц для недорогих ПК. Athlon 1,2 ГГц - самый быстродействующий на сегодняшний день микропроцессор для ПК. Однако для покупателей еще важнее то, что с его выпуском AMD проводит значительное снижение цен, которое непременно отразится на стоимости систем.
Оптовые цены почти на все модели микропроцессоров Athlon снизились почти наполовину. Athlon 1,1 ГГц подешевел на 46% с 853 до 460 $, Athlon 1 ГГц - на 43% с 612 до 350 $, а Athlon 950 МГц - на 39% с 460 до 282 $. Новый Athlon 1,2 ГГц стоит 612 $. Для сравнения, в марте Athlon 1 ГГц стоил 1299 $.
Chip.de протестировал Duron, правда, к сожалению, под рукой у немцев не оказалось односкоростного Celeron или PIII, так что в испытаниях Duron 650MHz пришлось довольствоваться PIII-750 и PIII-600EB (наряду с K75/Athlon 650MHz). Duron-650 показал себя так:
- Bench32 Dhrystones (т.е. проверка FPU) -- на 5.9% быстрее PIII-750, 0.1% медленнее, чем K75-650.
- Bench32 Whetstones (целочисленная арифметика) -- 5.9% быстрее, чем PIII-600EB, и на 0.2% быстрее K75-650.
- Chipmark: Productivity -- на 0.1% медленнее PIII-600EB, на 2.3% быстрее K75-650.
- Chipmark: Creativity -- на 8.6% быстрее, чем PIII-600EB, на 4.8% медленнее, чем K75-650
- Chipmark: Entertainment -- на 14.7% быстрее PIII-750, на 16.9% медленнее K75-650
- Quake 3 (1024x768) -- 3.6% быстрее PIII-600EB, на 1.1% медленнее, чем K75-650.
Ну что ж, если верить этим цифрам, результаты вполне достойные. Подумывающим об апгрейде своего боевого коня надо посматривать в сторону новых процессоров AMD.
Процессоры Intel
Процессор Pentium 4 построен на основе микроархитектуры Intel NetBurst. Это первая принципиально новая микроархитектура процессоров для настольных ПК, разработанная фирмой за последние пять лет, с тех пор как в 1995 году был выпущен процессор Pentium Pro с микроархитектурой P6. В архитектуре NetBurst используется несколько новых технологий: гиперконвейерная технология (Hyper Pipelined Technology) с глубиной конвейера, вдвое превышающей таковую в Pentium III; ядро быстрого выполнения (Rapid Execution Engine), повышающее производительность при работе с целочисленными данными за счет работы на удвоенной тактовой частоте по сравнению с частотой основного ядра; и кэш-память с отслеживанием выполнения (Execution Trace Cache), хранящая уже "декодированные" команды; таким образом устраняется задержка при анализе повторно исполняемых участков кода.
Процессор Pentium 4 содержит 42 млн транзисторов на кристалле, снабжен кэш-памятью объемом 256 Кбайт и имеет 144 новые инструкции - так называемые потоковые SIMD-расширения-2 (SSE2), ускоряющие обработку блоков данных с плавающей запятой. В качестве основы платформ на базе Pentium 4 применяется чипсет Intel 850. Это пока единственный набор микросхем на рынке, разработанный для нового процессора. Чипсет поддерживает двухканальную память Rambus Direct RAM (RDRAM) с пропускной способностью 1,6 Гбайт/с по каждому каналу и системную шину с тактовой частотой 400 МГц и пропускной способностью до 3,2 Гбайт/с. На самом деле тактовая частота системной шины равна 100 МГц, а за один такт выполняется четыре операции (аналогичное решение применяется в AGP 4x). Intel также представила первую системную плату ATX D850GB для настольных ПК на базе нового чипсета.
С началом производства Pentium 4 выпуск предыдущей модели Pentium III не прекратится, а будет лишь плавно уменьшаться. В четвертом квартале текущего года, по данным Intel, соотношение объемов поставок данных процессоров составит соответственно 12 и 88%, в третьем квартале 2001 года - 29 и 71%, и только в первом квартале 2002 года объемы поставок сравняются. Следовательно, Pentium III еще рано сбрасывать со счетов.
В настоящее время выпускаются 1,4- и 1,5-ГГц версии Pentium 4. Они производятся по 0,18-микронной технологии. Компания Intel, понимая всю сложность ситуации с микросхемами памяти Rambus Direct RAM (128 Мбайт памяти RDRAM), решила поставлять процессоры Pentium 4 в штучной упаковке как отдельно, так и в комплекте со 128 Мбайт Rambus. Выпуск чипсета Brookdale, поддерживающего память SDRAM, намечен лишь на середину 2001 года.
По результатам SPEC CPU 2000 показатели производительности нового процессора Pentium 4 составили:
в тесте SPECint 2000 - 535 (для Pentium III 1 ГГц - 448), SPECfp 2000 - 558 (318).
По данным Intel, 1,5-ГГц Pentium 4 ускоряет работу системы с различными интернет-технологиями, такими как Macromedia Flash, XML, Java, Cycore Cult 3D, Windows Media, на 22-59% по сравнению с аналогичными системами на базе процессора Pentium III 1 ГГц. Согласно результатам сравнительных испытаний систем с разным значением тактовой частоты процессора, повышение тактовой частоты на 100% приводит к увеличению производительности системы на 82-88%. Отсюда следует, что при полуторакратном повышении частоты процессора (с 1 ГГц до 1,5 ГГц - без учета новых технологий) следует ожидать увеличения производительности на 42-44%.
Выходит, Pentium 4 1,5 ГГц почти не отличается по производительности от предполагаемого Pentium III 1,5 ГГц? Технический специалист российского представительства Intel объяснил полученный результат тем, что важную роль играет оптимизация под новую архитектуру ПО и технологий. "Можно написать программу, которая на Pentium III будет работать быстрее, чем на Pentium 4, а можно, естественно, и наоборот", - пояснил он. Производители компьютеров на базе Pentium 4 утверждают, что оптимизированные версии уже существующих CAD-приложений "просто летают" на новых системах. Остается дождаться оптимизированных версий остальных программных продуктов. Что касается игр, то, по словам того же представителя Intel, они уже "насытились" производительностью процессоров и увеличение тактовой частоты выше 700-800 МГц не дает ожидаемых результатов. Здесь можно надеяться на выигрыш за счет либо использования нового расширения команд SSE2, либо исключения других узких мест в архитектуре компьютера.
Таким образом, на первое место отныне выходит именно оптимизация ПО под конкретную архитектуру и даже под конкретную модель процессора. Это относится и к тестам производительности - реальное быстродействие систем можно оценить только на реальном программном обеспечении. Так что "гонка за гигагерцами" плавно переходит в соперничество микропроцессорных архитектур. Даст ли это качественный скачок в развитии технологий? Вопрос пока остается открытым...