Терафлопс это что


Как и зачем мерить FLOPSы / Intel corporate blog / Habr

Как известно, FLOPS – это единица измерения вычислительной мощности компьютеров в (попугаях) операциях с плавающей точкой, которой часто пользуются, чтобы померить у кого больше. Особенно важно померяться FLOPS’ами в мире Top500 суперкомпьютеров, чтобы выяснить, кто же среди них самый-самый. Однако, предмет измерения должен иметь хоть какое-нибудь применение на практике, иначе какой смысл его замерять и сравнивать. Поэтому для выяснения возможностей супер- и просто компьютеров существуют чуть более приближенные к реальным вычислительным задачам бенчмарки, например, SPEC: SPECint и SPECfp. И, тем не менее, FLOPS активно используется в оценках производительности и публикуется в отчетах. Для его измерения давно уже использовали тест Linpack, а сейчас применяют открытый стандартный бенчмарк из LAPACK. Что эти измерения дают разработчикам высокопроизводительных и научных приложений? Можно ли легко оценить производительность реализации своего алгоритма в FLOPSaх? Будут ли измерения и сравнения корректными? Обо всем этом мы поговорим ниже.

Давайте сначала немного разберемся с терминами и определениями. Итак, FLOPS – это количество вычислительных операций или инструкций, выполняемых над операндами с плавающей точкой (FP) в секунду. Здесь используется слово «вычислительных», так как микропроцессор умеет выполнять и другие инструкции с такими операндами, например, загрузку из памяти. Такие операции не несут полезной вычислительной нагрузки и поэтому не учитываются.

Значение FLOPS, опубликованное для конкретной системы, – это характеристика прежде всего самого компьютера, а не программы. Ее можно получить двумя способами – теоретическим и практическим. Теоретически мы знаем сколько микропроцессоров в системе и сколько исполняемых устройств с плавающей точкой в каждом процессоре. Все они могут работать одновременно и начинать работу над следующей инструкцией в конвеере каждый цикл. Поэтому для подсчета теоретического максимума для данной системы нам нужно только перемножить все эти величины с частотой процессора – получим количество FP операций в секунду. Все просто, но такими оценками пользуются, разве что заявляя в прессе о будущих планах по построению суперкомпьютера.

Практическое измерение заключается в запуске бенчмарка Linpack. Бенчмарк осуществляет операцию умножения матрицы на матрицу несколько десятков раз и вычисляет усредненное значение времени выполнения теста. Так как количество FP операций в имплементации алгоритма известно заранее, то разделив одно значение на другое, получим искомое FLOPS. Библиотека Intel MKL (Math Kernel Library) содержит пакет LAPAСK, — пакет библиотек для решения задач линейной алгебры. Бенчмарк построен на основе этого пакета. Cчитается, что его эффективность находится на уровне 90% от теоретически возможной, что позволяет бенчмарку считаться «эталонным измерением». Отдельно Intel Optimized LINPACK Benchmark для Windows, Linux и MacOS можно качать здесь, либо взять в директории composerxe/mkl/benchmarks, если у вас установлена Intel Parallel Studio XE.

Очевидно, что разработчики высокопроизводительных приложений хотели бы оценить эффективность имплементации своих алгоритмов, используя показатель FLOPS, но уже померянный для своего приложения. Сравнение измеренного FLOPS с «эталонным» дает представление о том, насколько далека производительность их алгоритма от идеальной и каков теоретический потенциал ее улучшения. Для этого всего-навсего нужно знать минимальное количество FP операций, требуемое для выполнения алгоритма, и точно измерить время выполнения программы (ну или ее части, выполняющей оцениваемый алгоритм). Такие результаты, наряду с измерениями характеристик шины памяти, нужны для того, чтобы понять, где реализация алгоритма упирается в возможности аппаратной системы и что является лимитирующим фактором: пропускная способность памяти, задержки передачи данных, производительность алгоритма, либо системы.

Ну а теперь давайте покопаемся в деталях, в которых, как известно, все зло. У нас есть три оценки/измерения FLOPS: теоретическая, бенчмарк и программа. Рассмотрим особенности вычисления FLOPS для каждого случая.

Теоретическая оценка FLOPS для системы
Чтобы понять, как подсчитывается количество одновременных операций в процессоре, давайте взглянем на устройство блока out-of-order в конвеере процессора Intel Sandy Bridge.

Здесь у нас 6 портов к вычислительным устройствам, при этом, за один цикл (или такт процессора) диспетчером может быть назначено на выполнение до 6 микроопераций: 3 операции с памятью и 3 вычислительные. Одновременно могут выполняться одна операция умножения (MUL) и одна сложения (ADD), как в блоках x87 FP, так и в SSE, либо AVX. С учетом ширины SIMD регистров 256 бит мы может получить следующие результаты:

8 MUL (32-bit) и 8 ADD (32-bit): 16 SP FLOP/cycle, то есть 16 операций с плавающей точкой одинарной точности за один такт.
4 MUL (64-bit) и 4 ADD (64-bit): 8 DP FLOP/cycle, то есть 8 операций с плавающей точкой двойной точности за один такт.

Теоретическое пиковое значение FLOPS для доступного мне 1-сокетного Xeon E3-1275 (4 cores @ 3.574GHz) составляет:
16 (FLOP/cycle)*4*3.574 (Gcycles/sec)= 228 GFLOPS SP
8 (FLOP/cycle)*4*3.574 (Gcycles/sec)= 114 GFLOPS DP

Запуск бенчмарка Linpack
Запускам бенчмарк из пакета Intel MKL на системе и получаем следующие результаты (порезано для удобства просмотра):

Здесь нужно сказать, как именно учитываются FP операции в бенчмарке. Как уже упоминалось, тест заранее «знает» количество операций MUL и ADD, которые необходимы для перемножения матриц. В упрощенном представлении: производится решение системы линейных уравнений Ax=b (несколько тысяч штук) путем перемножения плотных матриц действительных чисел (real8) размером MxK, а количество операций сложения и умножения, необходимых для реализации алгоритма, считается (для симметричной матрицы) Nflop = 2*(M^3)+(M^2). Вычисления производятся для чисел с двойной точностью, как и для большинства бенчмарков. Сколько операций с плавающей точкой действительно выполняется в реализации алгоритма, пользователей не волнует, хотя они догадываются, что больше. Это связано с тем, что выполняется декомпозиция матриц по блокам и преобразование (факторизация) для достижения максимальной производительности алгоритма на вычислительной платформе. То есть нам нужно запомнить, что на самом деле значение физических FLOPS занижено за счет неучитывания лишних операций преобразования и вспомогательных операций типа сдвигов.

Оценка FLOPS программы
Чтобы исследовать соизмеримые результаты, в качестве нашего высокопроизводительного приложения будем использовать пример перемножения матриц, сделанный «своими руками», то есть без помощи математических гуру из команды разработчиков MKL Performance Library. Пример реализации перемножения матриц, написанный на языке С, можно найти в директории Samples пакета Intel VTune Amplifier XE. Воспользуемся формулой Nflop=2*(M^3) для подсчета FP операций (исходя из базового алгоритма перемножения матриц) и померим время выполнения перемножения для случая алгоритма multiply3 при размере симметричных матриц M=4096. Для того, чтобы получить эффективный код, используем опции оптимизации –O3 (агрессивная оптимизация циклов) и –xavx (использовать инструкции AVX) С-компилятора Intel для того, чтобы сгенерировались векторные SIMD-инструкции для исполнительных устройств AVX. Компилятор нам поможет узнать, векторизовался ли цикл перемножения матрицы. Для этого укажем опцию –vec-report3. В результатах компиляции видим сообщения оптимизатора: «LOOP WAS VECTORIZED» напротив строки с телом внутреннего цикла в файле multiply.c.

На всякий случай проверим, какие инструкции сгенерированы компилятором для цикла перемножения.
$icl –g –O3 –xavx –S
По тэгу __tag_value_multiply3 ищем нужный цикл — инструкции правильные.

$vi muliply3.s

Результат выполнения программы (~7 секунд)

нам дает следующее значение FLOPS = 2*4096*4096*4096/7[s] = 19.6 GFLOPS
Результат, конечно, очень далек от того, что получается в Linpack, что объясняется исключительно квалификционной пропастью между автором статьи и разработчиками библиотеки MKL.

Ну, а теперь дессерт! Собственно то, ради чего я затеял свое исследование этой, вроде бы скучной и давно избитой, темы. Новый метод измерения FLOPS.

Измерение FLOPS программы
Существуют задачи в линейной алгебре, программную имплементацию решения которых очень сложно оценить в количестве FP операций, в том смысле, что нахождение такой оценки само является нетривиальной математической задачей. И тут мы, что называется, приехали. Как считать FLOPS для программы? Есть два пути, оба экспериментальных: трудный, дающий точный результат, и легкий, но обеспечивающий приблизительную оценку. В первом случае нам придется взять некую базовую программную имплементацию решения задачи, скомпилировать ее в ассемблерные инструкции и, выполнив их на симуляторе процессора, посчитать количество FP операций. Звучит так, что резко хочется пойти легким, но недостоверным путем. Тем более, что если ветвление исполнения задачи будет зависеть от входных данных, то вся точность оценки сразу поставится под сомнение.

Идея легкого пути состоит в следующем. Почему бы не спросить сам процессор, сколько он выполнил FP инструкций. Процессорный конвеер, конечно же, об этом не ведает. Зато у нас есть счетчики производительности (PMU – вот тут про них интересно), которые умеют считать, сколько микроопераций было выполнено на том или ином вычислительном блоке. С такими счетчиками умеет работать VTune Amplifier XE.

Несмотря на то, что VTune имеет множество встроенных профилей, специального профиля для измерения FLOPS у него пока нет. Но никто не мешает нам создать наш собственный пользовательский профиль за 30 секунд. Не утруждая вас основами работы с интерфейсом VTune (их можно изучить в прилагающимся к нему Getting Started Tutorial), сразу опишу процесс создания профиля и сбора данных.

  1. Создаем новый проект и указываем в качестве target application наше приложение matrix.
  2. Выбираем профиль Lightweight Hotspots (который использует технологию сэмплирования счетчиков процессора Hadware Event-based Sampling) и копируем его для создания пользовательского профиля. Обзываем его My FLOPS Analysis.
  3. Редактируем профиль, добавляем туда новые процессорные счетчики событий процессора Sandy Bridge (Events). На них остановимся чуть подробнее. В их названии зашифрованы исполнительные устройства (x87, SSE, AVX) и тип данных, над которыми выполнялась операция. Каждый такт процессора счетчики складывают количество вычислительных операций, назначенных на исполнение. На всякий случай мы добавили счетчики на все возможные операции с FP:

  • FP_COMP_OPS_EXE. SSE_PACKED_DOUBLE – векторы (PACKED) данных двойной точности (DOUBLE)
  • FP_COMP_OPS_EXE. SSE_PACKED_SINGLE – векторы данных одинарной точности
  • FP_COMP_OPS_EXE. SSE_SCALAR_DOUBLE – скалярые DP
  • FP_COMP_OPS_EXE. SSE_ SCALAR _SINGLE – скалярные SP
  • SIMD_FP_256.PACKED_DOUBLE – векторы AVX данных DP
  • SIMD_FP_256.PACKED_SINGLE – векторы AVX данных SP
  • FP_COMP_OPS_EXE.x87 – скалярые данные x87

Нам остается только запустить анализ и подождать результатов. В полученных результатах переключаемся в Hardware Events viewpoint и копируем количетво events, собранных для функции multiply3: 34,648,000,000.

Далее мы просто подсчитываем значения FLOPS по формулам. Данные у нас были собраны для всех процессоров, поэтому умножение на их количество здесь не требуется. Операции данными двойной точности выполняются одновременно над четырмя 64-битными DP операндами в 256-битном регистре, поэтому умножаем на коэффициент 4. Данные с одинарной точностью, соответственно, умножаем на 8. В последней формуле не умножаем количество инструкций на коэффициент, так как операции сопроцессора x87 выполняются только со скалярными величинами. Если в программе выполняется несколько разных типов FP операций, то их количество, умноженное на коэффициенты, суммируется для получения результирующего FLOPS.

FLOPS = 4 * SIMD_FP_256.PACKED_DOUBLE / Elapsed Time
FLOPS = 8 * SIMD_FP_256.PACKED_SINGLE / Elapsed Time
FLOPS = (FP_COMP_OPS_EXE.x87) / Elapsed Time

В нашей программе выполнялись только AVX инструкции, поэтому в результатах есть значение только одного счетчика SIMD_FP_256.PACKED_DOUBLE.
Удостоверимся, что данные события собраны для нашего цикла в функции multiply3 (переключившись в Source View):

FLOPS = 4 *34.6Gops/7s = 19.7 GFlops
Значение вполне соответствует оценочному, подсчитанному в предыдущем пункте. Поэтому с достаточной долей точности можно говорить о том, что результаты оценочного метода и измерительного совпадают. Однако, существуют случаи, когда они могут не совпадать. При определенном интересе читателей, я могу заняться их исследованием и рассказать, как использовать более сложные и точные методы. А взамен очень хочется услышать о ваших случаях, когда вам требуется измерение FLOPS в программах.

Заключение
FLOPS – единица измерения производительности вычислительных систем, которая характеризует максимальную вычислительную мощность самой системы для операций с плавающей точкой. FLOPS может быть заявлена как теоретическая, для еще не существующих систем, так и измерена с помощью бенчмарков. Разработчики высокопроизводительных программ, в частности, решателей систем линейных дифференциальных уравнений, оценивают производительность реализации своих алгоритмов в том числе и по значению FLOPS программы, вычисленному с помощью теоретически/эмпирически известного количества FP операций, необходимых для выполнения алгоритма, и измеренному времени выполнения теста. Для случаев, когда сложность алгоритма не позволяет оценить количество FP операций алгоритма, их можно измерить с помощью счетчиков производительности, встроенных в микропроцессоры Intel.

habr.com

Терафлопс - что это такое?

Содержание статьи

Терафлопс — это важный показатель производительности видеокарты и процессора. Обычно, чем выше это число, тем выше производительность, но есть некоторые нюансы, которые следует учитывать. В этой статье есть все, что вам нужно знать при сравнении некоторых из самых мощных процессоров в мире.

Если вы хотите купить новую Microsoft Xbox X или даже просто видеокарту для ПК, скорее всего вы столкнётесь с довольно новым термином TFLOP (терафлопс).

Что такое TFLOP?

В отличие от гигагерца (ГГц), который измеряет тактовую частоту процессора, TFLOP является прямым измерением производительности компьютера.

В частности, терафлопс относится к способности процессора вычислять 1 триллион операций с плавающей запятой в секунду. Например, скажем что-нибудь с «6 TFLOP», то есть его процессор способен обрабатывать в среднем 6 триллионов операций с плавающей запятой в секунду.

Microsoft оценивает свой собственный процессор Xbox Series X в 12 TFLOP, то есть консоль способна выполнять 12 триллионов операций с плавающей запятой в секунду. Для сравнения: графический процессор AMD Radeon Pro в 16-дюймовом MacBook Pro от Apple имеет 4 TFLOP, а переработанный Mac Pro — 56 TFLOP.

TFLOP важен для игр?

Microsoft недавно раскрыла подробности о Xbox Series X, заявив, что ее графический процессор имеет производительность до 12 TFLOP. Это вдвое больше, чем 6 TFLOP на Xbox Series X и в 8 раз больше возможностей оригинального Xbox One. Microsoft описала это как настоящий скачок в обработке и графике.

Повышение вычислительной мощности крайне важно для игр, особенно когда новый Xbox будет использовать аппаратно-ускоренную трассировку DirectX Ray (с лучей трассировкой). Настройте у себя Variate Rate Shading (VRS), чтобы сделать сцены видеоигр более реалистичными.

Освещение сцены, чтобы показать, что свет поглощается, отражается или преломляется, требует графических и консольных возможностей, которые будут полагаться на его кремний 12-TFLOP, чтобы дать игрокам еще лучший опыт.

Реальная производительность зависит от таких факторов, как архитектура процессора, кадровые буферы, скорость ядра и другие важные характеристики.

Высокий TFLOP определяет быстродействие устройства, лучшую графику. Всего несколько лет назад потребительские устройства не могли даже посчитать уровень TFLOP, но сейчас многие устройства достигают уровня 6–11 TFLOP.

Исследователи, которые сравнивают спецификации, в настоящее время обсуждают суперкомпьютеры с более чем 100 PETAFLOP (1 PETAFLOP равен 1000 TFLOP). В настоящее время рекорд производительности, который ведется суперкомпьютером IBM в Национальной лаборатории Ок-Риджа, достигает 122,3 PETAFLOP.

 

19216811.ru

Терафлопс - это... Что такое Терафлопс?

Терафлопс (TFLOPS) — величина, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. 1 терафлопс = 1 триллион операций в секунду = 1000 миллиардов операций в секунду. Обычно имеются в виду операции над плавающими числами размера 64 бита в формате IEEE 754.

TFLOPS = 1012FLOPS (= 103 GFLOPS)

При измерении производительности кластеров и суперкомпьютеров часто используется 2 варианта: пиковая производительность — теоретический предел производительности (выражаемый через операции с плавающий точкой) для данных процессоров и максимальная производительность, которую данный кластер или компьютер достигает при решении практических задач. В качестве эталонной задачи часто выступает задача решения системы СЛАУ методом LU-разложения. Для измерений на кластерах используется реализация HPL — High performance linpack.

Чтобы найти пиковую производительность ЭВМ R, терафлопс, нужно тактовую частоту F, МГц, умножить на число процессоров (процессорных ядер) n, домножить на количество инструкций с плавающей запятой на такт (4 для процессоров Core2 — 2 операции Float Multiple Add; 8 для процессоров с AVX) и поделить на 1000000:

F × n × 4·10−6 = R

Например, суперкомпьютер eServer Blue Gene Solution (на май 2008 года был самым производительным на планете), который работает в Ливерморской национальной лаборатории, штат Калифорния, США, обладает пиковой производительностью 596,4 терафлопс. Максимальная производительность — 478,2 терафлопс — составляет 80 % от пиковой. Производитель — американская корпорация IBM.

Эта суперЭВМ собрана на базе 212992 процессоров PowerPC 440, тактовая частота каждого из которых 700 МГц. Его производительность:

700 МГц × 212992 процессоров × 4·10−6 = 596,4 трлн операций в секунду = 596,4 терафлопс.

В общем случае, соотношение максимальной и пиковой производительности варьируется от 60 % до 83 %, поэтому по указанной формуле можно вычислять лишь пиковую производительность суперЭВМ. Так, например, пиковая производительность компьютера на базе четырехъядерного процессора AMD Phenom 9500 sAM2+ с тактовой частотой 2,2 ГГц равна:

2200 МГц × 4 ядра × 4·10−6 = 3,52 млрд операций в секунду = 0,0352 терафлопс.

Для четырехъядерного процессора Core 2 Quad Q6600:

2400 МГц × 4 ядра × 4·10−6 = 3,84 млрд операций в секунду = 0,0384 терафлопс.

Кроме того, AMD представила вычислительную систему FireStream 9250, занимающую один разъем PCI, общая производительность которой превосходит терафлопс, но только на 32-х разрядных данных, тогда как для суперкомпьютеров принято считать производительность на 64-х разрядных данных.

На данный момент (июнь 2011) самый мощный суперкомпьютер K computer, занимает первую строчку в рейтинге суперкомпьютеров, его пиковая производительность составляет 11,280 петафлопс, а максимальная 10,510 петафлопс([1]).

1000 терафлопс = 1 петафлопс.

См.также

dic.academic.ru

Что такое терафлопс? Почему они так важны для следующего поколения? / Блог Saltan7878

Что же за звери они такие и почему все только о них и говорят?






Когда Microsoft раскрыла техническую информацию о Xbox Series X, то главным своим достоинством компания выставила количество терафлопс. Но есть большой вопрос вокруг того, что такое терафлоп, и мы действительно должны быть взволнованы тем, что преемник Xbox One будет иметь 12 терафлопсов мощности GPU, а PS5 в районе 10.2 тера?
Насколько же на самом деле это важная спецификация и что это означает для будущего консолей следующего поколения? Давайте разбираться. Поехали!





Что же такое терафлоп?


Прежде чем мы перейдем к специфике того, должны ли мы быть впечатлены консолью, которая утверждает, что предлагает 12 терафлопсов мощности GPU, давайте поговорим о том, что такое терафлоп на самом деле.
То, на что мы, по сути, смотрим, когда углубляемся в самые технические области вычислений, — это способ измерения производительности компьютера. Слово «tera» означает триллион, а «flops» -операции с плавающей запятой в секунду.
Эти операции с плавающей запятой относятся к сложным вычислениям, выполняемым компьютером (или игровой консолью в данном случае), когда выполняются такие вещи, как рендеринг (рисование и перемещение) полигона. Количество этих операций с плавающей запятой, которые компьютер или консоль может выполнять в секунду, является способом измерения его вычислительной мощности. В случае Xbox Series X есть обещание способности обрабатывать двенадцать триллионов операций с плавающей запятой в секунду.



Подводя итог, Microsoft говорит нам, что есть серьезная мощность GPU для разработчиков, чтобы играть и делать игры. В сырых цифрах это говорит о том, что скачок в качестве игр от предыдущей консоли Xbox будет довольно существенным.
Хотя это число само по себе не говорит нам всей истории. Мы также должны учитывать другие компоненты консолей связанных с производительностью. Такие элементы, как тактовая частота и пропускная способность памяти, которые являются центральными для производительности, еще не были выявлены корпорацией Майкрософт. Пока это не произойдет, это немного игра в угадайку с точки зрения того, что мы действительно можем ожидать от серии X, насколько это касается производительности.





Консоли, предлагающие терафлопс мощности GPU, не новы, хотя и заметно меньше.
Босс Xbox Фил Спенсер поделился информацией, что следующая консоль Microsoft использует свой собственный специально разработанный процессор, который будет использовать новейшие архитектуры Zen 2 и RDNA 2 от AMD. Если мы сравним цифры, Xbox One X обеспечивает шесть терафлопсов мощности GPU. Оригинальная Xbox One имела 1.31 терафлопс. Таким образом, серия X предлагает удвоить флопы ONE X.
PS4 Pro от Sony поставляется с 4.2 терафлопсами. 18 марта на прямой трансляции Sony поделилась что у PS5 будет примерно 10,3 тера. Это конечно немного меньше чем у майков, но все равно большой скачек в мире консолей.





Гораздо более полезным сравнением флопов было бы увидеть в сопоставление с графическими картами, доступными на ПК. GeForce RTX 2080 Ti от Nvidia выдает 14,2 терафлопса и является одной из самых мощных карт, доступных прямо сейчас. Таким образом, можно уже судить о том что мощность новых консолей будет сопоставима в этом аспекте с дорогими сборками персональных компьютеров на настоящее время.





Что на самом деле означает 12 терафлопсов?


Так что же означают эти двузначные флопы для геймеров? Ну, есть базовое обещание, что мы сможем играть в игры, которые графически более впечатляют и намного больше, чем то, что доступно на консолях текущего поколения. По сути, это открывает дверь к производительности наравне с играми высокого класса на ПК. Это дает разработчикам возможность быть более экспансивными с открытыми мировыми средами, потому что теперь у них есть инструменты и дополнительные мощности для разработки некстген игр.
Еще одним большим преимуществом этого повышения мощности является то, что игры будут комфортно работать с более высокой частотой кадров, даже в 4к или 8к гейминге.
Для разработчиков появится возможность применять фишки такие как трассировка лучей и затенение с переменной скоростью. Будет возможным создавать миры, которые богаче, более детализированы и более реалистичны. На это требуется много мощностей GPU, поэтому с удвоенной силой доступной на предыдущей консоли, можно распределить эту рабочую нагрузку более равномерно, чтобы помочь создать эти более динамичные игровые среды.



Заключение.


В заключении скажу, как бы это впечатляюще не звучало на что способны консоли будущего поколения, главное мы узнаем с появлением игр, когда собственными глазами увидим насколько качественно разработчики смогут применять все эти мощности при разработке и что благодаря ей мы получим по итогу.


stopgame.ru

Петафлопс - это... Что такое Петафлопс?

FLOPS (или flops или flop/s)(акроним от англ. Floating point Operations Per Second, произносится как флопс) — величина, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система.

Поскольку современные компьютеры обладают высоким уровнем производительности, более распространены производные величины от FLOPS, образуемые путём использования стандартных приставок системы СИ.

Флопс как мера производительности

Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом компьютере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным тестом производительности на сегодняшний день является программа LINPACK, используемая, в том числе, при составлении рейтинга суперкомпьютеров TOP500.

Одним из важнейших достоинств показателя флопс является то, что он до некоторых пределов может быть истолкован как абсолютная величина и вычислен теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результаты работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.

Границы применимости

Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под «операцией с плавающей запятой» может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая также нигде не оговаривается. Кроме того, величина флопс подвержена влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как: пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.

Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом отличаться, более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании однообразных тестовых программ (той же LINPACK) с осреднением результатов, но со временем возможности компьютеров «перерастают» рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.

Так, например, 24 июня 2006 года общественности был представлен суперкомпьютер Йокогама), с рекордной теоретической производительностью в 1 Пфлопс. Однако данный компьютер не является компьютером общего назначения и приспособлен для решения узкого спектра конкретных задач, в то время как стандартный тест LINPACK на нём выполнить невозможно в силу особенностей его архитектуры.

Также, высокую производительность на специфичных задачах показывают графические процессоры современных видеокарт и игровые приставки. К примеру, заявленная производительность игровой приставки Xbox 360 составляет 1 Тфлопс, а приставки PlayStation 3 и вовсе 2 Тфлопс, что ставит их в один ряд с суперкомпьютерами начального уровня. Столь высокие показатели обеспечиваются тем, что операции с трёхмерной графикой, которые они в основном выполняют, очень хорошо поддаются распараллеливанию, что с успехом используется в графических процессорах. Однако эти процессоры не в состоянии выполнять большинство задач общего назначения, и их производительность не поддаётся оценке теста LINPACK и сравнению с другими системами.

Причины широкого распространения

Несмотря на большое число существенных недостатков, показатель флопс продолжает с успехом использоваться для оценки производительности, базируясь на результатах теста LINPACK. Причины такой популярности обусловлены, во-первых, тем, что флопс, как говорилось выше, является абсолютной величиной. А, во-вторых, очень многие задачи инженерной и научной практики, в конечном итоге, сводятся к решению систем линейных алгебраических уравнений, а тест LINPACK как раз и базируется на измерении скорости решения таких систем. Кроме того, подавляющее большинство компьютеров (включая суперкомпьютеры), построены по классической архитектуре с использованием стандартных процессоров, что позволяет использовать общепринятые тесты с большой достоверностью. Как показано на процессорах Intel Core 2 Quad Q9450 2.66ГГц @3.5ГГц и Intel Core 2 Duo E8400 3000 МГц (2008) программа LINPACK не использует решения алгебраических выражений, так как любая операция не может идти быстрее, чем 1 такт процессора. Так для процессоров Intel Core 2 Quad один такт требует один-два герца. Так как для задач с плавающей запятой: деление/умножение, сложение/вычитание — требуется намного больше одного такта, то видно, что выдать 48 Гигафлопс и 18,5 гигафлопса соответственно данные процессоры не могли. Часто вместо операции деления с плавающей запятой используется загрузка данных в режиме ДМА из оперативной памяти в стек процессора. Так работает программа LINPACK в некоторых тестах, но, строго говоря, результат не является значением флопс.

Примечание: замечание о невозможности выполнения более одной операции за такт абсолютно некорректно, так как все современные процессоры в каждом своем ядре содержат несколько исполнительных блоков каждого типа (в том числе и для операций с плавающей точкой) работающих параллельно и могут выполнять более одной инструкции за такт. Данная особенность архитектуры называется суперскалярность и впервые появилась еще в самом первом процессоре

Обзор производительности реальных систем

Из-за высокого разброса результатов теста LINPACK, приведены примерные величины, полученные путём осреднения показателей на основе информации из разных источников. Производительность игровых приставок и распределённых систем (имеющих узкую специализацию и не поддерживающих тест LINPACK) приведена в справочных целях в соответствии с числами, заявленными их разработчиками. Более точные результаты с указанием параметров конкретных систем можно получить, например, на сайте The Performance Database Server.

Суперкомпьютеры

  • Компьютер ЭНИАК, построенный в 1946 году, при массе 27 т и энергопотреблении 150 кВт, обеспечивал производительность в 300 флопс
  • IBM 709 (1957) — 5 кфлопс
  • БЭСМ-6 (1968) — 1 Мфлопс (операций деления)
  • Cray-1 (1974) — 160 Мфлопс
  • БЭСМ-6 на базе Эльбрус-1К2 (1980-х) — 6 Мфлопс (операций деления)
  • Cray Y-MP (1988) — 2,3 Гфлопс
  • ASCI Red (1993) — 1 Тфлопс
  • Blue Gene/L (2006) — 478,2 Тфлопс
  • Jaguar (суперкомпьютер) (2008) — 1,059 Пфлопс
  • IBM Roadrunner (2008) — 1,105 Пфлопс [1]
  • IBM Sequoia (2012) — 20 Пфлопс [2]

Персональные компьютеры

Процессоры

  • Intel Core 2 Duo E8400 3.0ГГц (2008) — 18.6 Гфлопс При использовании стандартной версии LINPACK 10
  • Intel Core 2 Duo E8400 3.0ГГц @4.0ГГц (2008) — 25 Гфлопс (LINPACK Benchmark 10.0 64-бит) в Windows Vista x64 Ultimate SP1
  • Intel Core 2 Quad Q9450 2.66ГГц @3.5ГГц — 48 ГФлопс (LINPACK Benchmark 10.0 64-бит) в Windows 2003sp2 x64

Карманные компьютеры

Распределённые системы

Данные приведены по состоянию на 23 июня 2008 года

Игровые приставки

  • Dreamcast — 1,4 Мфлопс
  • Xbox — 6,3 Гфлопс
  • PlayStation 2 — 6,2 Гфлопс
  • Sony PlayStation Portable — 2,6 Мфлопс
  • Gamecube — 10,5 Мфлопс
  • Microsoft Xbox 360 — 1 Тфлопс
  • Sony PlayStation 3 — 2 Тфлопс [8]

Человек и калькулятор

Калькулятор неслучайно попал в одну категорию вместе с человеком, поскольку, хотя он и является электронным устройством, содержащим процессор, память и устройства ввода/вывода, режим его работы кардинально отличается от режима работы компьютера. Калькулятор выполняет одну операцию за другой с той скоростью, с какой их запрашивает человек-оператор. Время, проходящее между операциями, определяется возможностями человека и существенно превышает время, которое затрачивается непосредственно на вычисления. Можно сказать, что в среднем производительность обычного карманного калькулятора составляет 10 флопс.

Человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и, часто, с большой ошибкой. Говоря о производительности нашего вычислительного аппарата, придётся использовать такие единицы как миллифлопс и даже микрофлопс. Тем не менее, мозг человека в реальном времени может выполнять столь сложные операции как синтез и распознавание речи и образов, координацию в пространстве и множество других, недоступных пока даже самым мощным суперкомпьютерам.

Примечания

  1. IBM создала самый мощный суперкомпьютер в мире(рус.), Lenta.ru, 9 июня 2008 года
  2. IBM создаст мощнейший суперкомпьютер(рус.)
  3. При использовании нестандартной версии LINPACK BENCHMARK 2007 года, реализующей все преимущества 64-битного процессора, это число поднимается до 1 Гфлопс
  4. [email protected]
  5. BOINC
  6. SETI at home
  7. [email protected] — Server Status
  8. SONY COMPUTER ENTERTAINMENT INC. TO LAUNCH ITS NEXT GENERATION COMPUTER ENTERTAINMENT SYSTEM, PLAYSTATION®3 IN SPRING 2006(англ.)

См. также

Ссылки

Wikimedia Foundation. 2010.

dic.academic.ru

FLOPS - это... Что такое FLOPS?

FLOPS (также flops, flop/s, флопс или флоп/с) (акроним от англ. FLoating-point Operations Per Second, произносится как флопс) — внесистемная единица, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. Существуют разногласия насчёт того, допустимо ли использовать слово FLOP, и что оно может означать. Некоторые считают, что FLOP и FLOPS — синонимы, другие же полагают, что FLOP (или flop или флоп, от англ. FLoating point OPeration) — это просто количество операций с плавающей запятой (например, требуемое для исполнения данной программы).

Поскольку современные компьютеры обладают высоким уровнем производительности, более распространены производные величины от FLOPS, образуемые путём использования кратных приставок системы СИ.

Флопс как мера производительности

Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом компьютере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным тестом производительности на сегодняшний день является программа Linpack, используемая, в том числе, при составлении рейтинга суперкомпьютеров TOP500.

Одним из важнейших достоинств показателя флопс является то, что он до некоторых пределов может быть истолкован как абсолютная величина и вычислен теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результаты работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.

Границы применимости

Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под «операцией с плавающей запятой» может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая также нигде не оговаривается. Кроме того, величина флопс подвержена влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как: пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.

Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом отличаться, более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании единообразных тестовых программ (той же LINPACK) с усреднением результатов, но со временем возможности компьютеров «перерастают» рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.

Так, например, 24 июня 2006 года общественности был представлен суперкомпьютер MDGrape-3, разработанный в японском исследовательском институте RIKEN (Йокогама), с рекордной теоретической производительностью в 1 Пфлопс. Однако данный компьютер не является компьютером общего назначения и приспособлен для решения узкого спектра конкретных задач, в то время как стандартный тест LINPACK на нём выполнить невозможно в силу особенностей его архитектуры.

Также высокую производительность на специфичных задачах показывают графические процессоры современных видеокарт и игровые приставки. К примеру, заявленная производительность игровой приставки Xbox 360 составляет 1 Тфлопс, а приставки PlayStation 3 и вовсе 2 Тфлопс, что ставит их в один ряд с суперкомпьютерами начального уровня. Столь высокие показатели объясняются тем, что указана производительность над числами 32-битного формата[1][2], тогда как для суперкомпьютеров обычно указывают производительность на 64-разрядных данных[3][4]. Кроме того, данные приставки и видео-процессоры рассчитаны на операции с трёхмерной графикой, хорошо поддающиеся распараллеливанию, однако эти процессоры не в состоянии выполнять многие задачи общего назначения, и их производительность сложно оценить классическим тестом LINPACK[5] и тяжело сравнить с другими системами.

Причины широкого распространения

Несмотря на большое число существенных недостатков, показатель флопс продолжает с успехом использоваться для оценки производительности, базируясь на результатах теста LINPACK. Причины такой популярности обусловлены, во-первых, тем, что флопс, как говорилось выше, является абсолютной величиной. А во-вторых, очень многие задачи инженерной и научной практики в конечном итоге сводятся к решению систем линейных алгебраических уравнений, а тест LINPACK как раз и базируется на измерении скорости решения таких систем. Кроме того, подавляющее большинство компьютеров (включая суперкомпьютеры) построены по классической архитектуре с использованием стандартных процессоров, что позволяет использовать общепринятые тесты с большой достоверностью.

Для подсчета максимального количества FLOPS для процессора нужно учитывать, что современные процессоры в каждом своём ядре содержат несколько исполнительных блоков каждого типа (в том числе и для операций с плавающей точкой), работающих параллельно, и могут выполнять более одной инструкции за такт. Данная особенность архитектуры называется суперскалярность и впервые появилась ещё в самом первом процессоре Pentium в 1993 году. Современное ядро Intel Core 2 так же является суперскалярным и содержит 2 устройства вычислений над 64-битными числами с плавающей запятой, которые могут завершать по 2 связанные операции (умножение и последующее сложение, MAC) в каждый такт, теоретически позволяющих достичь пиковой производительности до 4-х операций за 1 такт в каждом ядре[6][7]. Таким образом, для процессора, имеющего в своём составе 4 ядра (Core 2 Quad) и работающего на частоте 3.5ГГц, теоретический предел производительности составляет 4х4х3.5=56 гигафлопс, а для процессора, имеющего 2 ядра (Core 2 Duo) и работающего на частоте 3ГГц — 2х4х3=24 гигафлопс, что хорошо согласуется с практическими результатами, полученными на тесте LINPACK. Типичная производительность теста LINPACK составляет 80-95 % от теоретического максимума.

Обзор производительности реальных систем

Из-за высокого разброса результатов теста LINPACK, приведены примерные величины, полученные путём усреднения показателей на основе информации из разных источников. Производительность игровых приставок и распределённых систем (имеющих узкую специализацию и не поддерживающих тест LINPACK) приведена в справочных целях в соответствии с числами, заявленными их разработчиками. Более точные результаты с указанием параметров конкретных систем можно получить, например, на сайте The Performance Database Server.

Суперкомпьютеры

  • Компьютер ЭНИАК, построенный в 1946 году, при массе 27 т и энергопотреблении 150 кВт, обеспечивал производительность в 300 флопс
  • IBM 709 (1957) — 5 Кфлопс

Планы:

  • Fujitsu FX-10 (2012) — 23 Пфлопс
  • Intel планирует к 2020 году создать суперкомпьютер производительностью 4 Эфлопс[13]
  • По личному мнению Ректора МГУ Садовничего, высказанного в октябре 2011 года, в МГУ через пару лет (к 2014 году) может появиться суперкомпьютер производительностью до 10 Эфлопс[14] В декабре появилось сообщение о начале проектирования 10 ПФлопс компьютера для МГУ[15].
  • К 2018—2020 годам планируется увеличить мощность суперкомпьютера Саровского ядерного центра до 1 эксафлопс[16].

Процессоры персональных компьютеров

  • AMD Athlon 64 2,211 ГГц (2003) — 8 Гфлопс[17]
  • AMD Athlon 64 X2 4200+ 2,2 ГГц (2006) — 13.2 Гфлопс
  • Intel Core 2 Duo 2,4 ГГц (2006) — 19,2 Гфлопс[18]
  • AMD Athlon II X4 640 (ADX640W) 3.0 ГГц (2010) — 37.39 Гфлопс
  • Intel Core 2 Quad Q8300 2,5 ГГц — 40 Гфлопс[19]
  • Intel Core i7-975 XE 3,33 ГГц (2009) — 53.328 Гфлопс[20]
  • CPU AMD Phenom II X6 1075T (HDT75TFB) 3.0 ГГц/6core/ 3+6Мб/125 Вт/4000 МГц Socket AM3 — 55.6094 Гфлопс[21]
  • Intel Core i5-2500K 3.3-3.7 ГГц (2011) — 105,6-118 Гфлопс[22]
  • Intel Atom[уточнить] — 2,1 Гфлопс

Карманные компьютеры

  • КПК на основе процессора Samsung S3C2440 400 МГц (архитектура ARM9) — 1,3 Мфлопс
  • Intel XScale PXA270 520 МГц — 1,6 Мфлопс
  • Intel XScale PXA270 624 МГц — 2 Мфлопс
  • Samsung Exynos 4210 2х1600 МГц — 84 Мфлопс

Распределённые системы

Данные приведены по состоянию на 26 июля 2011 года

  • Bitcoin — более 161.9 Пфлопс одинарной точности (оценочно, так как bitcoin не использует операций с плавающей точкой[23])[24]
  • [email protected] — более 6,5 Пфлопс[25]
  • BOINC — более 6,1 Пфлопс[26]
  • [email protected] — более 549 Тфлопс[27]
  • [email protected] — более 490 Тфлопс[28]
  • [email protected] — более 105 Тфлопс[29]

Игровые приставки

Указаны операции с плавающей точкой над 32-разрядными данными

GPU-процессоры

Теоретическая производительность (FMA; гигафлопсы):

Человек и калькулятор

Калькулятор не случайно попал в одну категорию вместе с человеком, поскольку хотя он и является электронным устройством, содержащим процессор, память и устройства ввода/вывода, режим его работы кардинально отличается от режима работы компьютера. Калькулятор выполняет одну операцию за другой с той скоростью, с какой их запрашивает человек-оператор. Время, проходящее между операциями, определяется возможностями человека и существенно превышает время, которое затрачивается непосредственно на вычисления. Можно сказать, что в среднем производительность обычного карманного калькулятора составляет 10 флопс.

Человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и часто с большой ошибкой. Говоря о производительности нашего вычислительного аппарата, придётся использовать такие единицы как миллифлопс и даже микрофлопс.

См. также

Примечания

  1. http://ixbtlabs.com/articles3/video/rv670-part1-page1.html floating-point ALUs .. support for FP32 precision
  2. http://insidehpc.com/2009/07/01/personal-gpu-supercomputer-for-the-contrarian-puts-4-tflops-in-1u/ these are single precision GPU peak numbers
  3. http://www.top500.org/faq/what_hpl_benchmark HPL is a software package that solves a dense linear system in double precision (64 bits)
  4. [1] [2] HPL Faq entries for precision
  5. Exploiting the Performance of 32 bit FP Arithmetic in Obtaining 64 bit Accuracy (Revisiting Iterative Refinement for Linear Systems)
  6. SSE, SSE2 & SSE3 max throughput: 4 Flop / cycle
  7. The net result is that you can now process 2 DP adds and 2 DP multiplies per clock, or 4 FLOPS per cycle. (DP)
  8. 1 2 [ http://24gadget.ru/gallery/index/slider/3128/12 Суперкомпьютер Fujitsu K] (рус.)
  9. IBM создала самый мощный суперкомпьютер в мире (рус.), Lenta.ru, 9 июня 2008 года
  10. Японский суперкомпьютер обогнал по производительности китайский (рус.)
  11. Lawrence Livermore’s Sequoia Supercomputer Towers above the Rest in Latest TOP500 List (англ.)
  12. Agam Shah (IDG News), Titan supercomputer hits 20 petaflops of processing power // PCWorld, Computers, Oct 29, 2012  (англ.)
  13. Intel планирует увеличить мощность суперкомпьютеров в 500 раз к 2020 г. (рус.)
  14. Сверхмощный суперкомпьютер может появиться в МГУ в ближайшие годы (рус.) «Я думаю, что в ближайшие год-два в Московском университете будет создан супервычислитель уже эксафлопсной скорости, до 10 эксафлопс (10 тысяч петафлопс).»
  15. Последователь Ломоносова
  16. Мощность суперкомпьютера в Сарове может достигнуть максимума к 2020 г. РИА Новости (23 февраля 2012). Архивировано из первоисточника 31 мая 2012. Проверено 24 февраля 2012.
  17. iXBT: Факты и предположения об архитектуре AMD Opteron и Athlon 64
  18. http://download.intel.com/support/processors/core2duo/sb/core_E6000.pdf (pdf) «E6600 2.40 GHz 19.20» GFlops
  19. http://download.intel.com/support/processors/core2quad/sb/core_Q8000.pdf (pdf) «Q8300 4 MB 1333 MHz 2.5 GHz 75833 40.00»
  20. http://download.intel.com/support/processors/corei7ee/sb/core_i7-900_d_x.pdf (pdf) «i7-975 Base 3.33 GHz, 101101 CTP, 53.328 GFLOPS»
  21. НИКС: Сводные таблицы тестирования Intel Linpack x64 Решение системы из 10000 уравнений
  22. [3] http://www.intel.com/support/processors/sb/CS-032815.htm
  23. bitcoin выполняет вычисления хеш функции sha256, каждое из которых оценивается в 6350 операций над целыми числами или в 12700 операций над 32-битными плавающими числами http://forum.bitcoin.org/index.php?topic=4689.0
  24. Bitcoin Watch
  25. [email protected]
  26. BOINC
  27. BOINCstats:[email protected]
  28. BOINCstats:[email protected]
  29. BOINCstats:[email protected]
  30. PSP Specs Revealed Processing speed, polygon rate and lots more. // IGN Entertainment, 2003. «PSP CPU CORE…FPU, VFPU (Vector Unit) @ 2.6GFlops»
  31. SONY COMPUTER ENTERTAINMENT INC. TO LAUNCH ITS NEXT GENERATION COMPUTER ENTERTAINMENT SYSTEM, PLAYSTATION®3 IN SPRING 2006 (англ.)
  32. Update: How many FLOPS are in game consoles? | TG Daily
  33. 1 2 Сравнительная таблица графических карт NVIDIA GeForce
  34. 1 2 3 Сравнительные таблицы графических карт AMD (ATI) Radeon

Ссылки

dic.academic.ru

Тфлопс - это... Что такое Тфлопс?

FLOPS (или flops или flop/s)(акроним от англ. Floating point Operations Per Second, произносится как флопс) — величина, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система.

Поскольку современные компьютеры обладают высоким уровнем производительности, более распространены производные величины от FLOPS, образуемые путём использования стандартных приставок системы СИ.

Флопс как мера производительности

Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом компьютере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным тестом производительности на сегодняшний день является программа LINPACK, используемая, в том числе, при составлении рейтинга суперкомпьютеров TOP500.

Одним из важнейших достоинств показателя флопс является то, что он до некоторых пределов может быть истолкован как абсолютная величина и вычислен теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результаты работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.

Границы применимости

Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под «операцией с плавающей запятой» может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая также нигде не оговаривается. Кроме того, величина флопс подвержена влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как: пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.

Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом отличаться, более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании однообразных тестовых программ (той же LINPACK) с осреднением результатов, но со временем возможности компьютеров «перерастают» рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.

Так, например, 24 июня 2006 года общественности был представлен суперкомпьютер Йокогама), с рекордной теоретической производительностью в 1 Пфлопс. Однако данный компьютер не является компьютером общего назначения и приспособлен для решения узкого спектра конкретных задач, в то время как стандартный тест LINPACK на нём выполнить невозможно в силу особенностей его архитектуры.

Также, высокую производительность на специфичных задачах показывают графические процессоры современных видеокарт и игровые приставки. К примеру, заявленная производительность игровой приставки Xbox 360 составляет 1 Тфлопс, а приставки PlayStation 3 и вовсе 2 Тфлопс, что ставит их в один ряд с суперкомпьютерами начального уровня. Столь высокие показатели обеспечиваются тем, что операции с трёхмерной графикой, которые они в основном выполняют, очень хорошо поддаются распараллеливанию, что с успехом используется в графических процессорах. Однако эти процессоры не в состоянии выполнять большинство задач общего назначения, и их производительность не поддаётся оценке теста LINPACK и сравнению с другими системами.

Причины широкого распространения

Несмотря на большое число существенных недостатков, показатель флопс продолжает с успехом использоваться для оценки производительности, базируясь на результатах теста LINPACK. Причины такой популярности обусловлены, во-первых, тем, что флопс, как говорилось выше, является абсолютной величиной. А, во-вторых, очень многие задачи инженерной и научной практики, в конечном итоге, сводятся к решению систем линейных алгебраических уравнений, а тест LINPACK как раз и базируется на измерении скорости решения таких систем. Кроме того, подавляющее большинство компьютеров (включая суперкомпьютеры), построены по классической архитектуре с использованием стандартных процессоров, что позволяет использовать общепринятые тесты с большой достоверностью. Как показано на процессорах Intel Core 2 Quad Q9450 2.66ГГц @3.5ГГц и Intel Core 2 Duo E8400 3000 МГц (2008) программа LINPACK не использует решения алгебраических выражений, так как любая операция не может идти быстрее, чем 1 такт процессора. Так для процессоров Intel Core 2 Quad один такт требует один-два герца. Так как для задач с плавающей запятой: деление/умножение, сложение/вычитание — требуется намного больше одного такта, то видно, что выдать 48 Гигафлопс и 18,5 гигафлопса соответственно данные процессоры не могли. Часто вместо операции деления с плавающей запятой используется загрузка данных в режиме ДМА из оперативной памяти в стек процессора. Так работает программа LINPACK в некоторых тестах, но, строго говоря, результат не является значением флопс.

Примечание: замечание о невозможности выполнения более одной операции за такт абсолютно некорректно, так как все современные процессоры в каждом своем ядре содержат несколько исполнительных блоков каждого типа (в том числе и для операций с плавающей точкой) работающих параллельно и могут выполнять более одной инструкции за такт. Данная особенность архитектуры называется суперскалярность и впервые появилась еще в самом первом процессоре

Обзор производительности реальных систем

Из-за высокого разброса результатов теста LINPACK, приведены примерные величины, полученные путём осреднения показателей на основе информации из разных источников. Производительность игровых приставок и распределённых систем (имеющих узкую специализацию и не поддерживающих тест LINPACK) приведена в справочных целях в соответствии с числами, заявленными их разработчиками. Более точные результаты с указанием параметров конкретных систем можно получить, например, на сайте The Performance Database Server.

Суперкомпьютеры

  • Компьютер ЭНИАК, построенный в 1946 году, при массе 27 т и энергопотреблении 150 кВт, обеспечивал производительность в 300 флопс
  • IBM 709 (1957) — 5 кфлопс
  • БЭСМ-6 (1968) — 1 Мфлопс (операций деления)
  • Cray-1 (1974) — 160 Мфлопс
  • БЭСМ-6 на базе Эльбрус-1К2 (1980-х) — 6 Мфлопс (операций деления)
  • Cray Y-MP (1988) — 2,3 Гфлопс
  • ASCI Red (1993) — 1 Тфлопс
  • Blue Gene/L (2006) — 478,2 Тфлопс
  • Jaguar (суперкомпьютер) (2008) — 1,059 Пфлопс
  • IBM Roadrunner (2008) — 1,105 Пфлопс [1]
  • IBM Sequoia (2012) — 20 Пфлопс [2]

Персональные компьютеры

Процессоры

  • Intel Core 2 Duo E8400 3.0ГГц (2008) — 18.6 Гфлопс При использовании стандартной версии LINPACK 10
  • Intel Core 2 Duo E8400 3.0ГГц @4.0ГГц (2008) — 25 Гфлопс (LINPACK Benchmark 10.0 64-бит) в Windows Vista x64 Ultimate SP1
  • Intel Core 2 Quad Q9450 2.66ГГц @3.5ГГц — 48 ГФлопс (LINPACK Benchmark 10.0 64-бит) в Windows 2003sp2 x64

Карманные компьютеры

Распределённые системы

Данные приведены по состоянию на 23 июня 2008 года

Игровые приставки

  • Dreamcast — 1,4 Мфлопс
  • Xbox — 6,3 Гфлопс
  • PlayStation 2 — 6,2 Гфлопс
  • Sony PlayStation Portable — 2,6 Мфлопс
  • Gamecube — 10,5 Мфлопс
  • Microsoft Xbox 360 — 1 Тфлопс
  • Sony PlayStation 3 — 2 Тфлопс [8]

Человек и калькулятор

Калькулятор неслучайно попал в одну категорию вместе с человеком, поскольку, хотя он и является электронным устройством, содержащим процессор, память и устройства ввода/вывода, режим его работы кардинально отличается от режима работы компьютера. Калькулятор выполняет одну операцию за другой с той скоростью, с какой их запрашивает человек-оператор. Время, проходящее между операциями, определяется возможностями человека и существенно превышает время, которое затрачивается непосредственно на вычисления. Можно сказать, что в среднем производительность обычного карманного калькулятора составляет 10 флопс.

Человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и, часто, с большой ошибкой. Говоря о производительности нашего вычислительного аппарата, придётся использовать такие единицы как миллифлопс и даже микрофлопс. Тем не менее, мозг человека в реальном времени может выполнять столь сложные операции как синтез и распознавание речи и образов, координацию в пространстве и множество других, недоступных пока даже самым мощным суперкомпьютерам.

Примечания

  1. IBM создала самый мощный суперкомпьютер в мире(рус.), Lenta.ru, 9 июня 2008 года
  2. IBM создаст мощнейший суперкомпьютер(рус.)
  3. При использовании нестандартной версии LINPACK BENCHMARK 2007 года, реализующей все преимущества 64-битного процессора, это число поднимается до 1 Гфлопс
  4. [email protected]
  5. BOINC
  6. SETI at home
  7. [email protected] — Server Status
  8. SONY COMPUTER ENTERTAINMENT INC. TO LAUNCH ITS NEXT GENERATION COMPUTER ENTERTAINMENT SYSTEM, PLAYSTATION®3 IN SPRING 2006(англ.)

См. также

Ссылки

Wikimedia Foundation. 2010.

dic.academic.ru

Что такое терафлопс? Описание, значение

Главная особенность современных видеокарт в том, что их производительность измеряется в терафлопсах. Что такое терафлопс? Об этом и будет представлена информация в статье. Также вы узнаете, как этот термин применим в консольных кругах.

Описание термина

Флопсы – это определенное количество манипуляций с плавающей точкой, которые происходят в секунду. Изначально такой термин употреблялся только в отношении устаревших на данный момент электронно-вычислительных машин. Именно во флопсах измерялась производительность ЭВМ. Но теперь эти функции распределены по остальным составляющим центрального или графического процессора. Вот что такое терафлопсы.

В консолях

По мнению специалистов компании "Майкрософт", их консольное детище Xbox One X является самой мощной консолью, у которой производительность равна 6,6 терафлопсов.

Такие расчеты производятся следующим образом: нужно взять количество параллельных процессорных ядер, которых у Xbox One 768. Затем нужно посмотреть частоту графического ядра, а у консоли это 853 мегагерц. Теперь дело остается за малым – умножить первое количество на второе, после умножить еще на два и разделить на миллион. В итоге получается 1,31 терафлопс. Такова производительность консоли Xbox One.

В видеокартах

Что такое терафлопс в видеокартах? Для начала стоит разобраться в самом значении, так как оно не является исходным. В одном терафлопсе тысяча гигафлопсов, миллион мегафлопсов и триллион флопсов. То есть начальное значение – это флопс. Но они устарели, так как технический мир не стоит на месте.

Теперь можно попробовать сравнить видеокарты от разных производителей. Например, у поколения "Титан" на архитектуре "Паскаль" производительность измеряется в девяти терафлопсах, когда у их "красных" конкурентов эта цифра доходит до 13. Так почему выходит так, что видеокарты от Nvidia более производительные?

Для подобных вычислений существует специальная формула:

F × n × 4×10−6 = R

Как ее понять?

  1. R – это итоговое количество, то есть флопсы.
  2. F – это тактовая частота графического процессора, но данные расчеты можно проводить и с центральным процессором.
  3. n – данный показатель отвечает за количество CUDA ядер в графическом процессоре и обычных ядер в центральном. У видеокарт от производителя AMD данный показатель именуется как GCN.

Далее потребуется узнать исходные показатели. Для этого можно воспользоваться утилитой GPU-Z или CPU-Z. Существуют и онлайн-калькуляторы, помогающие вычислить данный показатель производительности любой видеокарты, а также готовые результаты на различных сайтах.

fb.ru

терафлопс — Викисловарь

Содержание

  • 1 Русский
    • 1.1 Морфологические и синтаксические свойства
    • 1.2 Произношение
    • 1.3 Семантические свойства
      • 1.3.1 Значение
      • 1.3.2 Синонимы
      • 1.3.3 Антонимы
      • 1.3.4 Гиперонимы
      • 1.3.5 Гипонимы
    • 1.4 Родственные слова
    • 1.5 Этимология
    • 1.6 Фразеологизмы и устойчивые сочетания
    • 1.7 Перевод
    • 1.8 Библиография
В Викиданных есть лексема терафлопс (L169621).

Морфологические и синтаксические свойства[править]

падеж ед. ч. мн. ч.
Им. тѐрафло́пс тѐрафло́псы
Р. тѐрафло́пса тѐрафло́псов
Д. тѐрафло́псу тѐрафло́псам
В. тѐрафло́пс тѐрафло́псы
Тв. тѐрафло́псом тѐрафло́псами
Пр. тѐрафло́псе тѐрафло́псах

тѐ-ра-фло́пс

Существительное, неодушевлённое, мужской род, 2-е склонение (тип склонения 1a по классификации А. А. Зализняка).

Корень: --.

Произношение[править]

  • МФА: [ˌtɛrɐˈfɫops]

Семантические свойства[править]

Значение[править]
  1. спец. единица измерения производительности компьютеров, равная 1012флопсов ◆ Отсутствует пример употребления (см. рекомендации).
Синонимы[править]
  1. -
Антонимы[править]
  1. -
Гиперонимы[править]
  1. единица измерения
Гипонимы[править]
  1. -

Родственные слова[править]

Ближайшее родство

Этимология[править]

Происходит от ??

Фразеологизмы и устойчивые сочетания[править]

Перевод[править]

Список переводов

Библиография[править]

  • Шагалова Е. Н. Словарь новейших иностранных слов. — М. : АСТ-ПРЕСС КНИГА, 2017. — ISBN 978-5-462-01845-9.
Для улучшения этой статьи желательно:
  • Добавить описание морфемного состава с помощью {{морфо-ru}}
  • Добавить пример словоупотребления для значения с помощью {{пример}}
  • Добавить сведения об этимологии в секцию «Этимология»
  • Добавить хотя бы один перевод в секцию «Перевод»

ru.wiktionary.org

Терафлопс — Википедия (с комментариями)

Материал из Википедии — свободной энциклопедии

Терафлопс (TFLOPS) — величина, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. 1 терафлопс = 1 триллион операций в секунду = 1000 миллиардов операций в секунду. Обычно имеются в виду операции над вещественными числами разрядностью 64 бита в формате IEEE 754.

TFLOPS = 1012FLOPS (= 103GFLOPS)

При измерении производительности кластеров и суперкомпьютеров часто используется 2 варианта: пиковая производительность — теоретический предел производительности (выражаемый через операции с плавающий запятой) для данных процессоров и максимальная производительность, которую данный кластер или компьютер достигает при решении практических задач. В качестве эталонной задачи часто выступает задача решения системы СЛАУ методом LU-разложения. Для измерений на кластерах используется реализация HPL — High performance linpack.

Чтобы найти пиковую производительность ЭВМ R, терафлопс, нужно тактовую частоту F, МГц, умножить на число процессоров (процессорных ядер) n, домножить на количество инструкций с плавающей запятой на такт (4 для процессоров Core2 — 2 операции Float Multiple Add; 8 для процессоров Intel с AVX) и поделить на 1000000:

F × n × 4·10−6 = R

Например, суперкомпьютер американской корпорации IBM, [www.top500.org/system/8968 eServer Blue Gene Solution] (на май 2008 года был самым производительным на планете), который работает в [www.llnl.gov/ Ливерморской национальной лаборатории], штат Калифорния, США, обладает теоретической пиковой производительностью 596,4 терафлопс. Максимальная производительность, достигнутая в тесте LINPACK (HPL) — 478,2 терафлопс — составила 80 % от пиковой.

Эта суперЭВМ собрана на базе 212992 процессоров PowerPC 440, тактовая частота каждого из которых 700 МГц. Его производительность:

700 МГц × 212992 процессоров × 4·10−6 = 596,4 трлн операций в секунду = 596,4 терафлопс.

В общем случае, соотношение максимальной и пиковой производительности [www.top500.org/list/2007/11/100 варьируется от 60 % до 83 %], поэтому по указанной формуле можно вычислять лишь пиковую производительность суперЭВМ. Так, например, пиковая производительность компьютера на базе четырехъядерного процессора AMD Phenom 9500 sAM2+ с тактовой частотой 2,2 ГГц равна:

2200 МГц × 4 ядра × 4·10−6 = 35,2 млрд операций в секунду = 0,0352 терафлопс.

Для четырехъядерного процессора Core 2 Quad Q6600:

2400 МГц × 4 ядра × 4·10−6 = 38,4 млрд операций в секунду = 0,0384 терафлопс.

Кроме того, AMD представила вычислительную систему FireStream 9250, занимающую один разъем PCI, общая производительность которой превосходит терафлопс, но только на 32-х разрядных данных, тогда как для суперкомпьютеров принято считать производительность на 64-х разрядных данных.

В 2012 году суммарная мощность компьютеров Гидрометцентра составляла 27 терафлопс, а в конце того же года в Гидрометцентре начал работать компьютер мощностью ещё 30 терафлопс[1].

На июнь 2013 самый мощный суперкомпьютер Tianhe-2. Теперь он занимает первую строчку в рейтинге суперкомпьютеров, его максимальная производительность составляет 33862,7 терафлопс, что почти в 2 раза больше, чем у занимающего второе место суперкомпьютера Titan. Теоретическая пиковая производительность может достигать 54902 терафлопс.[2].

1000 терафлопс = 1 петафлопс.

Напишите отзыв о статье "Терафлопс"

Примечания

  1. [lenta.ru/news/2014/01/13/supercomputers/ Гидрометцентр исчерпал компьютерные ресурсы]. lenta.ru (13 января 2014). Проверено 13 января 2014. [web.archive.org/web/20140113210757/lenta.ru/news/2014/01/13/supercomputers/ Архивировано из первоисточника 13 января 2014].
  2. [itc.ua/news/tianhe-2-samyiy-byistryiy-superkompyuter-v-mire-sozdan-v-kitae/ Tianhe-2 – самый быстрый суперкомпьютер в мире создан в Китае | ITC.ua]

См.также

Отрывок, характеризующий Терафлопс

– Ну, сейчас, – сказал он на слова фельдшера, указывавшего ему на князя Андрея, и велел нести его в палатку.
В толпе ожидавших раненых поднялся ропот.
– Видно, и на том свете господам одним жить, – проговорил один.
Князя Андрея внесли и положили на только что очистившийся стол, с которого фельдшер споласкивал что то. Князь Андрей не мог разобрать в отдельности того, что было в палатке. Жалобные стоны с разных сторон, мучительная боль бедра, живота и спины развлекали его. Все, что он видел вокруг себя, слилось для него в одно общее впечатление обнаженного, окровавленного человеческого тела, которое, казалось, наполняло всю низкую палатку, как несколько недель тому назад в этот жаркий, августовский день это же тело наполняло грязный пруд по Смоленской дороге. Да, это было то самое тело, та самая chair a canon [мясо для пушек], вид которой еще тогда, как бы предсказывая теперешнее, возбудил в нем ужас.
В палатке было три стола. Два были заняты, на третий положили князя Андрея. Несколько времени его оставили одного, и он невольно увидал то, что делалось на других двух столах. На ближнем столе сидел татарин, вероятно, казак – по мундиру, брошенному подле. Четверо солдат держали его. Доктор в очках что то резал в его коричневой, мускулистой спине.
– Ух, ух, ух!.. – как будто хрюкал татарин, и вдруг, подняв кверху свое скуластое черное курносое лицо, оскалив белые зубы, начинал рваться, дергаться и визжат ь пронзительно звенящим, протяжным визгом. На другом столе, около которого толпилось много народа, на спине лежал большой, полный человек с закинутой назад головой (вьющиеся волоса, их цвет и форма головы показались странно знакомы князю Андрею). Несколько человек фельдшеров навалились на грудь этому человеку и держали его. Белая большая полная нога быстро и часто, не переставая, дергалась лихорадочными трепетаниями. Человек этот судорожно рыдал и захлебывался. Два доктора молча – один был бледен и дрожал – что то делали над другой, красной ногой этого человека. Управившись с татарином, на которого накинули шинель, доктор в очках, обтирая руки, подошел к князю Андрею. Он взглянул в лицо князя Андрея и поспешно отвернулся.
– Раздеть! Что стоите? – крикнул он сердито на фельдшеров.
Самое первое далекое детство вспомнилось князю Андрею, когда фельдшер торопившимися засученными руками расстегивал ему пуговицы и снимал с него платье. Доктор низко нагнулся над раной, ощупал ее и тяжело вздохнул. Потом он сделал знак кому то. И мучительная боль внутри живота заставила князя Андрея потерять сознание. Когда он очнулся, разбитые кости бедра были вынуты, клоки мяса отрезаны, и рана перевязана. Ему прыскали в лицо водою. Как только князь Андрей открыл глаза, доктор нагнулся над ним, молча поцеловал его в губы и поспешно отошел.
После перенесенного страдания князь Андрей чувствовал блаженство, давно не испытанное им. Все лучшие, счастливейшие минуты в его жизни, в особенности самое дальнее детство, когда его раздевали и клали в кроватку, когда няня, убаюкивая, пела над ним, когда, зарывшись головой в подушки, он чувствовал себя счастливым одним сознанием жизни, – представлялись его воображению даже не как прошедшее, а как действительность.
Около того раненого, очертания головы которого казались знакомыми князю Андрею, суетились доктора; его поднимали и успокоивали.
– Покажите мне… Ооооо! о! ооооо! – слышался его прерываемый рыданиями, испуганный и покорившийся страданию стон. Слушая эти стоны, князь Андрей хотел плакать. Оттого ли, что он без славы умирал, оттого ли, что жалко ему было расставаться с жизнью, от этих ли невозвратимых детских воспоминаний, оттого ли, что он страдал, что другие страдали и так жалостно перед ним стонал этот человек, но ему хотелось плакать детскими, добрыми, почти радостными слезами.

wiki-org.ru

Терафлопс — Википедия

Терафлопс (TFLOPS) — величина, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. 1 терафлопс = 1 триллион операций в секунду = 1000 миллиардов операций в секунду. Обычно имеются в виду операции над вещественными числами разрядностью 64 бита в формате IEEE 754.

TFLOPS = 1012FLOPS (= 103GFLOPS)

При измерении производительности кластеров и суперкомпьютеров часто используется 2 варианта: пиковая производительность — теоретический предел производительности (выражаемый через операции с плавающий запятой) для данных процессоров и максимальная производительность, которую данный кластер или компьютер достигает при решении практических задач. В качестве эталонной задачи часто выступает задача решения системы СЛАУ методом LU-разложения. Для измерений на кластерах используется реализация HPL — High performance linpack.

Чтобы найти пиковую производительность ЭВМ R, терафлопс, нужно тактовую частоту F, МГц, умножить на число процессоров (процессорных ядер) n, домножить на количество инструкций с плавающей запятой на такт (4 для процессоров Core2 — 2 операции Float Multiple Add; 8 для процессоров Intel с AVX) и поделить на 1000000:

F × n × 4·10−6 = R

Например, суперкомпьютер американской корпорации IBM, eServer Blue Gene Solution (на май 2008 года был самым производительным на планете), который работает в Ливерморской национальной лаборатории, штат Калифорния, США, обладает теоретической пиковой производительностью 596,4 терафлопс. Максимальная производительность, достигнутая в тесте LINPACK (HPL) — 478,2 терафлопс — составила 80 % от пиковой.

Эта суперЭВМ собрана на базе 212992 процессоров PowerPC 440, тактовая частота каждого из которых 700 МГц. Его производительность:

700 МГц × 212992 процессоров × 4·10−6 = 596,4 трлн операций в секунду = 596,4 терафлопс.

В общем случае, соотношение максимальной и пиковой производительности варьируется от 60 % до 83 %, поэтому по указанной формуле можно вычислять лишь пиковую производительность суперЭВМ. Так, например, пиковая производительность компьютера на базе четырехъядерного процессора AMD Phenom 9500 sAM2+ с тактовой частотой 2,2 ГГц равна:

2200 МГц × 4 ядра × 4·10−6 = 35,2 млрд операций в секунду = 0,0352 терафлопс.

Для четырехъядерного процессора Core 2 Quad Q6600:

2400 МГц × 4 ядра × 4·10−6 = 38,4 млрд операций в секунду = 0,0384 терафлопс.

Кроме того, AMD представила вычислительную систему FireStream 9250, занимающую один разъем PCI, общая производительность которой превосходит терафлопс, но только на 32-х разрядных данных, тогда как для суперкомпьютеров принято считать производительность на 64-х разрядных данных.

В 2012 году суммарная мощность компьютеров Гидрометцентра составляла 27 терафлопс, а в конце того же года в Гидрометцентре начал работать компьютер мощностью ещё 30 терафлопс[1].

На июнь 2013 самый мощный суперкомпьютер Tianhe-2. Теперь он занимает первую строчку в рейтинге суперкомпьютеров, его максимальная производительность составляет 33862,7 терафлопс, что почти в 2 раза больше, чем у занимающего второе место суперкомпьютера Titan. Теоретическая пиковая производительность может достигать 54902 терафлопс.[2].

1000 терафлопс = 1 петафлопс.

wp.wiki-wiki.ru


Смотрите также



© 2010- GutenBlog.ru Карта сайта, XML.