指令级并行

当程序员听到并行（parallelism）这个词时，他们主要想到的是多核并行（multi-core parallelism），即将计算过程明确地拆分为协同工作的半独立的线程（threads），以此解决常见问题。

这种并行主要是为了减少延迟（latency）和实现可扩展性（scalability），而不是为了提高效率（efficiency）。你可以用并行算法解决十倍大的问题，但它需要至少十倍的计算资源。尽管并行硬件越来越丰富，并行算法设计也越来越重要，但目前，我们先只考虑单个CPU内核的情况。

还有其他类型的并行，已经存在于CPU内核中，可以免费（不需要额外计算资源）使用。

指令流水线

要执行任何指令，处理器首先需要做大量的准备工作，包括：

从内存获取（fetch）机器代码块；
对其进行解码（decode）并分割成指令；
执行（execute）这些指令，其中可能涉及一些访存（memory）操作；
将结果写（write）回寄存器。

整个操作序列很长。即使是像将两个寄存器中的值相加这样简单的操作，也需要15-20个CPU周期。为了隐藏这种延迟，现代CPU使用了流水线（pipelining）：在指令通过第一阶段后，立即开始处理下一条指令，而无需等待前一条指令完全完成。

流水线并不能减少实际的延迟，但在功能上使其看起来像是只由执行和访存阶段组成。你仍然需要花费这15-20个周期，但你只需要在要执行的指令序列的最后做一次。

考虑到这一点，硬件制造商更喜欢使用每条指令的周期数（cycles per instruction，CPI），而不是像“平均指令延迟”这样的指标作为CPU设计的主要性能指标。对算法设计而言，只考虑有用的指令也是一个很好的指标。

一个完美的流水线处理器的CPI应该无限接近于1，但是我们可以通过复制流水线的每个阶段来使流水线变得“更宽”（即增加一条流水线），从而一次可以处理多条指令，那么CPI实际上可能会更低。因为缓存和大部分ALU可以共享，所以增加一条流水线会比添加完全独立的内核更便宜。这样的架构能够在每个时钟周期执行一条以上的指令，被称为超标量（superscalar），大多数现代CPU都支持超标量。

只有当指令流包含一组可以单独处理的逻辑上独立的运算时，才能利用超标量处理。指令并不总是以最合适的顺序到达，因此，在可能的情况下，现代CPU可以乱序（out of order）地执行指令，以提高整体利用率并最大限度地减少流水线停滞。至于乱序执行具体是如何工作的，是一个更加深入的主题，目前你可以简单地假设CPU维持一个缓冲区给未来一段距离内将要执行的挂起指令，在其所依赖操作数的值完成计算，并且有可用的执行单元时，立即执行这些指令。