intel

如何在 Intel 环形和网状架构上选择引导处理器 (BSP)

第2 13 2节提到仲裁 ID 用于确定哪个处理器首先发出无操作周期我在多个来源和英特尔手册上看到了这一点引用 MP 初始化序列的英特尔手册仅在存在系统总线时以及在此之前最初存在 APIC 总线时解决 Pentium 4 我的印象

x86 intel cpuarchitecture Boot multicore

intel手册中的x86_64操作码编码格式

中列出的 Op En 格式是什么英特尔 x86 64 参考手册例如在添加操作码我可以猜测一些例如 I 立即但是有这些的完整列表吗的介绍部分英特尔第 2 卷手册解释如何阅读每个条目 3 1 1 4 指令汇总表中的操作数编码栏操作数编

Assembly x8664 intel

为什么 Skylake 在单线程内存吞吐量方面比 Broadwell-E 好很多？

我们有一个简单的内存吞吐量基准它所做的只是对一大块内存重复进行memcpy 查看几台不同机器上的结果针对 64 位编译 Skylake 机器的表现明显优于 Broadwell E 操作系统 Win10 64 处理器速度和 RAM 速度

performance x86 benchmarking intel cpuarchitecture

使用 Intel HD 4000 在 Mac 上进行 Cuda 编程 [已关闭]

Closed 这个问题是无关目前不接受答案我需要做什么才能在配备 Intel HD 4000 显卡的 Macbook Air 上进行 Cuda 编程设置虚拟机购买外置 Nvidia 卡吗有可能吗如果您有一台新的 Macbook

MacOS CUDA intel

什么是存储缓冲区？

谁能解释什么是加载缓冲区以及它与失效队列有何不同以及存储缓冲区和写入组合缓冲区之间的区别保罗 E 麦肯尼 Paul E Mckenny 的论文http www rdrop com users paulmck scalability pa

Architecture hardware intel cpuarchitecture

默认模板类参数混淆了 g++？

昨天我遇到了 g 3 4 6 编译器问题我使用 Intel 9 0 编译器编译的代码没有出现问题下面的代码片段显示了发生的情况 template

c templates gcc g intel

perf-report显示CPU寄存器的值

我跟随这个文件并使用perf record with intr regs ax bx r15 尝试使用 PEBS 记录记录其他 CPU 寄存器信息但是我如何从 perf data 查看这些信息原来的命令是perf report 并且只显

Linux Linuxkernel CPU intel perf

Intel 处理器的虚拟操作处理

诚然我有一个有点愚蠢的问题基本上我想知道是否英特尔处理器提供了一些特殊的机制来有效地执行一系列虚拟指令即 NOP 指令例如我可以想象那里可能是某种识别 NOPS 并丢弃它们的预取机制并尝试获取一些有用的指令或者这些 N

Assembly x86 intel cpuarchitecture instructionset

SFENCE和LFENCE对相邻核心的缓存有什么影响？

From the speech Herb Sutter in the figure of the slides on page 2 这里显示了单独的缓存 L1S和存储缓冲区 SB 1 在 Intel x86 处理器中cache L1 和 S

caching Assembly x86 intel memorybarriers

检测英特尔 PIN 上的非法指令操作码

我正在编写一个 Pin 工具我想在其中检测具有特定操作码的指令我有一个来自示例 C 程序的可执行文件我正在其中打印 hello world 使用的体系结构是 x86 64 我在程序中跟踪了汇编指令我将该程序的汇编指令跟踪提供给英特尔

c Assembly x8664 intel intelpin

在固定不同 CPU 的 2 个线程之间传递一些变量的最佳方式

我有一个问题需要了解是否有更好的解决方案我编写了以下代码将一些变量从编写器线程传递到读取器线程这些线程固定到共享相同 L2 缓存的不同 CPU 禁用超线程 writer thread h struct a few vars uint3

c x86 intel memoryalignment cpucache

使用索引寻址模式时的瓶颈

我在 Haswell 和 Coffee Lake 机器上进行了以下实验指令 cmp rbx qword ptr r14 rax 吞吐量为 0 5 即每个周期 2 条指令这正如预期的那样该指令被解码为随后未层压的一个微指令参见http

x8664 intel cpuarchitecture microoptimization addressingmode

包括正确的内在标头

我一直在阅读关于哪个头文件更适合访问英特尔的内在函数的意见 x86intrin h or immintrin h 两者似乎都达到了相同的结果但我确信在代码可移植性方面一定存在一些细微的差异也许其中一个比另一个更常见或更完整我找不到对其

c gcc header intel intrinsics

Intel 和 AMD 如何不同但仍然兼容？

正如我一直以来的理解 AMD 通过逆向工程英特尔的指令集来构建他们的 CPU 现在向英特尔付费以使用他们的指令集而英特尔对 AMD 的 64 位指令也做了同样的事情这就是 Windows 可以在两种类型的 CPU 上安装而无需购买特定版

Optimization x86 intel cpuarchitecture amdprocessor

无法使用 VHDL 2008 Quartus Prime 进行编译

我正在使用 Quartus Prime Lite Edition 并且我想使用一元运算符nand像这样的 std logic vector library ieee use ieee std logic 1164 all use ieee

VHDL intel Quartus

Clang 的 '_mm256_pow_ps' 内在函数在哪里？

我似乎找不到 mm pow ps 或 mm256 pow ps 的内在函数这两个函数都应该包含在 immintrin h 中 Clang 没有定义这些或者它们在我没有包含的标头中吗这不是内在的而是内在的这是一个英特尔 SVML 库f

Clang intel SSE intrinsics avx

使用 Intel Core 2 Duo E8500 CPU 的 CL_DEVICE_NOT_AVAILABLE

我收到错误CL DEVICE NOT AVAILABLE跑步时这个示例代码然而与该问题不同的是我的 CPU Intel Core 2 Duo E8500 CPU 似乎是支持的我已确保链接到 Intel 版本的 OpenCL 库因为

opencl intel

x86 上存储到加载转发失败的成本是多少？

在最新的 x86 架构上存储到加载转发失败的成本是多少特别是存储到加载转发会失败因为加载部分与较早的存储重叠或者因为较早的加载或存储跨越某些导致转发失败的对齐边界当然存在延迟成本它有多大是否还存在吞吐量成本例如失败的存储

x86 intel cpuarchitecture microoptimization amdprocessor

为什么 x86_64 CPU 上没有通用寄存器的乘加融合？

在 Intel 和 AMD x86 64 处理器上 SIMD 矢量化寄存器具有特定的融合乘加功能但通用标量整数寄存器don t 你基本上需要先乘法然后加法除非你可以将东西放入一个lea 这是为什么我的意思是它是否毫无用处以至

x8664 intel cpuarchitecture instructionset amdprocessor

优化第七代英特尔酷睿视频 RAM 中的递增 ASCII 十进制计数器

我正在尝试针对特定的 Kaby Lake CPU i5 7300HQ 优化以下子例程理想情况下使代码比其原始形式至少快 10 倍该代码在 16 位实模式下作为软盘式引导加载程序运行它在屏幕上显示一个十位十进制计数器计数 0 9999

Assembly Optimization x86 intel BootLoader