Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何在 Intel 环形和网状架构上选择引导处理器 (BSP)
第2 13 2节提到仲裁 ID 用于确定哪个处理器首先发出无操作周期 我在多个来源和英特尔手册上看到了这一点 引用 MP 初始化序列的英特尔手册仅在存在 系统总线 时以及在此之前最初存在 APIC 总线 时解决 Pentium 4 我的印象
x86
intel
cpuarchitecture
Boot
multicore
intel手册中的x86_64操作码编码格式
中列出的 Op En 格式是什么英特尔 x86 64 参考手册 例如在添加操作码我可以猜测一些 例如 I 立即 但是有这些的完整列表吗 的介绍部分英特尔第 2 卷手册解释如何阅读每个条目 3 1 1 4 指令汇总表中的操作数编码栏 操作数编
Assembly
x8664
intel
为什么 Skylake 在单线程内存吞吐量方面比 Broadwell-E 好很多?
我们有一个简单的内存吞吐量基准 它所做的只是对一大块内存重复进行memcpy 查看几台不同机器上的结果 针对 64 位编译 Skylake 机器的表现明显优于 Broadwell E 操作系统 Win10 64 处理器速度和 RAM 速度
performance
x86
benchmarking
intel
cpuarchitecture
使用 Intel HD 4000 在 Mac 上进行 Cuda 编程 [已关闭]
Closed 这个问题是无关 目前不接受答案 我需要做什么才能在配备 Intel HD 4000 显卡的 Macbook Air 上进行 Cuda 编程 设置虚拟机 购买外置 Nvidia 卡吗 有可能吗 如果您有一台新的 Macbook
MacOS
CUDA
intel
什么是存储缓冲区?
谁能解释什么是加载缓冲区以及它与失效队列有何不同 以及存储缓冲区和写入组合缓冲区之间的区别 保罗 E 麦肯尼 Paul E Mckenny 的论文http www rdrop com users paulmck scalability pa
Architecture
hardware
intel
cpuarchitecture
默认模板类参数混淆了 g++?
昨天 我遇到了 g 3 4 6 编译器问题 我使用 Intel 9 0 编译器编译的代码没有出现问题 下面的代码片段显示了发生的情况 template
c
templates
gcc
g
intel
perf-report显示CPU寄存器的值
我跟随这个文件并使用perf record with intr regs ax bx r15 尝试使用 PEBS 记录记录其他 CPU 寄存器信息 但是我如何从 perf data 查看这些信息 原来的命令是perf report 并且只显
Linux
Linuxkernel
CPU
intel
perf
Intel 处理器的虚拟操作处理
诚然 我有一个有点愚蠢的问题 基本上 我想知道是否 英特尔处理器提供了一些特殊的机制来有效地 执行一系列虚拟指令 即 NOP 指令 例如 我可以想象那里 可能是某种识别 NOPS 并丢弃它们的预取机制 并尝试获取一些有用的指令 或者这些 N
Assembly
x86
intel
cpuarchitecture
instructionset
SFENCE和LFENCE对相邻核心的缓存有什么影响?
From the speech Herb Sutter in the figure of the slides on page 2 这里显示了单独的缓存 L1S和存储缓冲区 SB 1 在 Intel x86 处理器中cache L1 和 S
caching
Assembly
x86
intel
memorybarriers
检测英特尔 PIN 上的非法指令操作码
我正在编写一个 Pin 工具 我想在其中检测具有特定操作码的指令 我有一个来自示例 C 程序的可执行文件 我正在其中打印 hello world 使用的体系结构是 x86 64 我在程序中跟踪了汇编指令 我将该程序的汇编指令跟踪提供给英特尔
c
Assembly
x8664
intel
intelpin
在固定不同 CPU 的 2 个线程之间传递一些变量的最佳方式
我有一个问题需要了解是否有更好的解决方案 我编写了以下代码 将一些变量从编写器线程传递到读取器线程 这些线程固定到共享相同 L2 缓存的不同 CPU 禁用超线程 writer thread h struct a few vars uint3
c
x86
intel
memoryalignment
cpucache
使用索引寻址模式时的瓶颈
我在 Haswell 和 Coffee Lake 机器上进行了以下实验 指令 cmp rbx qword ptr r14 rax 吞吐量为 0 5 即每个周期 2 条指令 这正如预期的那样 该指令被解码为随后未层压的一个微指令 参见http
x8664
intel
cpuarchitecture
microoptimization
addressingmode
包括正确的内在标头
我一直在阅读关于哪个头文件更适合访问英特尔的内在函数的意见 x86intrin h or immintrin h 两者似乎都达到了相同的结果 但我确信在代码可移植性方面一定存在一些细微的差异 也许其中一个比另一个更常见或更完整 我找不到对其
c
gcc
header
intel
intrinsics
Intel 和 AMD 如何不同但仍然兼容?
正如我一直以来的理解 AMD 通过逆向工程英特尔的指令集来构建他们的 CPU 现在向英特尔付费以使用他们的指令集 而英特尔对 AMD 的 64 位指令也做了同样的事情 这就是 Windows 可以在两种类型的 CPU 上安装而无需购买特定版
Optimization
x86
intel
cpuarchitecture
amdprocessor
无法使用 VHDL 2008 Quartus Prime 进行编译
我正在使用 Quartus Prime Lite Edition 并且我想使用一元运算符nand像这样的 std logic vector library ieee use ieee std logic 1164 all use ieee
VHDL
intel
Quartus
Clang 的 '_mm256_pow_ps' 内在函数在哪里?
我似乎找不到 mm pow ps 或 mm256 pow ps 的内在函数 这两个函数都应该包含在 immintrin h 中 Clang 没有定义这些或者它们在我没有包含的标头中吗 这不是内在的 而是内在的 这是一个英特尔 SVML 库f
Clang
intel
SSE
intrinsics
avx
使用 Intel Core 2 Duo E8500 CPU 的 CL_DEVICE_NOT_AVAILABLE
我收到错误CL DEVICE NOT AVAILABLE跑步时这个示例代码 然而 与该问题不同的是 我的 CPU Intel Core 2 Duo E8500 CPU 似乎是支持的 我已确保链接到 Intel 版本的 OpenCL 库 因为
opencl
intel
x86 上存储到加载转发失败的成本是多少?
在最新的 x86 架构上 存储到加载转发失败的成本是多少 特别是 存储到加载转发会失败 因为加载部分与较早的存储重叠 或者因为较早的加载或存储跨越某些导致转发失败的对齐边界 当然存在延迟成本 它有多大 是否还存在吞吐量成本 例如 失败的存储
x86
intel
cpuarchitecture
microoptimization
amdprocessor
为什么 x86_64 CPU 上没有通用寄存器的乘加融合?
在 Intel 和 AMD x86 64 处理器上 SIMD 矢量化寄存器具有特定的融合乘加功能 但通用 标量 整数 寄存器don t 你基本上需要先乘法 然后加法 除非你可以将东西放入一个lea 这是为什么 我的意思是 它是否毫无用处以至
x8664
intel
cpuarchitecture
instructionset
amdprocessor
优化第七代英特尔酷睿视频 RAM 中的递增 ASCII 十进制计数器
我正在尝试针对特定的 Kaby Lake CPU i5 7300HQ 优化以下子例程 理想情况下使代码比其原始形式至少快 10 倍 该代码在 16 位实模式下作为软盘式引导加载程序运行 它在屏幕上显示一个十位十进制计数器 计数 0 9999
Assembly
Optimization
x86
intel
BootLoader
«
1 ...
4
5
6
7
8
9
10
...13
»