揭露K7的内芯世界 ----从引脚破解K7  我要评论 
           
更新时间:03年12月25日 作者:fatumai2003  编辑:0
当前第1页:第一部分:K7及其微架构 本文共 4 页

    在以前的文章《酷夏超频 -- TYAN也疯狂》,我们对AMD CPU的改造做了一些探讨,现在是对其的补充。我们改造目的:尝试不改动CPU的金桥,只通过改变socket462引脚的电路来达到和改变金桥同样的效果。

第一部分,K7及其微架构

    如图分别是Palomino、Thoroughbred和Barton核心的Athlon XP。(top view)

 

 

 

 


 


    下面是背面的图片(bottom view)
 


    从外观上看到一些电容,排阻等。它们的值通过测量后都是一样的。只是Palomino把它们都移到了底部。这样对一些靠接触底部测量温度主板有不好的影响而且阻碍散热。在以后的K7系列电容/排阻又都改到了上面了。

    Palomino采用0.18微米7层铜互连工艺,3750万晶体管。128K L1 cache和256K L2cache,DIE面积为128平方毫米。工作电压1.75V;Thoroughbred-B采用了0.13微米的9层铜互连工艺(早期的Thoroughbred-A为8层,再早的为6层),这样提高了传导性,降低了电能和热量的消耗,同时也降低了高频下的晶体管干扰。DIE面积为84平方毫米(Thoroughbred-A为80平方毫米)。电压有1.50V和1.60V。其他和Palomino一样;Barton同样才用的0.13微米的工艺,晶体管为5400万,核心面积也因此增加到了101平方毫米。如下图


 
    我们可以看出Barton增加的晶体管和与之对应的核心面积是另外的256K  L2 cache所占用的,实际效能测试在很多情况下并没有很有效的提高,毕竟没有增加L1 cache后见效快但受制于L1 cache复杂的结构,L1不能做的太大,在下面我们会分析到。上图中最右面的是K8的1M L2 cache。

    Barton并没有采用原来计划的SOI(Silicon on Insulator)技术,这表明AMD并没有对它投入太多精力和希望。现有的技术只是一个改进版本。它的出现只是为K7延长和INTEL对峙的时间和等待K8的来临。

    K7的QuantiSpeed架构。如图
 


我们结合上图,从基本概念开始说起

CPU(Central Processing Unit)的指令系统:我们现在用到的Athlon XP和P4都是基于x86指令集,这是CPU的根本属性,决定CPU运行什么样的程序。

    一条指令包含操作码和地址码两个部分,操作码就是指令序列号,来告诉CPU需要执行的是那一条指令。地址码则告诉CPU源操作数地址、目的地址和下一条指令的地址。然后通过ALU进行运算,然后将结果反馈到目的地址。

    指令一般分为:算术逻辑运算指令、浮点运算指令、位操作指令及其他的一些非运算指令。

    CISC和RISC :Complex Instruction Set Computer,复杂指令系统计算机,Reduced Instruction Set Computer,精简指令系统计算机。

    复杂指令的指令长度可变,寻址方式多样,可以带来处理速度的提升,但是复杂指令在解码上需要跟多是时间,这又在很大程度上抵消了他带来的速度的提升。

    精简指令的指令长度固定,指令格式种类少。寻址方式种类少,很多的简单指令能在一个时钟周期内完成。易于设计超标量与流水线,寄存器数量多,大量操作在寄存器之间进行。Intel的Itanium就采用了RISC结构。

二.CPU结构:从上图我们可以看出,CPU分为内核和外核。内核包括运算器和控制器,外核包括解码器和一、二级缓存。

    首先,我们分析内核。运算器包括:
⑴算术逻辑运算单元ALU(Arithmetic and Logic Unit), 完成二进制数据的定点算术运算 、逻辑运算 以及移位操作。 ALU包括两个输入端和一个输出端,整数单元有时也称为IEU(Integer Execution Unit),如上图。
⑵浮点运算单元FPU(Floating Point Unit),完成浮点运算和高精度整数运算。某些FPU还可以进行向量运算或是具有专门的向量处理单元。
⑶通用寄存器和专用寄存器。通用寄存器组保存参加运算的操作数和中间结果。CISC的寄存器很少,x86指令集只有8个通用寄存器。 影响了系统的速度。而RISC系统通用寄存器很多,并采用了重叠寄存器窗口和寄存器堆等技术使寄存器资源得到充分的利用。Intel和AMD的 都采用了 “寄存器重命名”的技术,使x86CPU的寄存器突破8个的限制,达到32个甚至更多。但是这种技术的寄存器操作要多出一个时钟周期,用来对寄存器进行重命名。

    专用寄存器是状态寄存器,由CPU自己控制,不通过程序改变,表明某种状态。

控制器包括:
⑴指令控制器,如上图中的instruction control unit,通过读取指令、分析指令,然后交给执行单元(ALU或FPU)进行运算,同时形成下一条指令的地址。
⑵时序控制器,为每条指令按时间顺序提供控制信号。包括时钟发生器和倍频定义单元,其中时钟发生器由石英晶体振荡器发生脉冲信号,就是CPU的原生频率;而倍频定义单元则定义了CPU倍频(即是总线频率的几倍)。
⑶总线控制器,用于控制CPU的地址总线、数据总线、控制总线等。
⑷中断控制器,用于控制各种(IRQ)中断请求,并根据优先级对中断请求进行排序。
在内核设计中,K7采用了超标量(Superscalar)设计,就是一种并行处理的方式,来提高处理速度。

    从上图可以看出,K7架构用到了3个IEU(Integer Execution Unit,整数单元,这里等同于ALU),3个AGU(Address Generation Units,地址生成单元)来组成了整数处理单元。这个图少画了一个整数乘法单元(MULT),K7就是通过它经过4个周期,来处理32位的整数数据乘法操作的。右面的粉红色的FADD、FMUL、FMISC三部分为浮点/多媒体指令执行单元,强大的3DNow浮点执行单元是AMD最自豪的部分。

    在K7的QuantiSpeed体系架构的宣传中,说到采用了同时发出9条指令的超标量完全管道化微体系结构,这里说到的9路超标量设计,不同的设计厂商对数字的定义不同,并没有什么多大的意思,更多的是出与一种市场宣传的需要。

    还有就是流水线(Pipeline)设计,简单的说,就是采用的一种合理的顺序,来使数据的处理达到更高的效率。对应于超标量系统,流水线可以最大程度的提高处理单元的执行效率。但是由于流水线系统的相关和转移的问题,所以超标量系统中的处理单元不是越多约好,管线也不是越长越好,CPU所要找的就是效率和速度之间的平衡点。

    K7在整数部分采用了10级流水线,对应的现在新发布的K8在整数部分采用了12级流水线。浮点部分K7采用了15级流水线,K8则采用了17级。而P4采用了超长的20级管线。流水线的增加最直接的好处就是可以做出很高的频率。

    但是我们知道:应用性能,我们用单位时间内完成的工作量来表示,应用性能=[时钟频率]×[完成的工作量]。也就是,应用性能= GHz x IPC(GHz,频率;IPC,每时钟周期完成的指令数)。

    从这里我们可以看出,P4由于采用的超长管线,可以做出很好的频率。而K7虽然主频没有P4高,但是执行效率高。这里我们不能说是孰优孰劣,P4高的主频同样提升了处理效率,而K7架构的高执行效率同样弥补了其主频不高的缺憾。只能说是他们在设计上的技术优势各有侧重,同时配合了市场宣传的需要,从而设计出了优秀的各具灵性的产品。
    
    其次,我们分析外核。
     解码器(Decode Unit),把复杂的x86指令转换为简单的指令,然后移交给执行部分。

    解码分为硬件解码(AMD定义为Fastpath或Directpath)和微解码(Mircocode单元)。简短的x86指令通过硬件解码即可,执行速度快,同时这需要相对复杂的硬件结构来实现。而遇到复杂的x86指令则需要进行微解码,使用微编程(Microprogaming),并把它分成若干条简单指令μOp(微指令),存储在MicroROM(MROM)内部,然后根据外部输入的指令来判定到MROM中选取相应的μOp。输出速度较慢且很复杂。这样实施起来比较简单,但是延迟较大。

    K7采用了三个解码出口,来提高输出效率,然后送到ICU执行部分(Instruction Control Unit ),Intel称为ROB。负责缓存由解码单元而来的μOp,协调其输出到执行单元的顺序,并处理执行中的异常情况。K7其所能容纳的μOp数目为72条。同样是3条出口输出到执行单元。

    指令调度器和一级、二级缓存(Cache)、TLB和指令取和分支预测部分。

    指令调度器是属于上述的内核设计部分,但是他的作用类似于缓存。为了便于理解,我们把它放到这里做一个解释。它是协调ICU和执行单元的部分,对超标量处理器的执行效率意义重大。从ICU输出的MacroOp要先输入到各执行单元相应的指令调度器
(Integer/FPU Scheduler)。一是负责在较慢的执行单元和较快的ICU指令输出单元之间起缓冲的作用。二是负责将μOp分类,分别送往分别送往(issue)AGU或ALU。三是负责将μOp排序,避免出现Pipeline Hazard。K7的指令调度器部分所能缓冲的μOp数目为18条。

    一级、二级缓存(Cache)是为了缓解较快的CPU与较慢的存储器之间的矛盾,一级缓存通常集成在CPU内核,而二级缓存则是以OnDie或OnBoard的方式以较快于存储器的速度运行。K7采用了Exclisive设计,表示其CPU Cache等于L1 Cache+L2Cache。而Intel公司的CPU Cache没有采用Exclisive设计,L1 Cache和L2 Cache仍然有重复的部分。K7的L1 Cache为128K。包括64K的Date Cache和64K的Instruction Cache。L2 Cache为256K,BARTON为512K,但是在很多的实际应用中,效率的提升不是很明显。运算单元在执行运算先寻找L1 Cache中的数据和指令,如果没有再转到L2 Cache中寻找。L1 Cache的容量和结构对CPU的性能影响较大,不过高速缓冲存储器均由静态RAM组成,结构复杂,在DIE面积不能太大的情况下,L1级高速缓存的容量不可能做的太大。只能是努力的增大L2 Cache,但是效果不是很理想。

    TLB,Translation Lookaside Buffer旁路转换缓冲。当执行部分在内存中寻址数据时,不是直接到内存的物理地址里查找,而是通过一组虚拟地址转换到主内存的物理地址。这样在虚拟地址和物理地址对应的地址就有一组对应表格,TLB则负责缓存这个表格中的数据K7 的的TLB结构能保留关键数据表靠近处理器的指令。当再次请求数据或指令时,这种设计使处理器无需等待就能开始操作。这些TLB结构在高速缓存之间是唯一的,具有预测性。同时TLB结构的排他性消除了信息复制,可以在二级高速缓存中释放出更多的空间。可以看出,增加TLB的入口数量,可以有效的提高寻址速度。K7的QuantiSpeed架构L1有40个DTLB(数据TLB)和24个ITLB(指令TLB),这个架构体系中将二级ITLB 和DTLB 设计为非复用的体系结构。这样,L1中的内容不需要在L2 TLB 中保存副本,从而使L2 TLB 和L1 TLB 的容量相组合,拓宽了指令和数据TLB 的入口空间。

    指令取和分支预测部分,如上图中的Fetch/Branch Predicition部分, Global History Counter的条数为4K(接近但达不到4K),可以准确快速的预测和读取指令。

下一页>>>


本文内容导航
   · 第1页:第一部分:K7及其微架构
   · 第2页:第二部分:关于socketA和CPU针脚定义
   · 第3页:第三部分:关于改造
   · 第4页:第四部分?:关于制造一些CPU改造的工具。
文章总页数:4 当前页数:1
出处:0
是否匿名
社区用户登陆
热门文章
·倚天原创:《大学自习室》续-月光花朵
·倚天原创:刘德华倾情演唱CS之歌
·再见硬盘的硬伤与软伤
·CS最强利器出现!微软IE4鼠标详尽评测
·2003数码影像展之MM篇(多图)
·ADSL宽带网络的配置及优化技巧
·2003中低端显卡详述
·已报废硬盘修复记
·双通道VIA PT880开始绝地反击!
·你的IBM硬盘需要升级吗?

更多内容...

焦点新闻
·美女来给你讲解什么叫“咕噜”技术
·超眩!如此COOL的键盘你见过吗?
·超级Mini电脑,配置比你的台式机还高
·疯狂的超频大赛
·山雨欲来风满楼,暴雪在线游戏即将发售
·小的不能再小了!NEC超微型PC主机
·牛!SONY PSX第一时间拆机图片
·够奇、够贵!用木头打造的高档键盘
·EA:BattleField Vietnam最新截图公布
·微软皮革版无线光电鼠标终于上市

更多内容...

=相 关 内 容=
64位Windows XP操作系统延期
Intel,你将何去何从
Intel力推Itanium 2s处理器
Intel Grantsdale-G芯片组将支持双显示器
没市场需求!Intel仍不考虑64位PC处理器
3.2GHz Pentium 4 XE已经开始零售(多图)
Intel Pentium 4 EE 处理器独特的包装暴光

=推 荐 评 测=
=推 荐 新 闻=
超眩!如此COOL的键盘你见过吗?
疯狂的超频大赛
Geforce FX5900 Ultra相当于P4 10GHz?
笔记本电脑三季销量冲破1000万台
山雨欲来风满楼,暴雪在线游戏即将发售
EA:BattleField Vietnam最新截图公布
=其 他 推 荐=
ISAVE---世界最小移动硬盘进村
嘉威Personal Cinema FX显卡试用
2003中低端显卡详述
超越台式机的移动PC
倚天原创:《大学自习室》续-月光花朵
QDI 848P狂降百元
=倚天数码社=
=倚天社=
=技术论坛=
倚天硬件门户网络电脑杂志——时尚硬件融入生活!
广告业务 | 网站导航 | 关于我们 | 投稿信箱 | 联系合作 | 联系网管 | 隐私保护 | 版权所有 | 京广字第0436号
 
  北京捷羿天翔科技有限公司 Copyright (C) 1997-2004 ITdoor.net All Rights Reserved   |  京ICP证030778