当前位置: 首页 > news >正文

网站开发需要学php吗扬之云公司网站建设

网站开发需要学php吗,扬之云公司网站建设,wordpress升级方法,在线网站建设工程标准本篇博文转载于https://www.cnblogs.com/1024incn/tag/CUDA/#xff0c;仅用于学习。 GPU架构 SM#xff08;Streaming Multiprocessors#xff09;是GPU架构中非常重要的部分#xff0c;GPU硬件的并行性就是由SM决定的。 以Fermi架构为例#xff0c;其包含以下主要组成…本篇博文转载于https://www.cnblogs.com/1024incn/tag/CUDA/仅用于学习。 GPU架构 SMStreaming Multiprocessors是GPU架构中非常重要的部分GPU硬件的并行性就是由SM决定的。 以Fermi架构为例其包含以下主要组成部分 CUDA coresShared Memory/L1CacheRegister FileLoad/Store UnitsSpecial Function UnitsWarp Scheduler GPU中每个SM都设计成支持数以百计的线程并行执行并且每个GPU都包含了很多的SM所以GPU支持成百上千的线程并行执行当一个kernel启动后thread会被分配到这些SM中执行。大量的thread可能会被分配到不同的SM但是同一个block中的thread必然在同一个SM中并行执行。 CUDA采用Single Instruction Multiple ThreadSIMT的架构来管理和执行thread这些thread以32个为单位组成一个单元称作warps。warp中所有线程并行的执行相同的指令。每个thread拥有它自己的instruction address counter和状态寄存器并且用该线程自己的数据执行指令。 SIMT和SIMDSingle Instruction, Multiple Data类似SIMT应该算是SIMD的升级版更灵活但效率略低SIMT是NVIDIA提出的GPU新概念。二者都通过将同样的指令广播给多个执行官单元来实现并行。一个主要的不同就是SIMD要求所有的vector element在一个统一的同步组里同步的执行而SIMT允许线程们在一个warp中独立的执行。SIMT有三个SIMD没有的主要特征 每个thread拥有自己的instruction address counter每个thread拥有自己的状态寄存器每个thread可以有自己独立的执行路径 一个block只会由一个SM调度block一旦被分配好SM该block就会一直驻留在该SM中直到执行结束。一个SM可以同时拥有多个block。下图显示了软件硬件方面的术语 需要注意的是大部分thread只是逻辑上并行并不是所有的thread可以在物理上同时执行。这就导致同一个block中的线程可能会有不同步调。  并行thread之间的共享数据回导致竞态多个线程请求同一个数据会导致未定义行为。CUDA提供了API来同步同一个block的thread以保证在进行下一步处理之前所有thread都到达某个时间点。不过我们是没有什么原子操作来保证block之间的同步的。 同一个warp中的thread可以以任意顺序执行active warps被SM资源限制。当一个warp空闲时SM就可以调度驻留在该SM中另一个可用warp。在并发的warp之间切换是没什么消耗的因为硬件资源早就被分配到所有thread和block所以该新调度的warp的状态已经存储在SM中了。 SM可以看做GPU的心脏寄存器和共享内存是SM的稀缺资源。CUDA将这些资源分配给所有驻留在SM中的thread。因此这些有限的资源就使每个SM中active warps有非常严格的限制也就限制了并行能力。所以掌握部分硬件知识有助于CUDA性能提升。 Fermi架构 Fermi是第一个完整的GPU计算架构。 512个accelerator cores即所谓CUDA cores包含ALU和FPU16个SM每个SM包含32个CUDA  core六个384位 GDDR5 DRAM支持6GB global on-board memoryGigaThread engine图左侧将thread blocks分配给SM调度768KB L2 cache每个SM有16个load/store单元允许每个clock cycle为16个thread即所谓half-warp不过现在不提这个东西了计算源地址和目的地址Special function unitsSFU用来执行sin cosine 等每个SM两个warp scheduler两个instruction dispatch unit当一个block被分配到一个SM中后所有该block中的thread会被分到不同的warp中。Fermicompute capability 2.x每个SM同时可处理48个warp共计1536个thread。 每个SM由一下几部分组成 执行单元CUDA cores调度分配warp的单元shared memoryregister fileL1 cache Kepler 架构 Kepler相较于Fermi更快效率更高性能更好。 15个SM6个64位memory controller192个单精度CUDA cores64个双精度单元32个SFU32个load/store单元LD/ST增加register file到64K每个Kepler的SM包含四个warp scheduler、八个instruction dispatchers使得每个SM可以同时issue和执行四个warp。Kepler K20Xcompute capability 3.5每个SM可以同时调度64个warp共计2048个thread。 Dynamic Parallelism Dynamic Parallelism是Kepler的新特性允许GPU动态的启动新的Grid。有了这个特性任何kernel内都可以启动其它的kernel了。这样直接实现了kernel的递归以及解决了kernel之间数据的依赖问题。也许D3D中光的散射可以用这个实现。 Hyper-Q Hyper-Q是Kepler的另一个新特性增加了CPU和GPU之间硬件上的联系使CPU可以在GPU上同时运行更多的任务。这样就可以增加GPU的利用率减少CPU的闲置时间。Fermi依赖一个单独的硬件上的工作队列来从CPU传递任务给GPU这样在某个任务阻塞时会导致之后的任务无法得到处理Hyper-Q解决了这个问题。相应的Kepler为GPU和CPU提供了32个工作队列。 不同arch的主要参数对比
http://www.zqtcl.cn/news/636424/

相关文章:

  • 自己可以做拼单网站吗建设企业网站有哪些
  • 张掖北京网站建设新闻事件
  • 济南网站建设(力选聚搜网络)wordpress文章中写代码
  • 网站后台忘记密码买购网十大品牌网
  • 360免费建站网页链接石家庄建设局网站怎么打不开
  • 东莞网站建做俄罗斯外贸的网站
  • 基于vue.js旅游网站开发网络营销的主要形式有建设网站
  • 医院网站建设要素国外电商网站
  • 甘肃两学一做网站可以制作h5的网站
  • 微信公众号手机网站开发wordpress 集赞系统
  • 怎么做会员积分网站免费ppt模板下载有哪些
  • 六安网站开发如何用微信小程序做网站
  • 华为云自助建站好不好seo技巧分享
  • 做淘宝客的网站wordpress+附件丢失
  • 苏州市城乡建设局网站首页做动漫网站的素材
  • 济南网站建设系统介绍服务网站开发费属于研发支出吗
  • 网站建设方案进行工期安排Wix做的网站在国内打不开
  • 网站后台后缀名qq免费申请账号
  • seo网站优化代码静态网站可以做哪些
  • 网页素材及网站架构制作个人单页网站模板
  • 微小店网站建设价格建设网站设备预算
  • 电子商城网站开发公司泰州网络营销
  • 网站建设公司利润分配一些常用的网站
  • 鄂尔多斯做网站的公司北京企业网站设计报价
  • 南宁关键词网站排名wordpress付免签插件
  • 龙岩网站定制电子政务与网站建设方面
  • 东莞网站制作十强英语培训机构网站建设策划书
  • 住房和城乡建设部网站加装电梯苏州外发加工网
  • 企业网站管理系统带授权广州seo报价
  • 建设门户网站的意义旅游电商网站建设方案模板