任何人都可以提供有关如何设置张量流以在网络上的许多CPU上工作的指导吗?到目前为止,我发现的所有示例最多只使用一个本地盒子和多个 GPU。我发现我可以在 session_opts 中传递目标列表,但我不确定如何在每个盒子上设置张量流来侦听网络节点/任务。任何例子将不胜感激!
TensorFlow 的开源版本(当前为 0.6.0)仅支持单进程执行:特别是,tensorflow::SessionOptions
是空字符串,表示“当前进程”。
The TensorFlow 白皮书 http://download.tensorflow.org/paper/whitepaper2015.pdf描述了我们在 Google 内部使用的分布式实现的结构(参见图 3)。基本思想是可以使用 RPC 来实现 Session 接口master;主设备可以将计算划分为多个设备worker进程,也使用 RPC 进行通信。唉,当前版本严重依赖于 Google 内部技术(例如Borg http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43438.pdf),因此还有很多工作要做,以使其为外部消费做好准备。目前我们正在努力解决这个问题,您可以关注我们的进展这个 GitHub 问题 https://github.com/tensorflow/tensorflow/issues/23.
2016 年 2 月 26 日编辑:今天我们发布了一个分布式运行时的初始版本 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/core/distributed_runtime到 GitHub。它支持多台机器和多个GPU。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)