Reinforcement Learning笔记3-Dynamic Program

Bellman最优解策略 - 动态规划法（Dynamic Programming Methods）动态规划是一种通过把复杂问题划分为子问题，并对自问题进行求解，最后把子问题的解结合起来解决原问题的方法。「动态」是指问题由一系列的状态组成，而且状态能一步步地改变。「规划」即优化每一个子问题。因为MDP 的 Markov 特性，即某一时刻的子问题仅仅取决于上一时刻的子问题的 action，并且

2017-11-13

Reinforcement Learning

#Reinforcement Learning

Reinforcement Learning笔记2-Bellman

1. Bellman方程（Bellman Equation）贝尔曼方程（Bellman Equation）也被称作动态规划方程（Dynamic Programming Equation），由理查·贝尔曼（Richard Bellman）发现。贝尔曼方程是动态规划（Dynamic Programming）这些数学最佳化方法能够达到最佳化的必要条件。贝尔曼方程表明当前状态的值函数与下个状态的值函数

2017-11-12

Reinforcement Learning

#Reinforcement Learning

Reinforcement Learning笔记1-MDP

1. 马尔可夫模型介绍（Markov）马尔可夫模型的几类子模型: 　不考虑动作考虑动作状态完全可见马尔科夫链(MC) 马尔可夫决策过程(MDP) 状态不完全可见隐马尔可夫模型(HMM) 不完全可观察马尔可夫决策过程(POMDP) Markdown table - tablesgenerator 2. 马尔可夫决策过程（MDP）马尔可夫决策过程（Markov

2017-11-11

Reinforcement Learning

#Reinforcement Learning

JUDO-Kodokan 柔道-講道館

kodokan 講道館简介讲道馆是在1882年由嘉纳治五郎所创立，坐落在日本东京文京区。讲道馆是所有柔道界的总本部，“講道館”的意思是学习兼传播柔道理念的道场。讲道馆对于喜爱柔道者来说是个特殊的地方，应该说，对柔道运动员来说，讲道馆一游应该会列为自己人生旅程清单，而道场也迎来世界各国的众多柔道修行者。 kodokan 講道館内部讲道馆由本馆和新馆两部分组成。本馆(7层)有全日本柔

2017-11-02

Judo

#Judo

JUDO-Motto 柔道-精力善用自他共栄

「精力善用、自他共栄」は嘉納治五郎が創始した講道館柔道の指針として掲げられている言葉です。 Motto ## 精力善用 ”「精力善用」とは、相手の動きや体重移動を利用し、自分の持つ力を有効に働かせるという原理によって、より大きな力を生むことができます。そして、柔道に打ち込み、修行を積むことによって、自己の能力は磨かれていきます。それは日々の生活にも同様のことが言えます。その力を使っ

2017-08-26

Judo

#Judo

JUDO-Ono Shohei 柔道-大野将平

Ono 写在前面今年2017年的4月29日，在日本的武道馆观看了全日本柔道锦标赛，这是一个无重量级限制的比赛。那时记忆犹新的是一位奥运的柔道冠军跟比他约重20公斤的选手的比赛，那是整场耗时最长的比赛，不过后来奥运冠军被一本击败。后来才知道那位被击败的奥运冠军叫大野将平。有一部关于他的柔道旅程日语视频，影片来自日本节目片《アスリートの魂》（运动员之魂）。对于柔道爱好者练习柔道也很有帮助，

2017-08-25

Judo

#Judo

Deep learning笔记5-GAN生成式对抗网络

1. 生成式对抗网络（GAN） GAN（Generative Adversarial Network）的思想：生成器和鉴别器两个网络彼此博弈。 ● 生成器的目标是生成一个对象，并使其看起来和真的一样。 ● 鉴别器的目标就是找到生成出的结果和真实图像之间的差异。 GAN 内容部分来自：はじめてのGAN 訓練データを学習し、それらのデータと似たような新しいデータを生成するモデルのことを生成モデ

2017-08-20

Deep Learning

#Deep Learning

Deep learning笔记4-TreeRNN递归神经网络

1. 递归神经网络（TreeRNN）原图和公式以及说明来自：零基础入门深度学习(5) - 循环神经网络 RNN循环神经网络处理词序列，但有时候把句子看做是词的序列是不够的，比如『两个外语学院的/学生』与『两个/外语学院的学生』意思不同，为了能够让模型区分出两个不同的意思，模型可借助树结构去处理信息，而不是序列，这就是递归神经网络的作用。当面对按照树/图结构处理信息更有效的任务时，递归神经网络通常

2017-08-17

Deep Learning

#Deep Learning

Deep learning笔记3-RNN循环神经网络

1. 循环神经网络（RNN）原图和公式说明来自：零基础入门深度学习(5) - 循环神经网络 RNN x是一个向量，表示输入层的值（这里面没有画出来表示神经元节点的圆圈）； s是一个向量，表示隐藏层的值（这里隐藏层面画了一个节点，也可以想象这一层其实是多个节点，节点数与向量s的维度相同）； U是输入层到隐藏层的权重矩阵； o是一个向量，表示输出层的值； V是隐藏层到输出层的权重矩阵。 W权

2017-08-16

Deep Learning

#Deep Learning

Deep learning笔记2-CNN卷积神经网络

1. 卷积神经网络简介（CNN）原图和公式说明来自：零基础入门深度学习(4) - 卷积神经网络 CNN 一个卷积神经网络（Convolutional Neural Network）由若干卷积层、池化层、全连接层组成。 1.1. 卷积神经网络输出值的计算以一个55的图像，使用一个33的filter进行卷积，得到一个3*3的Feature Map为例： CNN 以步幅(stride)

2017-08-15

Deep Learning

#Deep Learning