3.1

[1] 表示layer (1)表示训练样本

(4,3):4 表示输出维度 3 输入feature

m samples:

竖向的是特征横向是不同样本：

向量化表示：

激活函数

hidden layer 用tanh() 更好，因为均值为0，在hidden layer可能需要平移数据让数据均值为0

output layer 希望是 sigmoid()函数，因为希望在0-1而不是-1-1之间

问题： 1.尾部梯度过小→ReLU函数（在0处可以赋值0或1）除了output layer 其他选ReLU更好用ReLU比用tanh或sigmoid函数训练更快，因为没有接近0处的梯度过小的问题

激活函数导数

$n^{[0]}$ 特征数 $n^{[1]}$ 个隐藏单元 $n^{[2]}$ 个输出单元,有m个样本 keepdims=true确保输出是一个矩阵（如（n,1)而不是（n,))

注意乘号是elementwise product