[求助]有从事深度学习方面工作的老哥吗,小弟想请教两个问题

FusionnV2-avatar

FusionnV2

2020-04-29T03:14:09+00:00

本科毕设要求用DBN预测时间序列,样本数据自己捏了一个数据集,六个维度长度690
输入层前十个时刻的数据串行输入,输出层输出下一时刻的一组数据,也就是单步预测

最开始只加了一层隐含层,网络结构60-100-6,学习率=0.5%,冲量=0.01,batchsize=30,激活函数sigmoid,输出层linear,预训练10次,微调1000次,训练完看了看结果还不错
[img]https://img.nga.178.com/attachments/mon_202004/29/-7Q5-dwk1K13T1kSfk-bo.jpg[/img]
输出的误差大概在万分之五左右

于是又加了一层隐含层,网络结构60-100-50-6,其他东西不变,最后收敛到一个很奇怪的值
[img]https://img.nga.178.com/attachments/mon_202004/29/-7Q5-l3orK14T1kSfk-bo.jpg[/img]

如果调大冲量的话,直接发散到NaN

所以有哪位老哥指点一下的吗[s:ac:愁][s:ac:愁] csdn里基本上都是图片识别加分类任务,看了看没有太大的帮助
FatMansss-avatar

FatMansss

学习率调小点?
FusionnV2-avatar

FusionnV2

[quote][pid=417582972,21522319,1]Reply[/pid] Post by [uid=41573545]吴越W[/uid] (2020-04-29 11:21):

学习率调小点?[/quote]学习率从0.001%到10%都试了一遍,太小的话直接就发散到nan了,大点就是震荡

不知道怎么回事
bedtimee-avatar

bedtimee

盲猜你是多加一层的时候
输出层多套用了一个sigmoid

然后梯度返回的的时候就不变了
所以训练会原地踏步
LightningHawke-avatar

LightningHawke

网络结构图可以发一下
FusionnV2-avatar

FusionnV2

Reply to [pid=417585106,21522319,1]Reply[/pid] Post by [uid=60038942]德尔瓜[/uid] (2020-04-29 11:27)
这部分是这么写的 从github上抄的 ,n是网络层数,感觉应该没问题啊
[img]https://img.nga.178.com/attachments/mon_202004/29/-7Q5-eigiK1lT1kSfd-ki.jpg[/img]