1.取一个训练好的神经网络,如AlexNet、VGGNet,其具有一定的旋转、平移、色彩等不变性,即已具备一定抽象和泛化能力
2.使用其某一层的特征激活量对所有未标签的数据进行聚类:在预训练好的某层之上接层级稀疏自编码器。最后一层仍接分类器。
3.在未来,若一个数据标注好了,则使用其对2得到的网络进行有监督微调一次;若未标注好,则仍按稀疏自编码器对网络进行微调一次。由于该数据按真实世界分布采集,这样相当于做batch为1的随机梯度下降,或者将得到的数据进行囤积,得到一个batch后再无监督/有监督微调。
这样做是为了综合利用大量不带标签的数据分布信息(流形结构)和少量带标签的样本学到的恒常性。
利用了大量无标签数据在抽象特征空间中的分布去预测未知样本的标签,使得one-shot learning成为可能。同时使得有监督训练使用的特征更接近于真实的统计特征而不仅仅是带标签样本的分类特征,使得其更接近生成模型而不是判别模型,避免过度泛化。
2.使用其某一层的特征激活量对所有未标签的数据进行聚类:在预训练好的某层之上接层级稀疏自编码器。最后一层仍接分类器。
3.在未来,若一个数据标注好了,则使用其对2得到的网络进行有监督微调一次;若未标注好,则仍按稀疏自编码器对网络进行微调一次。由于该数据按真实世界分布采集,这样相当于做batch为1的随机梯度下降,或者将得到的数据进行囤积,得到一个batch后再无监督/有监督微调。
这样做是为了综合利用大量不带标签的数据分布信息(流形结构)和少量带标签的样本学到的恒常性。
利用了大量无标签数据在抽象特征空间中的分布去预测未知样本的标签,使得one-shot learning成为可能。同时使得有监督训练使用的特征更接近于真实的统计特征而不仅仅是带标签样本的分类特征,使得其更接近生成模型而不是判别模型,避免过度泛化。