终其一生,我们只不过在寻找自己

0%

本次是MSBD5002的第二次作业,作业要求用MLP实现二分类和多分类的任务。多分类其实是对于图片分类,所以我也照着MNIST的CNNdemo改了个CNN的模型,CNN效果会好一点。但是由于数据集本身的原因,准确率没能上90%。

阅读全文 »

上一次写神经网络应该还是大三的时候学TensorFlow,当时学了也没怎么用,最近作业需要pytorch,刚好整理一下pytorch的入门第一讲。
pytorch和numpy在很多地方相似,使用简单,最近使用量有超过TF的势头。
这一节通过对于一个简单的numpy网络,一步一步改进使用pytorch的高级接口。

阅读全文 »

最近学的开始有意思了。题也没那么好做了。
MSBD5004 Mathematical Methods for Data Analysis Homework 3

Q1

Solution: All use the standard inner product$\left\langle A,B\right \rangle =\sum_{1\le j\le n}\sum_{1\le i\le n}a_{i,j}b_{i,j}$.

阅读全文 »

这节主要是介绍project的要求,也重新提到了LSTM,GRU,还有一些trick. 比较杂。

project选择问题

  • 默认的Task: Building a textual question answering system for SQuAD
    • Stanford Question Answering Dataset
    https://rajpurkar.github.io/SQuAD-explorer/
    这个任务相当于在做英语阅读题,输入一段话和一个问题,输出是否有答案,答案是哪个单词。
  • Custom Final Project: 大佬自己去研究吧
阅读全文 »

这篇文章是帮DataFunTalk社区整理的讲稿,也就是把展示的内容写成文字,挺费时间的,还好是比较感兴趣的话题。最后也学到了一些模型迭代的思路。
这个分享对我启发最大的是召回源完全可以当做特征加到排序里啊!!!我之前实习的时候,只想的是通过模型改变召回源的数量,从而控制下发的比例,真的太傻了5555

阅读全文 »

这一节:机器翻译,seq2seq(翻译的本质),attention(提升seq2seq)


统计机器翻译

1990s-2010s: Statistical Machine Translation
统计翻译是传统方法,可以大概了解一下背景。
task:输入语言x的语句,输出语言y的语句。
需要得到一个y,让概率最大化:

阅读全文 »

这一节因为RNN梯度消失引入了LSTM,GRU。LSTM和GRU的构造思想都是在RNN的主线内,并行一条线,传递其他信息。解决梯度问题,也可以在cell外加一条线,比如双向RNN,多层RNN。


RNN的梯度消失与爆炸:
原因:由于Wh的权值共享,当Wh的最大特征值大于大于小于1 就会造成$W_h^n$的指数,所以造成梯度消失或者爆炸

阅读全文 »

为什么先写P6呢,因为P4是反向传播,公式太多,P5是语法分析,枯燥乏味。为了防止没有更新下去的动力,先来写P6。接下来的三讲P6-P8都是由助教Abby讲的,逻辑超级清楚,一步一步循序渐进。爱了爱了。B站链接
P6 语言模型->RNN模型的进化,P7 LSTM,P8 Attention
附图
附上Abby靓照

阅读全文 »