终其一生,我们只不过在寻找自己

0%

CS224n-1 初步探索,背景介绍

NLP持续升温,作为入门课程,224n声名远扬。
听了10节课之后,果然感觉不愧是斯坦福。
这门课逻辑很清晰(遇到什么问题,产生什么思路,做了什么探索模型,怎么解决问题),而不是直接的扔出来一个模型,之前遇到很多老师这样,让人摸不到头脑;这门课会讲如何做一个研究以及如何写一篇paper。这些虽然不是NLP必备,是一些普世的知识,但是课堂上不讲,学生也很难完全了解到,基本上都、是自己摸索。

总的来说,觉得相见恨晚,虽然有点难,但是学的很舒服!现在开始整理每节课的笔记。


Lecture 1: Introduction and Word Vectors 第一节课主要是介绍背景

The course (10 mins)

定义

自然语言处理(NLP)是计算科学、AI、语言学的交叉学科,其目的是为了让机器能够处理或者是“理解”自然语言,比如可以通过说话让机器为我们定会议、买东西。机器完全理解是不大可能的,完全理解基本等同于AI完全实现了。

如何表示词义?

  • Def:meaning:就是人写的,说的,短语句子符号来表达的想法

    如何用计算机表达词义?

    WordNet:

    WordNet是人为的收录了近义词和相似词。
    存在的问题是:没办法统计到细微差别;没有新词;需要人为的统计输入;不能计算相似度;依赖生成词库的主观。

把词当做离散变量one-hot

存在的问题是:词库长度太大;不能计算相似度;

通过上下文表示


通过上下文的思路,可以引出主流方法Word vectors(word embeddings or word representations)。
每一个词对应一个N维度的向量,N一般几百维。

Word2vec

从2013年开始有了Word2vec,如何生成向量的方法逐渐出现。

思路:

  • 有一个大的语料库
  • 每个词都表示成向量
  • 遍历每个词,中间的词当做c,周围的几个当做o
  • 通过计算每个词向量和周围词向量出现的概率
  • 调整词向量,让概率最大

目标函数:

理解:这里就是对于语料(Data)的每个词t,对应前后j位置的词,是词a和词b的概率P,都乘起来。(这里还是很有统计色彩的)


注意:这里需要维护两套向量,一套是中间的,一套是周围的。

其他的都是一些微积分和优化的知识,不做记录了。

-------------    你的留言  是我更新的动力😊    -------------