add language model #60

zhaopu7 · 2017-06-01T06:20:27Z

need some one to review whether my code is right.

lcy-seso · 2017-06-02T08:45:42Z

提交PR时，应该没有使用pre-commit工具，代码没有做格式化，travis-CI 检查识别，请使用 pre-commit工具格式化一下这些脚本，再push一次吧。可以参考此链接：https://github.com/PaddlePaddle/Paddle/blob/develop/doc/howto/dev/contribute_to_paddle_cn.md#使用-pre-commit-钩子。

lcy-seso

请修改代码。

lcy-seso · 2017-06-08T09:19:12Z

language_model/lm_ngram.py

+        name="fourthw", type=paddle.data_type.integer_value(vocab_size))
+
+    # embedding layer
+    Efirst = wordemb(firstword)


table_projection 不能独立存在，只能作为 mixed_layer 的输入，line 44 ~47 没问题吗？

这里的写法有问题，请直接参考这里的写法：https://github.com/PaddlePaddle/models/blob/develop/text_classification/text_classification_cnn.py#L26

lcy-seso · 2017-06-08T09:20:03Z

language_model/lm_ngram.py

+    Esecond = wordemb(secondword)
+    Ethird = wordemb(thirdword)
+    Efourth = wordemb(fourthword)
+


line 44 ~ 47:
Efirst --> firse_emb
其余变量类型，保持统一的命名风格。

lcy-seso · 2017-06-08T09:20:24Z

language_model/lm_ngram.py

+    Ethird = wordemb(thirdword)
+    Efourth = wordemb(fourthword)
+
+    contextemb = paddle.layer.concat(input=[Efirst, Esecond, Ethird, Efourth])


contextemb --> context_emb

lcy-seso · 2017-06-08T09:21:07Z

language_model/lm_ngram.py

+
+    # hidden layer
+    hidden = paddle.layer.fc(
+        input=contextemb, size=hidden_size, act=paddle.activation.Relu())


为什么直接选择了 Relu 作为激活？

lcy-seso · 2017-06-08T09:22:27Z

language_model/lm_ngram.py

+            input=hidden, size=hidden_size, act=paddle.activation.Relu())
+
+    # fc and output layer
+    predictword = paddle.layer.fc(


predictword --> predict_word

lcy-seso · 2017-06-08T10:55:29Z

language_model/lm_rnn.py

+    # generate
+    texts = {}  # type: {text : prob}
+    texts[input] = 1
+    for _ in range(num_words):


文本生成遇到 <EOS> 要终止。

lcy-seso · 2017-06-08T10:56:54Z

language_model/lm_rnn.py

+        output_layer=output, parameters=parameters)
+
+    # generate text
+    while True:


改成指定输入文件路径，输出到另一个文件。

lcy-seso · 2017-06-08T10:57:17Z

language_model/lm_rnn.py

+    train()
+
+    # -- predict --
+    predict()


请把训练和预测放在不同的文件中。

lcy-seso · 2017-06-08T11:01:39Z

language_model/lm_rnn.py

+    if rnn_type == 'lstm':
+        rnn_cell = paddle.networks.simple_lstm(input=emb, size=hidden_size)
+        for _ in range(num_layer - 1):
+            rnn_cell = paddle.networks.simple_lstm(


激活请显示的指定一下。不要省略。

lcy-seso · 2017-06-08T11:09:28Z

language_model/lm_ngram.py

+    """
+
+    assert emb_dim > 0 and hidden_size > 0 and vocab_size > 0 and num_layer > 0
+


变量命名方式请参考 http://zh-google-styleguide.readthedocs.io/en/latest/google-python-styleguide/python_style_rules/#id16

lcy-seso

文档的格式化很差。请注意文档的格式规范。

lcy-seso · 2017-06-08T11:11:42Z

language_model/README.md

+## 简介
+语言模型即 Language Model，简称LM，它是一个概率分布模型，简单来说，就是用来计算一个句子的概率的模型。给定句子（词语序列）：
+
+<div align=center><img src='images/s.png'/></div>


图片的标记不对，请参考 https://github.com/PaddlePaddle/book/wiki/Github-Markdown%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98

请直接书写 Latex 公式，公式不要用图片。

lcy-seso · 2017-06-08T11:12:29Z

language_model/README.md

+
+它的概率可以表示为：
+
+<div align=center><img src='images/ps.png'/> &nbsp;&nbsp;&nbsp;&nbsp;(式1)</div>


请写Latex公式不要用图片。

lcy-seso · 2017-06-08T11:12:53Z

language_model/README.md

+
+<div align=center><img src='images/ps.png'/> &nbsp;&nbsp;&nbsp;&nbsp;(式1)</div>
+
+语言模型可以计算（式1）中的P(S)及其中间结果。**利用它可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。**


变量请用latex公式。

lcy-seso · 2017-06-08T11:13:21Z

language_model/README.md

+## 关于本例
+Language Model 常见的实现方式有 N-Gram、RNN、seq2seq。本例中实现了基于N-Gram、RNN的语言模型。**本例的文件结构如下**：
+
+* data_util.py：实现了对语料的读取以及词典的建立、保存和加载。


data_util.py --> data_util

lcy-seso · 2017-06-08T11:13:56Z

language_model/README.md

+* lm_rnn.py：实现了基于rnn的语言模型的定义、训练以及做预测。
+* lm_ngram.py：实现了基于n-gram的语言模型的定义、训练以及做预测。
+
+***注：**一般情况下基于N-Gram的语言模型不如基于RNN的语言模型效果好，所以实际使用时建议使用基于RNN的语言模型，本例中也将着重介绍基于RNN的模型，简略介绍基于N-Gram的模型。*


N-Gram 的 N 请使用 Latex 公式表示。$N$-Gram

$N$-Gram 请引导至PaddleBook。

lcy-seso · 2017-06-08T11:19:00Z

language_model/README.md

+
+* 2，初始化模型：包括模型的结构、参数、优化器（demo中使用的是Adam）以及训练器trainer。如下：
+
+	```python


缩进太乱。

lcy-seso · 2017-06-08T11:19:15Z

language_model/README.md

+        cost=cost, parameters=parameters, update_equation=adam_optimizer)
+	```
+
+* 3，定义回调函数event_handler来跟踪训练过程中loss的变化，并在每轮时结束保存模型的参数：


使用文本块

缩进太乱

lcy-seso · 2017-06-08T11:19:39Z

language_model/README.md

+* 编码格式：utf-8，本例中已经对中文做了适配。
+* 内容格式：每个句子占一行；每行中的各词之间使用一个空格分开。
+* 按需要配置lm\_rnn.py中\_\_main\_\_函数中对于data的配置：
+


缩进太乱。

lcy-seso · 2017-06-08T11:20:30Z

language_model/README.md

+## n-gram 语言模型
+
+n-gram模型也称为n-1阶马尔科夫模型，它有一个有限历史假设：当前词的出现概率仅仅与前面n-1个词相关。因此 (式1) 可以近似为：
+<div align=center><img src='images/ps2.png'/></div>


图片引用标记参考https://github.com/PaddlePaddle/book/wiki/Github-Markdown%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98

lcy-seso · 2017-06-08T11:20:55Z

language_model/README.md

+parameters = paddle.parameters.Parameters.from_tar(gzip.open(model_file_name))  # load parameters
+	```
+
+* 2，根据4（n-1）个词的上文预测下一个单词并打印：


请注意代码块缩进，太乱了。

lcy-seso

LGTM

lcy-seso · 2017-06-14T05:15:38Z

language_model/README.md

+# 语言模型
+
+## 简介
+语言模型即 Language Model，简称LM，它是一个概率分布模型，简单来说，就是用来计算一个句子的概率的模型。**利用它可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。**它是自然语言处理领域的一个重要的基础模型。


这个加粗的标记显示有问题，请修改一下。

zhaopu7 added 18 commits June 1, 2017 13:22

Add files via upload

798a826

Create ptb

4162860

Create ptb

5a26287

Delete ptb

73ae448

Delete ptb

e474e5b

Create 1

4ddd2c8

Add files via upload

2ec086d

Add files via upload

415d29d

Delete data_util.py

485e88b

Add files via upload

e17bca2

Delete 1

b0d82a7

Add files via upload

5fea977

Add files via upload

4eb5346

Delete generate_text.py

8a61d32

Create 1.txt

da90786

Add files via upload

5c1e13d

Add files via upload

6a682ee

Delete 1.txt

23524df

zhaopu7 changed the title ~~add language model code and PTB data~~ add language model Jun 2, 2017

zhaopu7 added 9 commits June 7, 2017 11:56

rename img dir to images

c2af8ec

no message

f78aaad

test

2fe93f6

no message

7541eea

update read

e03ca20

update readme

221d2f8

code formate

2f3f35a

code formate

4c0d936

format README

f495dda

lcy-seso requested changes Jun 8, 2017

View reviewed changes

zhaopu7 added 4 commits June 13, 2017 23:14

rebuid code

bf0cfe3

update readme

aa7cd75

delete old file

13a5f25

update readme

78b8055

lcy-seso approved these changes Jun 14, 2017

View reviewed changes

lcy-seso merged commit be4ad5f into PaddlePaddle:develop Jun 14, 2017

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add language model #60

add language model #60

zhaopu7 commented Jun 1, 2017 •

edited

Loading

lcy-seso commented Jun 2, 2017 •

edited

Loading

lcy-seso left a comment

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso left a comment

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso Jun 8, 2017

lcy-seso left a comment

lcy-seso Jun 14, 2017

		"""

		assert emb_dim > 0 and hidden_size > 0 and vocab_size > 0 and num_layer > 0


		它的概率可以表示为：

		<div align=center><img src='images/ps.png'/>     (式1)</div>


		<div align=center><img src='images/ps.png'/>     (式1)</div>

		语言模型可以计算（式1）中的P(S)及其中间结果。利用它可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。


		* 2，初始化模型：包括模型的结构、参数、优化器（demo中使用的是Adam）以及训练器trainer。如下：

		```python

add language model #60

add language model #60

Conversation

zhaopu7 commented Jun 1, 2017 • edited Loading

lcy-seso commented Jun 2, 2017 • edited Loading

lcy-seso left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

lcy-seso left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

lcy-seso left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

zhaopu7 commented Jun 1, 2017 •

edited

Loading

lcy-seso commented Jun 2, 2017 •

edited

Loading