在滇池边学习插花

Posted on 2024-03-232024-03-23 by chiccs

Even a statistical language model can “prompt” (i)

写下就是玩，少一些阴暗的心态，可以让自己的生活充满更多乐趣，多活几年。否则坐议立谈，无所不能，好似蔡澜叹名菜——可人家是才子兼美食家蔡澜，我们只是“卑鄙病态的、荒淫空虚的家伙”（《论历史上的英雄、英雄崇拜和英雄业绩》，托马斯·卡莱尔）。

考虑一个简单的，统计的语言模型，比如 KenLM 所用的 backoff-smoothed LM：

（我打工的时候非常喜欢用 KenLM，唯一问题是生成的模型大小惊人，有一次我在一个腾讯云的节点上部署了一个 40G 大小的 KenLM 模型，每次启动节点至少要花两分多钟。其实有一些技术可以压缩它的文件体积）

给定一段文字，使用这样的模型生成文字，同样是枚举词汇表，计算出生成概率最大的 token 然后输出。

这个简陋的生成模型当然无法与神经语言模型抗衡，即使稍加改造，写成一个概率图也是如此。因为它只使用显式的计数和顺序信息。现在思考什么情况下这样的模型还能取得合理的性能？这变成一个文学问题：什么样的文体适合这样的书写方式？直白的、语句短小的、祈使的和时态一致的文本。

河池

Posted on 2023-09-302023-09-30 by chiccs

“blue ranker” (h-rm1).

1. 语言学的“最优”

词语之间总可以找到一个意义的断层将它们一分为二，这是语言的本事和缺点。如果这断层没有经过事实验证而不断地阐发，它将使人陷入精神分裂。数学不能完整地描述世界：有一种思维是将世界看作多个维度或者特征的组合，面对错误我们坚信是因为存在未知的维度或特征。于是优化成为在一个意念的闭包里面调整和探索的行为。在此以外的不可描述的部分却落在语言中。

2. 小主意

$q\in Q$ , $d\in D$

randomly pick a word $v \in Vocab$

find a mapping $f$

output $f(v,Q,D,Vocab)$

3. “blue ranker”

语言使探索自由，自由使语言自由

4. “blue evaluation”

every ranking is a good ranking.

5. even a statistical language model can “prompt”

old math.

6. 忠告

和死神一起嘲笑/不会做饭的/小懒猪

7. reference (it has nothing to do with this post)

Learning Colour Representations of Search Queries (Maheshwari et al., SIGIR 2020)

语言模型的偏移

Posted on 2018-06-042018-07-27 by chiccs

为了描述文档中词的分布，之前的研究者提出了很多的语言模型（比如 N-gram）。

一方面来说，这些模型只是近似地描述了一类分布，所以通过求解这类模型得到的分布只能说是基于对应的语言模型假设下最佳的结果。

另一方面，实践中经常会遇到这类情况，我们选定了一个语言模型来描述特定的文档集合的词的分布。但是有时候，工程人员并不完全依照这些模型的经典形式，而是喜欢在模型里面加入一些微扰项作为某种“分布在当前数据集上的偏移”，以便取得更好的结果。这种现象反映了语言模型作为信息检索的核心的某些深层次问题。