价格理论 | 拾柒读库

一篇关于价格策略的完整论述，包括经典经济学中关于价格变化的内容，行为经济学中价格的作用，营销学中的一般定价策略以及更进一步的，从游戏化（强化学习逆向过程）角度看价格。

其中的游戏化部分和耐用品价格部分都是笔者自己的研究成果。

基础价格理论

经济学的价格理论

拉姆齐定价模型

在经济学中，主要通过需求弹性来定价：

假定价格和需求之间的关系：$Q(P)$，成本为：$C(Q)$，最大利润 $\pi = Q(P) \cdot P -C(Q)$ ，最大利润的价格满足：

$$ \frac{\partial \pi}{\partial P} = \frac{dQ}{dP}(P-C’(Q)) + Q = 0 $$

定义需求弹性为：$\varepsilon_d = -(P/Q)(\Delta Q/\Delta P)$，边际成本 $MC = C’(Q)$，于是得到最大化利润的价格公式为：

$$ P = \frac{MC}{1-(1/\varepsilon_d)} $$

这个结论蕴含了两个假设：

需求弹性与价格无关；
需求曲线是不变的；

这两条假设很多情况下并不成立，例如假若一个商品是吉芬商品、footnote{吉芬商品随价格提升，需求也会变大}，于是 $\varepsilon_d<0$，按照公式来说，价格应当低于成本 $MC$，但这显然是错误的。错误的原因即：达到价格最优的点与当前决策时价格的需求弹性不同。

吉芬商品

关于吉芬商品，传统的微观经济学试图给出了一种解释：由于收入效应（负）大于替代效应，导致需求曲线向上倾斜。

直观的解释如下：一个人的收入有限，他生活中主食是土豆，如果有更充裕的资金，就会少买一些土豆，多买一些面包。当土豆涨价时，其原本买面包的支出变少了，买不了足够多的面包，而为了吃饱，就必须买更多的土豆。从而形成了土豆涨价却增加了需求的现象。

更准确的说，上述公式本质上不是一个定价公式，而是一个对是否达到最优的验证公式，同时可以通过一些观察得到部分决策，例如：当 $\varepsilon_d \leqslant 1$ 时，认为企业应当减少生产以增加需求弹性。

多产品垄断定价

现在考察对所制造的多个产品都具有垄断力的多产品企业的情况。它生产商品 $i=1,…,n$，要价 $p=(p_1,…,p_n)$，且出售数量 $q=(q_1,…,q_n)$，其中 $q_i=D_i(p)$ 是对商品 $i$ 的需求。生产产品向量的成本是 $C(q_1,…,q_n)$。

多种产品垄断者最大化利润是：

$$ \sum^n_{i=1}p_iD_i(p) - C(D_1(p),…,D_n(p)) $$

故最大化的定价应当满足：

$$ (D_i+p_i\frac{\partial D_i}{\partial p_i}) + \sum_{j \neq i}p_j\frac{\partial D_j}{\partial p_i} = \sum_j\frac{C}{q_j}\frac{D_j}{p_i} $$

假设总成本可以分成 $n$ 个成本：

$$ C(q_1,…,q_n) = \sum^n_{i=1}C_i(q_i) $$

经过一些代数运算，可以得到：

$$ \frac{p_i-C_i’}{p_i} = \frac{1}{\varepsilon_{ii}} - \sum_{j \neq i} \frac{(p_j-C_j’)D_j\varepsilon_{ij}}{R_i\varepsilon_{ii}} $$

式中， $\varepsilon_{ii} = -(\partial D_i/\partial p_i)(p_i/D_i)$ 是自身的需求弹性（我们将假设它是正的）； $\varepsilon_{ij} = -(\partial D_j/\partial p_i)(p_i/D_j)$ 是商品 $j$ 的需求对商品 $i$ 的价格的交叉弹性。 $R_i=p_iD_i$ 是商品 $i$ 的收入。

首先，考察作为替代品的商品的情况，即对所有的不同于 $i$ 的 $j$，$\partial D_j/\partial p_i >0$ 或者 $\varepsilon_{ij}<0$。在这种情况中，对每种商品 $i$ 的勒纳指数超过了自身需求弹性的倒数。这可以简单解释为：商品 $i$ 的价格提高使商品 $j$ 的需求上升。所以如果企业由 $n$ 个分部构成，每个分部生产和经营它自己的商品，并使它自己的利润 $(R_i-C_i)$ 最大化，从整个企业的观点看，每个分部定了太低的价格。这些分部实际上是互相竞争者，因为它们的商品之间具有替代性。因此，必须要给予它们提高其自己商品的激励（排除它们之间的外部性）。

其次，对于互补品（对所有不同于 $i$ 的 $j$，$\partial D_j/\partial p_i <0$），每种商品的自身需求弹性的倒数超过了勒纳指数。这很容易理解：商品 $i$ 的价格下降增加了商品 $j$ 的需求。随着互补品产生的一个有趣现象是，一种或几种商品会以低于边际成本的价格出售（其勒纳指数可能是负的），以便充分地提高其他商品的需求。

价格歧视

通过向不同的顾客索取不同的价格，以实现攫取更多的消费者剩余的行为，被称为 价格歧视（price discrimination）。通常来说，价格歧视总可以无损的获得更大的收益，极端情况下，通过歧视性价格最多可以获得边际成本 $MC$ 之上的全部消费者剩余。

价格歧视的三种形式

微观经济学中认为价格歧视有三种广义的形式：

一级价格歧视，向每个顾客都索取其保留价格的行为；
二级价格歧视，对同一商品或服务的不同购买量索取不同价格的行为；
三级价格歧视，根据不同的需求曲线将消费者分成两个或更多个群体并对每个群体索取不同价格的行为。

以三级价格歧视为例分析歧视性价格的定价，核心理论如上一节所述，根据人群的不同的需求弹性进行差异化定价。具有较低需求弹性的消费者将被索取较高的价格。其中需要注意的一点是各组中的真实需求，应当使各组的边际收益都相等，且等同于边际成本。

跨期歧视

另外两种紧密相关的跨期歧视也是很重要且被广泛运用：

跨期价格歧视 利用不同的需求函数把消费者分为不同组别，通过在不同时点对消费者索取不同的价格的行为；
高峰负荷定价 当负荷能力限制造成边际成本很高时，在高峰时期索取更高的价格的行为。

其中高峰负荷定价和三级价格歧视又有些不同，三级价格歧视中，向不同组提供服务的成本并不是独立的。但高峰负荷定价中，各组的边际成本是完全独立的。所以高峰负荷定价完全可以看做两个产品分别定价，跟价格歧视关系并没有特别大。

两部收费制（二级歧视的一般形式）

两部收费制（two-part tariff）与价格歧视相关，提供了剥削消费剩余的另一种方法。它要求消费者同时支付入场费和使用费。

其中，二次定价的使用费用 $P$ 是高于边际成本的定价，而入门费 $T$ 则用于攫取消费者的剩余价值。如果消费者需求较接近，可以收取较大的 $T$ 获得更多的剩余价值；如果消费者的需求不同，则需要用较低的入门费 $T$ 吸引更多的人选择你，再通过较高的 $P$ 获得更大的收益。

案例

大多数电话服务采用两部收费制定价，包括一些免费通话时长，加上费用按每分钟来计算的额外通话时间。两部收费制为移动运营商提供了用以攫取消费者剩余并将其转化为利润的理想方法。

捆绑销售

捆绑销售 把两件或多件商品捆绑在一起销售的行为。

这里不讨论垄断下强买强卖的问题。通常情况下，为何捆绑销售是有意义的呢？而捆绑销售为何又跟价格歧视有关呢？

首先，捆绑销售的商品需要是负相关的，即愿意为 A 付高价的人对 B 的付费意愿是较低的，反之亦然。这样，捆绑可以将用户对于不同产品间完全不同的溢价拼成一个统一的价格。

例如如果是两个具有替代性商品，用户买了 A 就会对拥有 B 的意愿大大下降，那么两个捆绑销售，就可以将两个商品的消费者剩余都极大的攫取出来。

如果厂商同时分开出售产品，并且又提供其中产品的组合进行捆绑销售，这种情况称为 混合捆绑销售。这种策略也是我们平时更常见的一种情况，这种情况相比于单独销售策略，主要拓展的是对两种商品的需求都较高，但有对每一个的单独售价不满意的消费者。

所以针对混合捆绑销售，一般将原本组合需求就较强的商品组合捆绑，并对其中每一个单品定相对而言更高的价格，即可获得更多的消费者，从而带来更大的利润。需要注意的是，本质上来说，混合捆绑销售并不完全是价格歧视攫取消费者剩余的策略，而是变相的降价获得市场的策略。所以混合捆绑销售很多时候是具有更大的社会福利的。

套利

对于上述各种价格歧视策略，都存在套利的可能性，从而使得差异化定价在现实生活中实现的难度较大。

例如实名制之前的火车票，同样面临两类不同的消费者：一种是临时出行急需车票的，一种是提前规划购买的。哪怕针对这两种需求采用了三级价格歧视，因为黄牛的存在，依然可以通过倒买倒卖进行套利，使得我们只能降低临时需求票价，使得在能充分满足需求的情况下，临时需求票价不高于不同票价。
捆绑销售中，存在黄牛购买捆绑销售的两个产品，再分别以较低价格单独卖出，最终市场价格会被套利行为压缩到分别销售的价格上（或者混合捆绑销售中，组合的价格会同分别单独购买的价格相同）。
发放优惠券的情况，黄牛会用极低的价格购买优惠券，在将优惠券较低的价格卖给正常会购买的用户，降低了企业原本的利润空间，达不到攫取消费者剩余的作用。
二部收费中，已经交付了入门费的黄牛通过倒买倒卖使用权套利，从而使得企业攫取的消费者剩余（入门费）为零。

所以根据具体的价格歧视策略，制定好防止套利的手段是非常重要的。

广告的简单法则

类似于第一节的定价法则，广告销售比也有一个很基本的定价公式：

$$ A/(PQ) = (\varepsilon_a/\varepsilon_d) $$

其中，$A$ 是广告的支出，$\varepsilon_a$ 是广告的需求弹性，即广告支出增加 $1%$ 导致需求量变动的百分比。

这个简单法则具有很直观的意义。它说明当需求对广告非常敏感（$\varepsilon_a$ 很大）时，或需求缺乏价格弹性（$\varepsilon_d$ 很小）时，厂商应该大做广告。

其中需要注意的是，广告常会影响需求的价格弹性。对某些产品，广告能够通过吸引很大范围的顾客而拓展市场，或创造出一种潮流效应。这大概会使得需求比本来更富有价格弹性。（但 $\varepsilon_a$ 应该会更大，所以广告仍然是值得的。）有时广告被用来将一种产品区别于其他产品（通过创造一种想象、诱惑或品牌标示），从而它的需求会比本来价格弹性要低。

所以合理的 品牌广告 和 效果广告 的定义就出现了：根据广告带来的价格弹性的变化来区分——价格弹性不变或变大的为效果广告；价格弹性变小的为品牌广告。

换个说法，品牌广告是可以使商家对产品涨价以获得最大利润的广告形式。

耐用品和消耗品

微观经济学中，是以短期弹性和长期弹性来区分耐用品和消耗品的。

一般来说短期和长期是按一年做界定的。在长期，消费者和生产者有足够的时间来充分调整以适应价格的变动。对于许多商品来说，长期需求远比短期需求更富有价格弹性，原因之一就是人们需要较长的时间才能改变他们的消费习惯。例如，即使咖啡的价格迅速上涨，其需求量也只会随着人们慢慢减少咖啡的消费而逐渐下降。

但对于有一些商品来说，情况恰恰相反——短期需求的弹性要大于长期需求的弹性，这样的商品被称为 耐用品。

例如电冰箱的涨价，会使得消费者的短期需求快速下降。但如果电冰箱长时间不讲价，消费者最终还是需要购买电冰箱，于是长期需求下降幅度不如短期需求下降的幅度，电冰箱就是一个典型的耐用品。

科斯猜想 由于将来销售的耐用品将会影响到现在所售出的产品的未来价值，在垄断耐用品生产者没有对未来的产量水平做出承诺时，如果消费者具有价格下跌的理性预期，那么垄断价格就会迅速降到边际成本水平。

行为经济学

前景理论

前景理论是行为经济学中最核心的概念，其主要结论可以归结为如下五个现象：

“二鸟在林，不如一鸟在手”，在确定的收益和 “赌一把” 之间，多数人会选择确定的好处。所谓“见好就收，落袋为安。称之为 “确定效应”。
在确定的损失和 “赌一把” 之间，做一个抉择，多数人会选择“赌一把”。称之为 “反射效应”。
白捡的 100 元所带来的快乐，难以抵消丢失 100 元所带来的痛苦。称之为 “损失规避”。
很多人都买过彩票，称之为 “迷恋小概率事件”。
多数人对得失的判断往往根据参照点决定，举例来说，在 “其他人一年挣 6 万元你年收入 7 万元” 和“其他人年收入为 9 万元你一年收入 8 万”的选择题中，大部分人会选择前者。称之为 “参照依赖”。

总结下来，前景理论的几本结论：

大多数人在面临获利的时候是风险规避的；
大多数人在面临损失的时候是风险喜好的；
大多数人对得失的判断往往根据参考点决定

心帐理论

心帐理论（Mental accounting）的四个结论是关于如何合并（把多个经济活动整合成一个帐户）和单列（把一个或多个经济活动分解成多个帐户）心理帐户的。合并让人们在痛苦和损失时好受很多，单列使得人们在不增加真实经济好处的情况下更爽。

第一结论

如果有多个经济活动均涉及到收益 / 甜头 / 好处，尽可能的单列他们。

实验例子：老牛中了一个 75 块的足球彩票。老朱中了个 50 的足球彩票，和一个 25 块的福利彩票。他俩谁更爽？大部分人都说老朱爽。

解释：斯诶勒往心帐理论里加入了交易效用，即每个经济活动本身带来的效用（可正可负）。单列后的涉及盈利的多个经济活动提供了多个正的交易效用，中两次奖当然比中一次爽了。还记得前景理论吧，前景理论也可解释结论一：根据 S 曲线，因为收益的效用是边际递减的，所以 $U(A)+U(B) \geqslant U(A+B)$。

生活应用：没听说过谁把所有的圣诞礼物放一个盒子里的，大家是能包几个盒子就包几个。

商业应用：企业做广告，特别是面向家庭主妇的电视广告，那种让您限时拨打 800 电话，购物免费送东西的，一般都送您几件便宜货，而不是一件贵的东西。

第二结论

如果有多个经济活动均涉及到开支 / 损失 / 霉头 / 灾难，尽可能的合并他们。

实验例子：老牛某日倒车撞了保险杆，修理费用 1400 块；那天还超速吃了罚单，120 块；乱停车吃了罚单，40 块。老朱倒车撞了保险杆，修车费用 1600 块。他俩谁更不爽？这还用说吗？当然是老牛更不爽了。

解释：心帐理论还是用交易效用解释。单列后的经济活动提供了多个负的交易效用（倒多次霉当然比倒一次更不爽了）。前景理论也可解释。因为损失的效用也是边际递减的，所以 $U(-A)+U(-B) \leqslant U(-A-B)$。

生活应用：出了很多倒霉事千万不要跟领导 / 老婆一一汇报，报个总数就行了。领导 / 老婆嘛，掌握大方向管理大问题，小小细节就不要麻烦她了。

商业应用：您车上的 option（选件）就是这么卖给您的。有经验的汽车销售员常常报一个加了 option 的总价格，而不是单独强调某一个 option 的价格，让您觉得和 base model 一比，总开支没加多少。推广开来，当企业销售昂贵的东西的时候，尽可能的创造选件（options）并把它们卖给顾客（当鞋店里有人向你推销鞋油的时候，您买的那双鞋多半在 200 块以上），嘟嘟嘟嘟，顾客在心帐理论第二结论的重火力下纷纷倒下。

第三结论

如果有某个经济活动涉及到开支 / 损失，找个另外有收益的经济活动并且收益超过前述损失的，合并他们。

实验例子：老牛等老板发奖金，自己估计是 300 块。奖金到手，哦耶，果然是 300 块。但是一周后 HR 打电话说奖金发错了，要老牛退回 50 块。老朱也等老板发奖金，自己估计也是 300 块。但是一周后，奖金到手只有 250 块。他俩谁更不爽？大多数人认为这次还是老牛更不爽（又是老牛！）

解释：同第二结论。

生活应用：对领导 / 老婆报喜不报忧，那肯定是错误的（并有生命危险）；报喜也报忧，您能做得更好。在此提醒广大中老年男网友：好事喜事不要轻易报给领导。要攒起来等坏事出现的时候再一起合并上报。同时也提醒少数青少年朋友，坏事不要急于坦白给您的父母，等好事出现时一起合并再报。什么？找不到好事？你完了！

商业应用：从收入中扣除开支比直接让人承担开支更好受一些。这广泛应用于从月收入中扣除一部分来支付各种商业保险和分期付款（当然，分期付款还有另外的机制起作用，有时间细谈。）

第四结论

如果有某个经济活动涉及到大笔开支 / 损失，同时有某个经济活动减少了一点该损失，把该经济活动单列出来。第四结论又叫一线希望（silver lining）结论。

实验例子：老牛炒股某日损失了 4900 块。老朱炒股某日损失 5000 块。但是回家的路上他拣到了 100 块钱。他俩谁更不爽？怎么还是老牛？（原因：心帐理论没有掌握好。）

解释：参照前景理论的 S 曲线。

生活应用：要善于在逆境绝境完全损失中寻找闪光点，哪怕就是一点，也要给找出来。

商业应用：Mail-in Rebate。买大件，先付钱，回头再给您退点钱，高兴吧？（Rebate 的另外的机制是，最多一半的人真的去申请 rebate）。

营销定价策略

产品定价方法

公司的价格介于两种价格水平——太低以至于没有利润和太高以至于没有需求——之间。公司在这两种极端的价格水平之间制定价格，必须考虑一些其他的内外部因素，包括竞争者的战略和价格、公司整体的营销战略和营销组合、市场和需求的特点。

有三种主要的定价方法：以顾客价值为基础的定价、以成本为基础的定价和以竞争为基础的定价。

以顾客价值为基础的定价

基于顾客价值的定价（custormer value-based pricing） 运用顾客的价值感知作为定价的关键，这意味着市场营销者不可以先设计产品和市场营销方案，然后再制定价格。在制定市场营销方案之前，营销者就应该全面考虑营销组合变量，包括价格。

我们现在考察两种基于价值的定价方法：高价值定价和价值增值定价。

高价值定价（good-value pricing） 战略——以公平的价格提供优质产品和服务的恰当组合。
价值增值定价（value-added pricing） 战略——不以适应竞争而降低价格，而是通过增添提高价值的属性和服务，使产品或服务差异化，今儿未出高于平均水平的价格。

以成本为基础的定价

顾客价值感知确定价格上限，成本则设定了公司定价的最低底线。基于成本的定价（cost-based pricing） 指在生产、分销和销售产品的成本基础上，加上目标回报率来制定价格。成本是公司定价战略中的重要因素。

成本为基础的定价在一般的经济学理论中已经分析的比较透彻。

以竞争为基础的定价

基于竞争的定价（competition-based pricing） 涉及根据竞争者的战略、成本、价格，以及产品和服务制定价格。消费者往往根据竞争性产品的价格来判断一种产品的价值。

在评价竞争者的定价策略时，公司应该考虑以下几个问题。首先，公司与竞争者相比，谁的产品或服务提供更多的顾客价值？如果消费者对公司的产品或服务有更高的感知价值，公司就可以收取更高的价格。如果消费者感到竞争者的产品或服务价值更高，公司就只能收取较低的价格，或者改变消费者的感知价值，使其相信高价的合理性。

其次，公司目前面临的竞争者有多强？它们的定价战略是什么？如果市场中的竞争者定价高于递送的价值且规模较小的话，公司可能以低价将较弱的竞争者逐出市场。如果市场有规模较大的低价竞争者，公司可能会瞄准尚未满足的市场缝隙，以较高的价格提供价值增值的产品。

相对于竞争者制定价格决策的原则是什么？答案说说容易，实践起来往往很难：无论你收取什么价格——高、低或者适中——务必在这个价格水平上为顾客提供更多的价值。

影响价格决策的其他内外部因素

除了顾客感知价值、成本和竞争者的战略之外，公司制定价格决策时还必须考虑其他许多内外部因素。影响定价的内部因素包括：公司的整体市场营销战略、目标和营销组合，以及其他组织因素。外部因素包括：市场和需求的特点以及其他环境因素。

定价战略

新产品定价战略

定价战略常常随着产品生命周期的变化而变化。导入阶段尤其具有挑战性。公司退出新产品时面对首次定价挑战，可以采用一下定价战略：市场撇脂定价和市场渗透定价。

市场撇脂定价

许多公司将发明的新产品推向市场时，制定很高的初始价格，在市场上一层一层地“掠夺”收益。苹果公司经常运营这种成为市场撇脂定价（market-skimming pricing） 或 价格撇脂（price-skimming） 的战略。

只有在特定条件下，市场撇脂定价法才是可取的。首先，产品的质量和形象必须支持其高昂的定价，并且有足够的购买者愿意在高价位购买。其次，小批量生产的成本不会太高，以至于抵消高价带来的收益。最后，竞争对手不能轻易地进入市场和降低价格。

市场渗透定价

有些公司不采用在规模较小但利润率较高的细分市场中以高价格迅速获得厚利的撇脂定价方法，而是选择市场渗透定价（market-penetration pricing）。它们制定赢得较高的市场份额。高销售量可以降低成本，允许公司进一步降低价格。例如，三星运用渗透定价很快使其手机产品在快速增长的新兴市场获得成功。

这种低价战略要生效，必须符合一定条件。首先，市场必须对价格高度敏感，从而低价格会产生更大的销售量和市场份额。其次，产品的生产和分销成本必须随着销售量的增加而降低。最后，低价必须有助于排斥竞争者，而且采取渗透定价的公司必须保持其低价定位。否则，价格优势仅仅是暂时的。

产品组合定价战略

如果某产品是产品组合的一部分，其定价战略往往必须改变。在这种情况下，企业将寻求一组能够使产品组合整体利润最大化的价格。由于产品组合内各种产品之间存在相互关联的需求和成本，并且各自面对的竞争程度不同，所以定价难度很大。

产品线定价

公司常常会开发产品线，而非单一的产品。在 产品线定价（product line pricing） 中，管理者必须决定同一条产品线中不同产品的价格差距。

确定同一产品线中不同产品之间的价格差距，应该考虑不同产品之间的成本差异。更重要的是，应该反应顾客对不同产品属性的感知价值。必须建立可感知的质量差异，来支持价格的差别。

备选产品定价

许多公司在销售与主要产品配套的备选产品或附加产品时，运用备选产品定价（optional-product pricing）。公司必须决定哪些项目应该包括在基本价格之内，哪些作为备选产品。

附属产品定价

出售必须与主要产品一起使用的产品时，公司会运用附属产品定价法（captive-product pricing）。公司常常对其主要产品低利定价，但在耗材上设定较高的利润率。但是，运用附属产品定价法的公司必须慎重。在主要产品和附属产品的定价之间寻求恰当的平衡并非易事。更有甚者，被迫购买高附属产品的消费者可能会因此对它们心怀怨恨。

在服务行业，这种附属产品定价法称为二部定价（two-part pricing）。服务价格被分为固定费用和可变动使用费两部分。

副产品定价

产品和服务的生产常常会产生副产品。如果这些副产品没有价值，而且处理成本很高，就会影响到主要产品的定价。此时，公司运用副产品定价法（by-product pricing），为这些副产品找到一个市场，弥补储存和运输成本，从而使主要产品的价格更有竞争力。

一揽子定价

运用一揽子定价法（product bundle pricing），公司常常将集中产品组合在一起，以低于各项单品价格之和的价格出售。这种一揽子定价可以促进消费者购买一些原本不会购买的产品，但是组合的产品价格必须足够低，以吸引消费者购买。

价格调整战略

公司经常调整其基础价格，以适应各种顾客差异和不断变化的形式。

折扣与津贴定价

大多数公司调整其基础价格，以回报顾客的特定行为，例如较早地付清货款、大量购买和反季节购买等。这些价格调整称为折扣和津贴，有多种形式。

现金折扣（cash discount） 是一种主要的 折扣（discounts） 形式，是对及时付款的购买者的价格减让。典型的例子是“如果购买者在 10 天之内付清的话，可以得到 2% 的折扣”。 数量折扣（quantity discount） 是给予大批量购买者的价格减让。 功能折扣（functional discount） 又称为交易折扣，指由卖者提供给执行特定职能（例如促销、仓储、记录等）的渠道成员的价格折扣。 季节折扣（seasonal discount） 是对购买过季商品或服务的顾客提供的一种价格折让。

津贴（allowanc） 是另一种类型的价格减让。例如，以旧换新（trade-in allowances） 是对购买新产品时返还旧商品的顾客提供的价格减让方式，适用于各种耐用品。**促销津贴（promotion allowance）**是为回报经销商对广告和促销活动的参与而提供的报酬或价格减让。

细分市场定价

公司常常会根据不同的顾客、产品和销售地点，调整其基础价格。在 细分市场定价法（segmented pricing） 中，公司以两种或更多价格出售某种产品或服务，价格差异不以成本为基础。

心理定价

价格传递着关于商品的信息。例如，许多消费者利用价格来判断质量。售价 100 美元的香水也许只含有 3 美元的香料，但之所以有人愿意为此支付 100 美元，是因为价格按时了一些特别的东西。

采用 心理定价（psychological pricing） 的公司认为，价格不仅具有经济意义，而且具有心里作用。例如，消费者通常感知价格较高的产品具有较高的质量。如果他们能够通过检查产品或回忆以往的经验来判断产品的质量，就会较少地根据价格判断质量。

心理定价的另一方面是 参考价格（reference pricing） ，即购买者在考察某种特定产品时，心里会想到的价格。购买者可能因为注意到了当前的价格，记起了过去的价格，或者评价当时的购买情境而形成参考价格。企业在制定价格时，可以影响或者利用消费者的参考价格。例如，Williams-Sonoma 一度提供价格高达 279 美元的昂贵的面包机。随后增加了一款售价 429 美元的产品。后者自然乏人问津，前者却销量翻番。

即使微小的价格差异，也可以显示产品的差别。以 9 或 0.99 结尾的价格常常意味着实惠。

促销定价

公司运用 促销定价法（promotional pacing） 时，会暂时制定低于正常价格，甚至低于成本的价格，以促使购买者产生兴奋和急切的心情。促销定价有多种形式。公式可能只是简单地在正常价格的基础上提供折扣，来增加销售和减少存货；或者在特定的季节运用 特殊事件定价（special-event pricing） ，吸引更多的顾客流。网上秒杀等 限时促销活动（limited-time offers） 能创造购买的紧迫感，让消费者感觉得到某种优惠自己很幸运。

促销定价有助于推动顾客尽快做出购买决策。但是促销定价也可能带来负面影响。如果太频繁地使用，或者被竞争者模仿，促销价格可能创造“追随优惠”型顾客，他们只等品牌打折或者促销时才购买。另外，持续降低的价格可能侵蚀品牌在顾客心中的价值。

有时，市场营销者会对“促销定价”上瘾，他们试图以价格促销作为一种捷径来避免为树立品牌而制定长期有效的战略所需要的艰辛努力。经常使用促销定价还可能引发行业内的价格战。这种价格战通常只对运营效率最高的一家或少数几家竞争者有利。为避免这些问题，公司必须仔细平衡其短期销售激励和长期品牌建设。

动态定价与网上定价

动态定价法（dynamic pricing），即持续调整价格，以适应个体消费者的需要和购买情境的特点。用通俗的说法，就是可以讲价。

动态定价在网上特别普遍，网络交易使我们回到了浮动定价时代。这种定价给市场营销者带来不少好处，消费者也常常从网上和动态定价中获利。多亏了网络，具有数百年古老历史的交易艺术就这样重新焕发生机。

动态定价的缺点是，很可能因为讨价还价的存在，使得交易的重心从货的质量向讨价还价的技巧倾斜，增加了大量的交易成本来获取信息。

制定广告计划的第一步是确定广告目标。这些目标应当根据既定的目标市场、定位和营销组合决策来确定，它们明确了广告在整个营销计划中的地位和作用。广告的总体目标是通过沟通顾客价值来帮助吸引顾客和建立顾客关系。

广告目标（advertising objective） 是在一定期限内针对特定目标对象而设定的意向具体沟通任务。广告的目标可以根据告知、劝说和提醒等目的来分类。

告知性广告（informative advertising） 主要用于新产品的导入时期，目标是建立基本需求。
随着竞争的加剧，劝说性广告（persuasive advertising） 变得愈加重要，其目标是建立选择性需求。
提醒性广告（reminder advertising） 在产品成熟阶段很重要，它帮助维持顾客关系，并且使消费者一直记住该产品。

编制广告预算

确定广告目标之后，公司就要为每个产品编制 广告预算（advertising budget）。

部分制定广告（促销）总预算的常见方法：

量入为出法（affordable method），以公司能够负担的水平为标准制定促销预算。以这种方法决定预算完全忽视了促销对销售业绩的影响。它倾向于在所有支出中最后考虑促销。
销售比例法（percentage-of-sales method），以当前或预期销售额的特定比例来制定促销预算。它易于操作，但其调整余地很小。它错误地将销售额视为促销的原因而非结果。它可能会阻止为扭转销售下降而增加的促销投入，并且因为每年的销售额在变化，它很难制定长期计划。
竞争对等法（competitive-parity method），按照与竞争对手相当的标准制定促销预算。缺点显而易见——没有依据相信竞争者就能比公司自己在促销费用的制定上技高一筹。
目标——任务法（objective-and-task method），公司根据自己的促销目标和打算完成的任务来制定促销预算。该预算方法必须做到：（1）确定特定的促销目标；（2）决定为实现这些目标，需要完成的促销任务；（3）估计完成这些任务的成本。这些成本的总和就是计划的促销预算。这种方法最难操作。

还有一些关于编制广告预算时特有的因素：

一个品牌的广告预算常常取决于它处于产品生命周期的哪个阶段。例如新产品通常需要较高的广告预算，以建立知名度并争取消费者的试用。而成熟的品牌通常需要相对于销售额较低百分比的预算。市场份额也会影响广告预算的需求量，低市场份额品牌的广告费用占销售额的比例通常很高，因为获取市场份额或从竞争者那里争夺份额都比维持现有份额需要更多的广告投入。

另外，在竞争者众多并且广告市场比较混乱的情况下，品牌必须做大量的广告才能在纷乱中吸引足够的注意。所以那些无差异的品牌，即与同一产品类别中的其他品牌极为相似的产品（软饮料、洗涤剂），可能需要高额的广告费用使自己与众不同。当企业的产品与竞争对手的差别很大时，可以用广告向消费者指出这些差异。

游戏化策略

游戏化

概述

游戏的八大核心驱动力

核心驱动力 1：史诗意义与使命感

这一核心驱动力是指玩家认为自己所做的事情具有重大的意义，或者说这是上天赐予他们的使命。

例如人们会自愿投入大量时间参与到维基百科的编辑，他们这么做并不会获得收入，也不会特意把这段经历写进简历当中，他们这么做只是因为他们觉得自己正在保护人类的知识。

核心驱动力 2：进步与成就感

进步与成就感是我们取得进步、提升能力和克服挑战的内在驱动力。

几乎所有的游戏都会展示进度，让你知道距离胜利状态还有多远，游戏通过将用户挑战分为多个阶段，让用户觉得一直在进步。PBL（积分、勋章、排行榜）的设计就是基于此驱动力。核心驱动力 2 的关键之处在于，要让用户克服挑战后感到有成就感。

核心驱动力 3：创意授权与反馈

这一驱动力能驱使玩家全身心地投入到创造的过程，不断找出新事物，并尝试进行不同的组合。

人们不仅需要表达创造力的途径，还需要能看到创造力的结果，并能获得及时的反馈和调整。这也是为什么玩乐高和绘画会让人觉得有趣并且还能长期有效，即使游戏设计师不再设计新的内容也能让游戏持续保持新鲜感和吸引力。

核心驱动力 4：所有权与拥有感

所有权和拥有感时指当玩家感到他们拥有某样东西时，会因而受到激励，自然就会想要把这样东西变得更美好。

这一驱动力是人类积累财富的主要欲望来源，也是玩家积累虚拟货币的主要驱动力。所以，当玩家耗费大量时间优化自己的账户资料或虚拟角色时，他自然也会产生这种拥有感。最后，这也是集邮和拼图游戏的最大乐趣来源。

核心驱动力 5：社交影响与关联性

这一驱动力包含了所有激励人们的社交因素，包括师徒关系、社会认同、社会反馈、伙伴关系、甚至是竞争和嫉妒。

当你看到朋友擅长某样技能或拥有某样珍贵的物品时，你也会渴望拥有。这也反映了我们为什么会偏向于和自己有关的人、地点或事物。如果一款产品能让你联想到你的童年，怀旧的感觉就会加大你购买这款产品的可能性。

核心驱动力 6：稀缺性与渴望感

这是一种由渴望感而引起的驱动力。很多游戏都有奖励预览机制（比如预览到 2 个小时后才能领取的奖励），因为无法立刻获得，所以会使得玩家总是想着它。

这也是 Facebook 早期的时候利用的核心驱动力，起初只能在哈佛大学登陆，后来蔓延到一部分著名的大学，最后到所有的大学。当它最终对所有人都开放时，很多人就会迫不及待地加入，因为他们之前一直无法获得使用。

核心驱动力 7：未知性与好奇心

当人们遇到未知的事物时，就会产生好奇心，因为不清楚接下来会发生什么，你的大脑就会对它产生兴趣并持续关注它。

显然，这就是赌博、看电影和看小说的主要驱动力了。在颇受争议的斯金纳箱实验中，小动物会在对未知的好奇心驱动下，不断地压动杠杆。值得注意的是，很多人错误的认为 PBL（积分、勋章、排行榜）也是基于这种驱动力的。

核心驱动力 8：损失与逃避心理

损失与逃避心理这一驱动力不难理解，就像我们都不希望有坏事情发生。

从小的方面来说，比如不希望失去工作的事情发生。从大的方面来讲比如你正在戒烟，你会不希望之前做的努力都是白费的。另外正在消逝的机会也是利用这种驱动力，人们会觉得如果他们不立即采取行动，他们将永远将失去这个机会。

持续游戏的 4 个阶段

从发现、入门、上手到最后熟练，这是一个学习进步的过程，但同样也是 8 大驱动力在驱使着玩家持续游戏。我们可以把任何产品或服务看做 4 个阶段：

Discovery（发现）阶段：用户了解、发现产品或服务的过程。
Onboarding（入门）阶段：用户初次接触、使用产品或服务，达成第一次胜利状态（win-state）。
Scaffolding（塑造）阶段：用户开始了解所有规则、选项后，达成多个胜利状态（黏性开始！）。
Endgame（终局）阶段：所有的东西我都熟悉了，没有什么新的胜利状态了。

把用户体验产品划分为 4 个不同阶段，我们就可以针对不同阶段进行不同的体验设计，每个阶段运用不同的核心驱动力组合。

值得一提的是，当下趋势之一 Growth Hacking，就可以归于发现阶段和入门阶段。对于提高用户粘性、激励用户来说，这 4 个阶段都是值得我们深入探索的。

一般来说，四个阶段适用的驱动力模型如下：

发现	入门	塑造	终局
未知	未知	授权	授权
成就	社交	社交	社交
社交	授权	拥有	未知
	亏损	稀缺	亏损
	成就	亏损	拥有
	稀缺	成就	成就

竞技类游戏模式和养成类游戏模式

这里介绍两种实践中取得了很好的效果的游戏模式。

竞技类游戏模式

竞技类游戏模式是解决发现和入门阶段的用户驱动力问题的非常有效的手段。

竞技类游戏模式是竞技，其本质解决的是社交的问题。

案例

古时候，人们见面都要弈棋、赋诗；
男生小时候都一起玩玻璃球、拍方片；女生小时候都要> 调皮劲、踩方格；
网吧热的时候，大家都组团去网吧玩 CS、魔兽争霸、星际争霸。

结论

社交热度决定了竞技类游戏的生命周期。

养成类游戏模式

养成类游戏的模式可以较好的解决塑造和终局阶段用户驱动力的问题。

养成类游戏的本质是构建用户的沉没成本。

沉没成本

沉没成本，是指以往发生的与当前决策无关的费用。从决策的角度看，以往发生的费用只是造成当前状态的个因素，当前决策所要考虑的是未来可能发生的费用及所带来的收益，而不考虑以往发生的费用。

游戏中构建沉没成本的主要要素：

阶段性目标：用户追求的目标；
核心资源：资源足够就能达成阶段性目标；
控制器和变量：可以获得核心资源的手段，这也是养成类游戏的主要抓手。

游戏名称	阶段性目标	核心资源	控制器	变量
阴阳师	升星	经验	体力	关卡进度
魔兽世界	下一个副本	装备分	副本次数	副本进度
部落冲突	基地升级	圣水数量	秒	基地等级
魂斗罗	下一关	通关数量	无	无

关于养成类游戏的结论：

用户在游戏中为了达成阶段性目标花费（拥有）的成本越高，用户越不容易流失；
用户为达成阶段性目标花费的时间越长，越容易流失。

案例

普通股民购买的股票如果跌了，第一反应并不是选择一个会持续上涨的股票，卖掉手中下跌的股票，而是会坚守原本的股票等待它回本。这种决策是非理性的，背后的原因就是沉没成本。

强化学习——马尔可夫决策过程

马尔可夫决策过程（Markov Decision Processes,MDPs）, 简单说就是一个智能体（Agent）采取行动（Action）从而改变自己的状态（State）获得奖励（Reward）与环境（Environment）发生交互的循环过程。

MDP 的策略完全取决于当前状态（Only present matters），这也是它马尔可夫性质的体现。

其可以简单表示为： $M = <S, A, P_{s,a}, R>$

基本概念

$s \in S$：有限状态 state 集合，$s$ 表示某个特定状态；
$a \in A$：有限动作 action 集合，$a$ 表示某个特定动作；
Transition Model $T(S, a, S’) \sim P_r(s’|s, a)$：Transition Model，根据当前状态 $s$ 和动作 $a$ 预测下一个状态 $s’$，这里的 $P_r$ 表示从 $s$ 采取行动 $a$ 转移到 $s’$ 的概率；
Reward $R(s, a) = E[R_{t+1}|s, a]$：表示 agent 采取某个动作后的即时奖励，它还有 $R(s, a, s’)$，$R(s)$ 等表现形式，采用不同的形式，其意义略有不同；
Policy $\pi(s) \to a$：根据当前 state 来产生 action，可表现为 $a=\pi(s)$ 或 $\pi(a|s) = P[a|s]$，后者表示某种状态下执行某个动作的概率；

回报（Return）

$U(s_0,s_1,s_2,\cdots)$ 与折扣率（discount）$\gamma\in[0,1]$: $U$ 代表执行一组 action 后所有状态累计的 reward 之和，但由于直接的 reward 相加在无限时间序列中会导致无偏向，而且会产生状态的无限循环。因此在这个 Utility 函数里引入 $\gamma$ 折扣率这一概念，令往后的状态所反馈回来的 reward 乘上这个 discount 系数，这样意味着当下的 reward 比未来反馈的 reward 更重要，这也比较符合直觉。定义： $$ \begin{align} U(s_0,s_1,s_2,\cdots) &= \sum_{t=0}^{\infty}{\gamma^tR(s_t)} \quad 0\le\gamma<1 \\ &\le \sum_{t=0}^{\infty }{\gamma^tR*{max}} = \frac{R*{max}}{1-\gamma} \end{align} $$ 由于我们引入了 discount，可以看到我们把一个无限长度的问题转换成了一个拥有最大值上限的问题。

强化学习的目的是最大化长期未来奖励，即寻找最大的 $U$。（注：回报也作 $G$ 表示）

基于回报（return），我们再引入两个函数

状态价值函数：$v(s)=E[U_t|S_t=s]$，意义为基于 $t$ 时刻的状态 $s$ 能获得的未来回报（return）的期望，加入动作选择策略后可表示为 $v_{\pi}(s)=E_{\pi}[U_t|S_t=s](U_t=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-t-1}R_T)$
动作价值函数：$q_{\pi}=E_{\pi}[U_t|S_t=s,,A_t=a]$，意义为基于 $t$ 时刻的状态 $s$，选择一个 action 后能获得的未来回报（return）的期望

价值函数用来衡量某一状态或动作 - 状态的优劣，即对智能体来说是否值得选择某一状态或在某一状态下执行某一动作。

MDP 求解

我们需要找到最优的策略使未来回报最大化，求解过程大致可分为两步，具体内容会在后面展开

预测：给定策略，评估相应的状态价值函数和状态 - 动作价值函数
行动：根据价值函数得到当前状态对应的最优动作

最优方程

最优价值函数（optimal state-value function）

$$ \begin{align} v_{*}(s)=\max_{\pi}{v_{\pi}(s)} \\ q_*(s,a) = \max_{\pi}q_{\pi}(s,a) \end{align} $$

其意义为所有策略下价值函数的最大值。

Bellman 最优方程

$$ \begin{align} v_*(s)= \max_a q_*(s,a)= \max_a\left( R_s^a + \gamma\sum_{s’\in S}P_{ss’}^a v_*(s’) \right) \\ q_*(s,a)= R_s^a+\gamma \sum_{s’\in S}P_{ss’}^av_*(s’) = R_s^a + \gamma \sum_{s’ \in S}P_{ss’}^a\max_{a’}q_*(s’,a’) \end{align} $$

$v$ 描述了处于一个状态的长期最优化价值，即在这个状态下考虑到所有可能发生的后续动作，并且都挑选最优的动作来执行的情况下，这个状态的价值
$q$ 描述了处于一个状态并执行某个动作后所带来的长期最优价值，即在这个状态下执行某一特定动作后，考虑再之后所有可能处于的状态并且在这些状态下总是选取最优动作

最优策略（Optimal Policy）

关于收敛性：（对策略定义一个偏序）

$$ \pi \ge \pi’ ,\mbox{if}; v_{\pi}(s)\ge v_{\pi’}(s),\forall s $$

对于任意 MDP：

总是存在一个最优策略 $\pi_*$，它比其它任何策略都要好，或者至少一样好
所有最优决策都达到最优值函数，$v_{\pi_*}(s)=v_*(s)$
所有最优决策都达到最优行动值函数，$q_{\pi_*}(s,a)=q_*(s,a)$

最优策略可从最优状态价值函数或者最优动作价值函数得出： $$ \begin{align} \pi_*(a|s) = \begin{cases} 1, & \mbox{if } a = \arg\max_{a \in A} q_*(s,a)\\ 0, & otherwise \end{cases}
\end{align} $$

基于 MDP 的游戏化解读

有了上文的 MDP 模型的描述，我们便有了一个指导用户行为决策的模型——通过设计 Reward ，影响用户的 Policy，以达到某个局部最优的 State。这个过程便是游戏化。

游戏化的最终目标

MDP 模型中涉及到了几个重要的因素：

已知的普适的局部最优状态 State；
人为设计的 Reward；
用户（Agent）自身探索过程中的模型建立；

其中 Agent 需要通过自己的探索发现局部最优状态 State，这个 State 就是游戏化的目标。另外，Agent 不仅仅需要发现目标 State，还需要在自己的 MDP 模型中认定该 State 是局部最优的。

这意味着关于外部 Reward 的两个基本原则：

外部的 Reward 应可以引导至局部最优 State；
外部 Reward 应不影响 State 上天然 Reward 所形成的 Policy；

如果给予了错误的 Reward ，依然会引发 Agent 的响应和学习过程，但无法达到最终的目标 State，或者达到了最终目标，也会形成错误的 Policy。这就是是游戏话中经常提到的外部激励压迫内部动机。

案例

从前有一个喜欢安静的老人，住在一个带院子的大房子里。而附近的孩子们非常喜欢来他的院子玩，赶走了不久又会回来，给他带来了很多的烦恼。有一天，老人想到了一个办法：他和蔼的走向院子里玩耍的孩子们，说：“我是一个孤独的老人，特别喜欢你们这些孩子们带来的生机和活力，所以为了奖励你们，我以后每天给你们一人一块糖”。孩子们听了之后更加开心了。就这样，之后的每一天，老人都给孩子们发糖，于是又有更多的孩子也来院子里玩耍。一周之后，又到了发糖的时间。孩子们都停止玩耍等着老人的糖果。这时老人出来了，对着孩子们愁眉苦脸的说：“我现在的收入无法支撑给你们买这么多的糖果了。你们能看在我如此喜欢你们的份上，依然留在院子里玩耍吗？” 孩子们听完后纷纷有受欺骗的感觉，一个个都走开了，没人留下来：“哼！我们再也不会为了你的糖果来你院子玩了”。最终，老人的院子终于获得了安静。

结论

游戏化最重要的因素：外部激励必须和 Agent 的目标是激励相容的。

针对人类的 Reward 的性质

人类是生物进化的产物，所以决定了人类接受 Reward 的方式并不简单的如同传统 MDP 模型中数量变化的激励，而是更加内化的方式来实现。

根据心理学和生物学的研究，人类（高等生物）的激励都是通过分泌多巴胺来实现的。后天会通过条件反射，学会一些能分泌多巴胺的高等行为。

对于人这种 Agent 而言，游戏化就是通过给予一些短期多巴胺分泌的刺激，形成新的条件反射，形成一个长线的多巴胺反射习惯。

结论

针对人进行的游戏化进程某种意义上说就是习惯形成的过程。

下面将列举一些基本的分泌多巴胺的行为，这些是形成高级条件反射的基础。

获得、拥有

生命延续中，非常重要的就是营养的获取；而在一些恶劣的条件下，不那么容易随时找到有营养的食物，就需要提前做好食物的储备才更容易存活下来。

于是生命体形成了一种基本的激励模式：当获取有价值的物品时，机体会分泌多巴胺，让生命体感到快乐，从而愿意去获得物品；类似的，当感觉到自己拥有一个有价值的物品是，机体也会分泌多巴胺，感受到快乐。

案例

有的人赚钱会觉得快乐；有的人数钱会觉得快乐。这分别是获得和 拥有感 带来的 Reward。游戏化常用手段之徽章就是利用了这个特性

进步和成长

生命体（主要指动物）在短暂的生命周期中，需要快速对周围环境做出一定的响应，才能更好的存活下来。所以进化给予了高等级的动物一种新的 Reward —— 当感受到自己的进步或成长时，机体会分泌多巴胺，会感到快乐。

案例

狮子和鹿的族群都追求跑得更快。在这件事成为生死攸关之前，是天然的多巴胺带来的动力激励着幼体成长。类似的，成长性是游戏化中最常用的手段积分就是利用了这一点。

探索未知

为了让生命体更好的存活，大自然赋予动物一种探索的特性——当探寻未知时，机体会分泌多巴胺，形成激励。

案例

人们喜欢旅游，喜欢玩迷失逃脱，甚至喜欢赌博（随机）时带来的快感。这些都是探索未知带来的乐趣。游戏化中对应的常用手段叫移情，将玩家置于一个充满幻想的未知世界中。另外随机性也是游戏中的常用手段之一。

史诗意义与使命感

高等生物除了自身的生存外，还会在意整个族群的延续。这时漫长进化过程中形成的一种高级的激励模式——当一个行为是有利于整个种族延续的，类似这样的有史诗意义或使命感的事情，机体也会分泌多巴胺，鼓励生命体去完成这样的事情。

案例

董存瑞炸碉堡就是一个比较典型的有史诗意义和使命感的事情。类似的，为家族（族群）出头，做对全人类都有意义的事情等等，这些都是对生命个体有一定激励作用的。游戏中，常见的就是门派战、联盟部落战斗，世界 Boss 等；游戏化领域这方面的应用也很多：包括冰桶挑战、包括蚂蚁森林等等。

损失与逃避心理

为了让生命体更好的存活，进化中除了产生一些正向的激励，还会有一些负向的激励。而且因为负向行为发生的较少，但带来的损害却很大。为了便于生命体形成更好的 Policy，生命体的 MDP 模型学习过程中，会对负向激励形成一个较大的权重，偶尔发生也会让人产生较大的负向心里，从而不会因为未知、探索的正向激励而依然愿意尝试有风险的选项。

也就是说，损失带来的负向收益是非常大的，会抵消绝大部分的正向收益。

案例

人类喜欢探索，但是更多的人会害怕黑夜，害怕鬼屋。这些都是负向心理带来的自我保护；类似的，古人总结出的经验：一朝被蛇咬，十年怕井绳。游戏中，负向的经历会抵消掉大部分的正向激励。所以游戏和游戏化中一定要注重负向激励的管理，让失败不那么难受，反而变得有趣，甚至不觉得是一个失败。

社交

社交也是一种非常高级的激励模式，值得单独拿出篇幅来讨论，本文仅作列举。

游戏化中社交相关的手段之一：排行榜。

Reward 的约束

换一个主观的角度来看 Reward，就是一切给人带来有趣的激励，都是有效的 Reward。所以从用户的主观体验上说，游戏化就是让事情变得更有趣的解决方案。

怎样的 Reward 更容易使人快速完成 MDP 模型的建立过程呢？除了前面提到的目标 State 以外，针对 Reward 来说，如下几个要素是非常重要的：

Reward 需要在用户行为之后尽快的给予反馈（实时反馈）；
Reward 带来的激励是用户已经掌握的基本模式（简单性）；
Reward 带给用户的激励应当尽可能大一些（有趣）；
要削弱负向 Reward 带来的效果（有趣的失败）；

这四个点就是设计具体激励时，最重要的四个原则。甚至可以说：随着人类的进化，社会的发展，基本的激励措施可能会不断发生变化，但上述四条基本原则是不变的。

案例

我们小时候玩超级玛丽可以乐此不疲的玩好几天；但是现在再回去玩的话，可能刚上手就觉得厌倦了。因为随着时代的发展，我们接触到的激励会发生很大的变化，形成的 Policy 也会发生变化。于是一些以前有效的 Reward，换了一个年代就不再有效了。但是每个时代还是会有大家觉得好玩的东西，满足的基本原则也还是：简单、有趣、实时反馈。

行为经济学与 MDP

本节尝试用 MDP 的学习过程来解释部分行为经济学中的现象。

前景理论

确定效应和反射效应

首先从“确定效应”和“迷恋小概率事件”说起。

假设

Agent 接受样本后，会累计形成经验（体内分泌的多巴胺的数量）。但是通常而言，对于个体来说样本量是不足的，所以为了加快整个 MDP 建模过程，并削减一些已经过期的经验，其学习模式是类似于通过学习系数进行加强的： $$ Policy_{new} = (1-\alpha) \cdot Policy_{old} + \alpha \cdot Reward $$

从而，用户对价值的体感认知是由最近几次的 Reward 反馈得来的。

所以，一个小概率的事件按上述公式迭代，其收益则大概率低于期望，这就是确定效应。用户会感知确定性的收益价值大于概率性、反过来，会感觉概率性的损失价值小于确定性损失，也就是反射效应。

但当一个小概率事件最近确定发生过后，很长一段时间，人们会高估其发生的概率（收益期望），这是迷恋小概率事件。当这件事是不好的事情时，就变成了：一朝被蛇咬、十年怕井绳。

参照依赖

这一点比较直观的可以理解——人判断事物好坏的时候是依赖多巴胺分泌的，但这种感官的灵敏度很多时候不能绝对量化，而是通过量级和比较产生的。

所以人们描述喜爱程度时使用的方式是：“不喜欢”、“有点喜欢”、“喜欢”、“很喜欢”、“非常喜欢”，这种有层级递进关系的模式来逼近其真实的数量。

但通常情况下，导致人体分泌多巴胺的要素有很多，所以人们真实感受只能通过类似于“控制变量”的方式来实现，即这件事发生和没发生带来的变化量来衡量事情的价值。

从而，进行价值衡量时必须找到一个参照才能衡量价值，而不同的参照会给出不同的结论。这就是参照依赖

心帐理论

假设

Agent 在真实世界中的各种行为选择并不是都有收益（损失）的，所以在进化过程中，为了更快的完善 Agent 的模型，获得更大的收益，除了事件本身带来的 Reward 外，还会有针对 Agent 触发带来 Reward 这件事的奖励（激励 Agent 获取更多的样本数据，或者规避 Agent 进行更多带来负向效果的尝试）。从而任何一次行为都会包含两部分的数据： $$ Reward_{all} = Reward_{action} + Reward_{find_{data}} $$ 其中第二项 $Reward_{find_{data}}$ 的数量级与 $Reward_{action}$ 无关，但符号与之相同。

第一、第二结论

基于上述假设，多个激励 $R_i$ 带来的体感是：

$$ Reward_{all} = \sum^n (R_i + R_f) = \sum^n R_i + n\cdot R_f $$

而合并他们后带来的体感是：

$$ Reward^*_{all} = \sum^n R_i + R_f $$

当激励是正向时，$R_f>0$，于是 $Reward_{all}>Reward^*_{all}$；而当激励是负向的，则有

$R_f<0$，于是 $Reward_{all}<Reward^*_{all}$

这就是第一结论和第二结论：

如果有多个经济活动均涉及到收益 / 甜头 / 好处，尽可能的单列他们。
如果有多个经济活动均涉及到开支 / 损失 / 霉头 / 灾难，尽可能的合并他们。

第三、第四结论

如果两个激励，一个是正向的，一个时负向的，他们带来的体感价值是：

$$ Reward_{all} = R^+ + R^+_f + R^- + R^-_f = (R^+ + R^-) + (R^+_f + R^-_f) $$

而当这两个激励合并成一个激励时，

$$ Reward^*_{all} = (R^++R^-) + R^{all}_f $$

其中，$R^{all}_f$ 要么是 $R^+_f$ ，要么是 $R^-_f$。而：

$$ R^+_f > R^+_f + R^-_f > R^-_f $$

也就是说，当 $R^{all}f$ 是 $R^+f$ 时，$Reward{all} < Reward^*{all}$；当 $R^{all}f$ 是 $R^-f$ 时，$Reward{all} > Reward^*{all}$

这就是第三结论和第四结论：

如果有某个经济活动涉及到开支 / 损失，找个另外有收益的经济活动并且收益超过前述损失的，合并他们。
如果有某个经济活动涉及到大笔开支 / 损失，同时有某个经济活动减少了一点该损失，把该经济活动单列出来。

损失规避

Agent 在进化过程中，获得收益和遭遇损失并不是同等的。因为收益少仅仅影响效率问题；但遭遇损失很可能带来的就是生命的终结。所以 Agent 对负向 Reward 的规避意图一定是大于对正向 Reward 的追求。而且这件事主要反映在积累经验的模型上—— Agent 应当多尝试各种有收益的事情，而尽量减少危险的尝试次数，而且应当远离危险。

假设

负向激励的学习权重更大： $$ R^+_f + R^-_f <0 $$

这就是行为经济学中的另一个现象，规避损失：相同价值的收益无法抵消相同价值的损失带来的影响。

耐用品价格策略

耐用品定义浅析

回顾一下第一章的定义：短期需求的弹性要大于长期需求的弹性的商品被称为耐用品。

这个定义和我们通常理解的，耐用品是使用寿命较长的商品并不一致。所以这里首先分析和理解清楚上述定义的内涵。首先从长期的需求弹性入手，考虑短期需求弹性会因为怎样的因素发生变化。

假设一个商品的长期需求弹性为 $\varepsilon_l$，即长期的价格变化带来的需求变化是恒定的；考虑其短期需求弹性：

若短期需求弹性小于长期需求弹性，意味着短期内的价格变化对需求的影响是小于长期的。用户对产品的选择是追求时效性的，哪怕短期价格变化了，不会太影响用户的选择；
若短期需求弹性大于长期需求弹性，意味着短期内的价格变化对需求的影响是大于长期的。也就是说用户对时效性没那么在意，短期价格变化会更显著的影响用户的选择；

从而通常来说，长期需求量确定，短期需求可调节的商品更容易成为耐用品；短期需求量确定，长期需求可调节的商品更容易成为非耐用品（消耗品）。

案例

家用电器一般来说都是长期需求确定，而短期需求可调节的，是耐用品；食品类则是短期需求固定（饮食习惯），长期可调节的，是消耗品。所以一次性消耗掉的物品也未必不能是耐用品，例如毒品、纸巾、茅台都属于耐用品；类似的，易于储存的物品，可以通过囤货来控制购买时机，其短期需求都是可调节的，而长期需求比较固定，都是耐用品；但反过来，不易于存储的物品，未必不能是耐用品，例如旅游如果算作是商品的话，就是耐用品。

案例

股票是非典型的耐用品——其持有者短期内会根据价格的变化频繁调整自己的拥有量，短期弹性非常大；但长期来看，最终的结果应当是零和的，也就是不持有股票。所以关于耐用品的一切分析结果都适用于股票。

耐用品的价值预期

这里将耐用品的使用价值和价格做一个区别，分析价值预期带来的一些不同的结果。当然我们认为市场中商品的长期价格就约等于它的价值，基于这样假设将长期价格和价值之间建立联系。

耐用品向下的价值预期

绝大部分的耐用品都属于这种情况，包括服装、家电、百货等等。但是诸如服装之类的品类通常不会被归结在耐用品中，后面的分析我们也会解释这种现象。

耐用品向下的价格预期会带来科斯猜想中描述的现象。

科斯猜想

由于将来销售的耐用品将会影响到现在所售出的产品的未来价值，在垄断耐用品生产者没有对未来的产量水平做出承诺时，如果消费者具有价格下跌的理性预期，那么垄断价格就会迅速降到边际成本水平。

结论

耐用品可以只出租，不出售，以此获取更高的收益。

案例

微软的 Office 系列，最早是通过更新，进行价格调整，从而获取垄断利润；后来更新无法带来足够的用户感知，将出售模式改为订阅模式；类似的，iPhone 上有很多应用都从购买制转向了订阅制；

非出租的应对措施

如果跳出科斯猜想的建议，我们考虑如何解决经济利润变大的问题。

因为长期来看，价值有向下的预期，所以通常来说，更早（在高价位）的卖完货品能获得更大的利润。也就是在一个总需求量较大的位置获得一个较低的短期需求弹性；

另一方面，要避免往期商品对当前商品的冲击，也就是说需要增加长期的需求弹性。

从定义出发，短期需求弹性大于长期需求弹性的商品叫耐用品，而这里得到的应对措施是降低短期弹性，提升长期弹性，所以我们把这个过程成为：去耐用品化。极端情况，当耐用品变成消耗品时，就不会出现科斯猜想对应的问题了。

案例

服装从使用角度来说，更像是耐用品。但当前的服装行业，通过品牌营造，降低了服装的短期需求弹性；而各大服装品牌会联合进行一些潮流、风尚的引导，即强化了短期的需求量，又削弱了往期的短期需求对当期的短期需求的影响，从而提升了长期的需求弹性。故服装行业成功的从耐用品走向了消耗品的行列。

案例

电脑、手机、软件等行业主要是通过新功能迭代来实现耐用品到消耗品的转型的。但当创新不能带来质变时，用户还是会用耐用品的态度对待这些行业。所以耐用品行业中，科技创新是很主要的利润来源。

耐用品向上的价值预期

牛市时的股票、茅台、黄金、钻石、房地产等都可归结为这一类。

当用户对耐用品有向上的价格预期时，其需求性质会发生变化。不再因为需要而购买，而是因为保值而进行购买。故其短期需求弹性同价格的相关性会更强：价低时有较高的需求弹性，价高时有较低的需求弹性。

企业追求更大的利润，更倾向于涨价来获得。而且涨价会进一步强化用户的预期，形成正向的循环。

注：如果货品的真实价值是实际存在的，那么价格高于真实价值太多，就会形成泡沫，有被戳破的风险。

为保证产品的真实价值是上涨的，我们把对应的有向上价值预期的产品想象成可以以物换物的货币，那么该产品需要满足的条件如下：

产品是通缩的，也就是说产量上是有制衡的，不可以根据生产能力来扩量；
价值是被广泛认可的，而不仅仅是官方定价。所以这里需要形成广泛的共识；
产品是可二次交易可流通的。

反过来，满足上述条件的产品，也都可以营造向上的价值预期。

案例

中国古代存在买官现象。以官位为产品来说，那么这个产品就是一个向上价值预期的产品。因为可流通的官位数量有限、可转手、大家都认可当官这件事情。类似的，MBA 也是一个有一定相似性的产品，但缺少二次交易这个环节。所以 MBA 在短期内可以营造出向上的价格预期，但长期来说，其向上的价格预期总有停止的时候，不可一直持续。

案例

钻石从分子结构、生产手段等角度来看，都没有那么高的价值；但其南非的垄断经营者承诺钻石永不降价，并且控制每年的出产量，保证了钻石成为了向上价值预期的耐用品。

案例

比特币现象的本质：" 核心竞争力是流量，而流量要靠忽悠变现。傻子太多，傻 X 的共识也是共识。——李笑来 "

耐用品价格策略

耐用品若想获得更大的收益，价格策略上的选择：

当该耐用品是自由市场中的产品，且长期价值有向下的价值预期时，核心要点是去耐用品化。

打造产品的品牌心智，提升销量并降低短期需求弹性；
形成批次，形成老产品的淘汰循环（降低老产品的心理价值感），提升长期需求弹性。

当该耐用品是垄断产品时，可以选择去耐用品化的策略，以量来换取更大的利润。也可以通过价格承诺来形成向上的价格预期，从而通过单品高利润获得更高的价值。这需要保证：以货币的角度看待对应的产品，该货币是通缩的、形成共识的、可流通的。

简言之，无论哪种选择，都非常依赖对普通用户的影响力（传播能力），依赖用户的品牌心智；都需要通过高价来获得高利润。

结论

强有力的传播宣传能力是耐用品获得更高价值的关键。

耐用品价格策略的延伸

我们将耐用品的概念泛化到一般的产品服务上，尤其是当前大部分的手机 APP 都选择了免费模式，在竞争市场份额和用户时长。

所谓的免费模式，并不意味着没有价格，或者价格对用户没有影响，很多 APP 也都会对用户（新用户）进行补贴以此吸引更多的使用者，从这个角度来说，这些 APP 甚至可能是负价格。

将类似于对于进入 APP 之后的消费等行为和用户是否使用 APP 两件事分离开，那么是否使用 APP 这件事就可以类比成一个一般的商品（耐用品），其内在有价值，外在有价格（负的价格）。

类似的，将所有单次的购买行为剥离出来，尽考虑关注情况（进入情况），那么所有的品牌都可以看作某种意义上的耐用品。

于是根据前面的耐用品价格策略，这里自然的形成了两种品牌策略。

价值向上的品牌策略

以品牌的质感取胜，营造品牌价值向上的氛围。换句话说，就是让用户觉得使用该品牌的格调非常的高。

于是对应的品牌策略：品牌的用户量是被控制的，而且大家都对品牌有一个高价值的共识。

案例

豆瓣、知乎、还有一众的小众网站、游戏等等都是这个类型的典型代表。

价值向下的品牌策略

需要降低品牌的短期需求弹性，提升品牌的长期需求弹性。换句话说，需要不断的提供新功能，新玩法，并且不断引领新的潮流。

案例

腾讯系的应用就一直在做这种提供新玩法的事情，保持总有全新的体验想要尝试；另外头条系的抖音，是一个可复制的引领新潮流的模式——通过不同的模板带来不同的玩法。

案例

游戏领域，很多游戏都需要时不时的提供 DLC 来添加新玩法延续生命力和用户群。而另一些小众游戏则会一直占据部分用户的时间。

案例

淘宝、咸鱼都应当不断探索新的玩法。电商领域本质上也是有模式的潮流的，例如最早的 C2C，到 B2C，到团购，到返利，再到现在拼多多的社交拼团模式。甚至模式可以重复，但我们应当引领各种模式的潮流。

新零售算是一种引领新模式的方式，但是有些重，短期还不能快速看到效果。

总结：广义价格策略

我们将提供给用户的产品和服务对应的价值叫做真实价值。而在真实价值之外，一切能影响最终获得的利润的操作，都定义为广义价格策略。

于是广义价格策略包括但不限于：

用户增长策略
广告策略
市场销售策略
传统定价策略
传播策略

我们不从具体功能层面来拆分这个广义价格策略，而从手段上来分解它：

改动价格来影响需求，从而影响利润；
在真实价值的基础上提升用户的体感价值，从而提升价格或者需求量；
改变用户的长期价值预期，从而影响利润。

对应上述三种手段，对应的本文的理论依次为：

经济学中传统的价格理论，可以应用于市场销售策略、广告策略、用户增长策略等；
游戏化理论，可以应用于用户增长策略、市场销售策略、传播策略等；
耐用品价格理论，可以应用于传播策略、市场销售策略等

其中，关于传播方面，本文只提到了结论，没有涉及方法。这部分需要额外单独的篇章来进行分析和探讨。

基础价格理论#

经济学的价格理论#

拉姆齐定价模型#

多产品垄断定价#

价格歧视#

价格歧视的三种形式#

跨期歧视#

两部收费制（二级歧视的一般形式）#

捆绑销售#

套利#

广告的简单法则#

耐用品和消耗品#

行为经济学#

前景理论#

心帐理论#

第一结论#

第二结论#

第三结论#

第四结论#

营销定价策略#

产品定价方法#

以顾客价值为基础的定价#

以成本为基础的定价#

以竞争为基础的定价#

影响价格决策的其他内外部因素#

定价战略#

新产品定价战略#

市场撇脂定价#

市场渗透定价#

产品组合定价战略#

产品线定价#

备选产品定价#

附属产品定价#

副产品定价#

一揽子定价#

价格调整战略#

折扣与津贴定价#

细分市场定价#

心理定价#

促销定价#

动态定价与网上定价#

广告#

确定广告目标#

编制广告预算#

游戏化策略#

游戏化#

概述#

游戏的八大核心驱动力#

核心驱动力 1：史诗意义与使命感#

核心驱动力 2：进步与成就感#

核心驱动力 3：创意授权与反馈#

核心驱动力 4：所有权与拥有感#

核心驱动力 5：社交影响与关联性#

核心驱动力 6：稀缺性与渴望感#

核心驱动力 7：未知性与好奇心#

核心驱动力 8：损失与逃避心理#

持续游戏的 4 个阶段#

竞技类游戏模式和养成类游戏模式#

竞技类游戏模式#

养成类游戏模式#

强化学习——马尔可夫决策过程#

基本概念#

MDP 求解#

最优方程#

最优策略（Optimal Policy）#

基于 MDP 的游戏化解读#

游戏化的最终目标#

针对人类的 Reward 的性质#

获得、拥有#

进步和成长#

探索未知#

史诗意义与使命感#

损失与逃避心理#

社交#

Reward 的约束#

行为经济学与 MDP#

前景理论#

确定效应和反射效应#

参照依赖#

心帐理论#

基础价格理论

经济学的价格理论

拉姆齐定价模型

多产品垄断定价

价格歧视

价格歧视的三种形式

跨期歧视

两部收费制（二级歧视的一般形式）

捆绑销售

套利

广告的简单法则

耐用品和消耗品

行为经济学

前景理论

心帐理论

第一结论

第二结论

第三结论

第四结论

营销定价策略

产品定价方法

以顾客价值为基础的定价

以成本为基础的定价

以竞争为基础的定价

影响价格决策的其他内外部因素

定价战略

新产品定价战略

市场撇脂定价

市场渗透定价

产品组合定价战略

产品线定价

备选产品定价

附属产品定价

副产品定价

一揽子定价

价格调整战略

折扣与津贴定价

细分市场定价

心理定价

促销定价

动态定价与网上定价

广告

确定广告目标

编制广告预算

游戏化策略

游戏化

概述

游戏的八大核心驱动力

核心驱动力 1：史诗意义与使命感

核心驱动力 2：进步与成就感

核心驱动力 3：创意授权与反馈

核心驱动力 4：所有权与拥有感

核心驱动力 5：社交影响与关联性

核心驱动力 6：稀缺性与渴望感

核心驱动力 7：未知性与好奇心

核心驱动力 8：损失与逃避心理

持续游戏的 4 个阶段

竞技类游戏模式和养成类游戏模式

竞技类游戏模式

养成类游戏模式

强化学习——马尔可夫决策过程

基本概念

MDP 求解

最优方程

最优策略（Optimal Policy）

基于 MDP 的游戏化解读

游戏化的最终目标

针对人类的 Reward 的性质

获得、拥有

进步和成长

探索未知

史诗意义与使命感

损失与逃避心理

社交

Reward 的约束

行为经济学与 MDP

前景理论

确定效应和反射效应

参照依赖

心帐理论