Lebesgue 空间中的向量平衡

背景与主要定理

Defn(高斯测度):对于一个集合 SRnS\subseteq \mathbb R^n,其高斯测度为:

γn(S)S(12π)nexp(12x22)\gamma_n(S)\triangleq \int_S \left( \dfrac 1{\sqrt{2\pi}} \right)^n \exp\left(-\dfrac 12 \|x\|_2^2\right)

Thm:对于任何常数 α>0\alpha>0,都存在;两个依赖于 α\alpha 的数 ϵ>0,δ>0\epsilon>0,\delta>0,使得:

KRnK\subseteq \mathbb R^n 是一个中心对称的凸集(即 xKxKx\in K\Longleftrightarrow -x\in K),且 γn(K)eαn\gamma_n(K)\ge \text e^{-\alpha n},则存在一个随机多项式时间算法,可找到一个 xK[ϵ,ϵ]nx\in K\cap [-\epsilon,\epsilon]^n,使得:

#{i[n]xi{ϵ,ϵ}}δn\#\{ i\in [n]\mid x_i\in\{-\epsilon,\epsilon\} \}\ge \delta n

并且该算法的错误概率至多为 eΘϵ,δ(n)\text e^{\Theta_{\epsilon,\delta}(n)}

算法具体执行过程如下:

  1. 随机一个向量 x0N(0,In)x_0\sim \mathcal N(0,I_n)
  2. 求解这样一个优化问题:x=argmin{xx02xK[ϵ,ϵ]n}x=\text{argmin}\{\|x-x_0\|_2 \mid x\in K\cap [-\epsilon,\epsilon]^n\}
  3. 输出 xx

前置引理

我们不加证明的使用如下几个引理:

Lemma 1:f:RnRf:\mathbb R^n\to \mathbb RLL-Lipschitz 连续的函数,则:

PrxN(0,In)[f(x)E[f(x)]>Lt]et2/2\Pr_{x\sim \mathcal N(0,I_n)}[|f(x)-\mathbb E[f(x)]|> Lt]\le\text e^{-t^2/2}

Lemma 2(Šidak-Kathri Formula):KRnK\subseteq \mathbb R^n 是一个中心对称的凸集,而 SS 定义为:对于一个确定的 aaS={xRna,x<1}S=\{x\in \mathbb R^n\mid |\langle a,x\rangle|<1\},则 γn(KS)γn(K)γn(S)\gamma_n(K ∩S) ≥ γ_n(K )·γ_n(S)

Lemma 3(Gaussian Variant of Urysohn’s Inequality):KRnK\subseteq \mathbb R^n 是一个中心对称的凸集,而 r>0r>0 为一个实数使得 γn(K)=γn(rB2n)\gamma_n(K)=\gamma_n(rB_2^n),则 w(K)w(rB2n)=rw(K)\ge w(rB_2^n)=r,其中:

w(K)=EgN(0,In)[maxxKg,x]w(K)=\mathop{\mathbb E}\limits_{g\sim \mathcal N(0,I_n)}\left[\max_{x\in K}\langle g,x \rangle\right]

几个技术引理

Lemma 4:KRnK\subseteq \mathbb R^n 是一个中心对称的凸集,且 γn(K)eαn (α>0)\gamma_n(K)\ge \text e^{-\alpha n}\ (\alpha>0),则 w(K)12eαnw(K)\ge\dfrac 12 \text e^{-\alpha}\sqrt n

Proof:r>0r>0 是一个实数使得 γn(K)=γn(rB2n)\gamma_n(K)=\gamma_n(rB_2^n),则由 Lemma 3 可知 w(K)rw(K)\ge r,我们转而去寻找 rr 的下界。

又由基本事实 2nVoln(nB2n)5n (n1)2^n\le \text{Vol}_n(\sqrt n B_2^n)\le 5^n\ (n\ge 1),其中 Voln(Q)\text{Vol}_n(Q)QQ 的 Lebesgue 测度。而且高斯测度在 00 处取最大值 γn(0)=(12π)n\gamma_n(0)=\left(\dfrac 1{\sqrt{2\pi}}\right)^n,故:

γn(n2eαB2n)Voln(n2eαB2n)γn(0)(52eα)n(12π)neαn\gamma_n\left(\dfrac{\sqrt n}{2\text e^\alpha}B_2^n\right)\le \text{Vol}_n\left(\dfrac{\sqrt n}{2\text e^\alpha}B_2^n\right)\cdot \gamma_n(0)\le \left(\dfrac 5{2\text e^\alpha}\right)^n\left(\dfrac 1{\sqrt{2\pi}}\right)^n\le \text e^{-\alpha n}

rn2eαr\ge \dfrac{\sqrt n}{2\text e^\alpha}\Box

Lemma 5:KRnK\subseteq \mathbb R^n 是一个中心对称的凸集,且 γn(K)eαn (α1)\gamma_n(K)\ge \text e^{-\alpha n}\ (\alpha\ge 1)。则对于充分大的 nn,有:

ExN(0,In)[d(x,K)]n(11512αe4α)\mathop{\mathbb E}\limits_{x\sim \mathcal N(0,I_n)}[d(x,K)]\le \sqrt n\left(1-\dfrac 1{512\alpha \text e^{4\alpha}} \right)

Proof: 注意到 2\ell_2 范数是 11-Lipschitz 连续的,而且 ExN(0,In)[x2]n\mathop{\mathbb E}\limits_{x\sim \mathcal N(0,I_n)}[\|x\|_2]\le\sqrt n,故由 Lemma 1 可得 PrxN(0,In)[x24αn]e2αn\Pr\limits_{x\sim \mathcal N(0,I_n)}[\|x\|_2\ge 4\sqrt{\alpha n}]\le \text e^{-2\alpha n}

所以对于 QK4αnB2nQ\triangleq K\cap 4\sqrt{\alpha n}B_2^n,若 nn 充分大,则有 γn(Q)γn(K)e2αne2αn\gamma_n(Q)\ge \gamma_n(K)-\text e^{-2\alpha n}\ge \text e^{-2\alpha n}。故由 Lemma 4 可得 w(Q)n2e2αw(Q)\ge \dfrac{\sqrt n}{2\text e^{2\alpha}}

对于 xx,设 z(x)=argmax{z,xzQ}z(x)=\text{argmax}\{\langle z,x\rangle \mid z\in Q\},故有 Lemma 3 有:

w(Q)=ExN(0,In)[z(x),x/x2]n2e2αw(Q)=\mathop{\mathbb E}\limits_{x\sim \mathcal N(0,I_n)}[\langle z(x),x/\|x\|_2 \rangle]\ge \dfrac{\sqrt n}{2\text e^{2\alpha}}

pic

λ[0,1]\lambda\in [0,1] 为一待定的参数,我们研究 xλz(x)2\|x-\lambda z(x)\|_2 的期望(这是一个关键的 idea,用参数 λ\lambda 可以更加方便的 bound 上界)。

ExN(0,In)[xλz(x)22]=E[x22]2λE[x,z(x)]+λ2E[z(x)22]=E[x22]2λE[x2]EθSn[θ,z(θ)]+λ2E[z(x)22]n2λ12nn/(2e2α)+λ216αn\begin{aligned} \mathop{\mathbb E}\limits_{x\sim N(0,I_n)}[\|x-\lambda z(x)\|_2^2] & =\mathbb E[\|x\|_2^2]-2\lambda\mathbb E[\langle x,z(x)\rangle]+\lambda^2\mathbb E[\|z(x)\|_2^2] \\ & =\mathbb E[\|x\|_2^2]-2\lambda\mathbb E[\|x\|_2]\cdot \mathop{\mathbb E}\limits_{\theta\in \mathbb S^n}[\langle \theta,z(\theta)\rangle]+\lambda^2\mathbb E[\|z(x)\|_2^2] \\ & \le n-2\lambda \cdot \dfrac 12\sqrt n\cdot \sqrt n/(2\text e^{2\alpha})+\lambda^2\cdot 16\alpha n \end{aligned}

λ=1/(64αe2α)\lambda=1/(64\alpha\text e^{2\alpha}),可得:

ExN(0,In)[xλz(x)22]n(11256e4α)\mathop{\mathbb E}\limits_{x\sim N(0,I_n)}[\|x-\lambda z(x)\|_2^2]\le n\left(1-\dfrac 1{256\text e^{4\alpha}} \right)

所以:

ExN(0,In)[d(x,K)]ExN(0,In)[xλz(x)2]E[xλz(x)22]1/2n11256e4αn(11512e2α)\mathop{\mathbb E}\limits_{x\sim \mathcal N(0,I_n)}[d(x,K)]\le \mathop{\mathbb E}\limits_{x\sim N(0,I_n)}[\|x-\lambda z(x)\|_2] \\ \le \mathbb E[\|x-\lambda z(x)\|_2^2]^{1/2}\le \sqrt n \cdot \sqrt{1-\dfrac{1}{256\text e^{4\alpha}}}\le \sqrt n\left(1-\dfrac{1}{512\text e^{2\alpha}}\right)

期中第二个不等号用了 Jensen 不等式,最后一个不等号用了 Taylor 展开。\Box

Lemma 6:ϵ>0\epsilon>0 为一常数,则对于充分大的 nn,有:

PrxN(0,In)[d(x,[ϵ,ϵ]n)(15ϵ)n]1exp(ϵ2n/2)\Pr_{x\sim \mathcal N(0,I_n)}[d(x,[-\epsilon,\epsilon]^n)\ge (1-5\epsilon)\sqrt n]\ge 1-\exp(-\epsilon^2n/2)

Proof: 我们对 xx 的每一个分量 xi (i[n])x_i\ (i\in [n]) 分别来分析:

E[d(xi,[ϵ,ϵ])2]=E[(xiyi)2]=E[xi2]2E[xiyi]+E[yi2]12ϵE[xi]=12ϵ2/π12ϵ\mathbb E[d(x_i,[-\epsilon,\epsilon])^2]=\mathbb E[(x_i-y_i)^2]=\mathbb E[x_i^2]-2\mathbb E[x_iy_i]+\mathbb E[y_i^2] \\ \ge 1-2\epsilon \mathbb E[|x_i|]=1-2\epsilon\sqrt{2/\pi}\ge 1-2\epsilon

再由 Lemma1 可知:

Pr[F(x)<E[F(x)]ϵn]exp(ϵ2n/2)\Pr\left[ F(x)<\mathbb E[F(x)]-\epsilon\sqrt n \right]\le \exp(-\epsilon^2 n/2)

故得证。\Box

主要定理的证明

有了这些技术引理的准备,我们可以开始证明主要定理。

我们先把上面介绍的算法再写一遍:

  1. 随机一个向量 x0N(0,In)x_0\sim \mathcal N(0,I_n)
  2. 求解这样一个优化问题:x=argmin{xx02xK[ϵ,ϵ]n}x=\text{argmin}\{\|x-x_0\|_2 \mid x\in K\cap [-\epsilon,\epsilon]^n\}
  3. 输出 xx

Proof of Thm:x0x_0 为第一步选出来的随机向量,而 xx^* 是第二步中解出来的最优解。

E1d(x0,[ϵ,ϵ]n)(15ϵ)nE2d(x0,K)(110ϵ)n, I[n] and Iδn\mathcal E_1\triangleq“d(x_0,[-\epsilon,\epsilon]^n)\ge (1-5\epsilon)\sqrt n” \\ \mathcal E_2\triangleq “d(x_0,K)\le (1-10\epsilon)\sqrt n,\ \forall I\in [n]\text{ and }|I|\le \delta n”

由 Lemma 6 可知 Pr[E1]1exp(ϵ2n/2)\Pr[\mathcal E_1]\ge 1-\exp(-\epsilon^2 n/2)\Box

更多

实际上原文中主要定理的形式是更加一般的、它定义了对于一个子空间的高斯测度 γH\gamma_H,而且长方体的形状也由 [ϵ,ϵ]n[-\epsilon,\epsilon]^n 这样非常简单的形式扩展到了 [L,R] (L>0,R>0)[-\bm L,\bm R]\ (\bm L>\bm 0,\bm R> \bm 0) 这样更加一般的形式。但从证明上来说没有任何本质的区别。

这个算法的主要好处就是对 α\alpha 是没有限制的,α\alpha 可以变得非常大,使得这个算法对高斯测度很小的凸集也适用。实际上,这篇论文是 [Rot14] 结果的改进,[Rot14] 中对 α\alpha 的大小是有要求的。

但这个算法不够快,这是因为要解的问题不是一个性质更好的线性规划问题。在论文 [ES18] 中,R. Eldan 和 M. Singh 提出了一个线性规划算法:

Thm:对于任何常数 0<ϵ<(12/π32)40<\epsilon <\left(\dfrac{1-\sqrt{2/\pi}}{32}\right)^4,存在一个依赖于 ϵ\epsilon 的常数 δ\delta,使得:存在一个多项时间的随机算法,对于任意满足 γn(K)eϵn\gamma_n(K)\ge \text e^{-\epsilon n} 对称凸集 KRnK\subseteq \mathbb R^n,可以找到一个 xK[1,1]nx\in K\cap [-1,1]^n,使得 #{i[n]xi=1}δn\#\{i\in [n]\mid |x_i|=1\}\ge \delta n,成功概率至少为 12\dfrac 12

而算法如下:

  1. 随机一个向量 x0N(0,In)x_0\sim \mathcal N(0,I_n)
  2. 求解这样一个优化问题:x=argmax{x0,xxK[1,1]n}x=\text{argmax}\{\langle x_0,x \rangle \mid x\in K\cap [-1,1]^n\}
  3. 输出 xx

但是从定理描述中也可以看到其对 ϵ\epsilon 是有限制的,一个 open problem 就是是否能去掉这一限制。

参考文献

[ES18] R. Eldan and M. Singh. Efficient algorithms for discrepancy minimization in convex sets. Random Struct. Algorithms, 53(2):289–307, 2018.

[Rot14] T. Rothvoß. Constructive discrepancy minimization for convex sets. In 55th IEEE Annual Symposium on Foundations of Computer Science, FOCS 2014, Philadelphia, PA, USA, October 18-21, 2014, pages 140–145, 2014.

[3] 王浩宇学长 2024/3/9 组会演讲