分类目录归档:机器学习

【转】关于 AlphaGo 论文的阅读笔记

2016 年 1 月 28 日,Deepmind 公司在 Nature 杂志发表论文 Mastering the game of Go with deep neural networks and tree search,介绍了 AlphaGo 程序的细节。本文是对这篇论文的阅读笔记,以及关于人工智能和围棋进一步的一些想法。

声明:我是数学 PhD 和软件工程师,但不是人工智能领域的专家。我也不会下围棋。

一、

AlphaGo 总体上由两个神经网络构成,以下我把它们简单称为「两个大脑」,这并非原文中的提法,只是我的一个比喻。

第一个大脑(Policy Network)的作用是在当前局面下判断下一步可以在哪里走子。它有两种学习模式:

一个是简单模式,它通过观察 KGS(一个围棋对弈服务器)上的对局数据来训练。粗略地说:这可以理解为让大脑学习「定式」,也就是在一个给定的局面下人类一般会怎么走,这种学习不涉及对优劣的判断。

另一个是自我强化学习模式,它通过自己和自己的海量对局的最终胜负来学习评价每一步走子的优劣。因为是自我对局,数据量可以无限增长。

第二个大脑(Value Network)的作用是学习评估整体盘面的优劣。它也是通过海量自我对局来训练的(因为采用人类对局会因为数据太少而失败)。

在对弈时,这两个大脑是这样协同工作的:

第一个大脑的简单模式会判断出在当前局面下有哪些走法值得考虑。

第一个大脑的复杂模式通过蒙特卡洛树来展开各种走法,即所谓的「算棋」,以判断每种走法的优劣。在这个计算过程中,第二个大脑会协助第一个大脑通过判断局面来砍掉大量不值得深入考虑的分岔树,从而大大提高计算效率。

与此同时,第二个大脑本身通过下一步棋导致的新局面的优劣本身也能给出关于下一步棋的建议。

最终,两个大脑的建议被平均加权,做出最终的决定。

在论文中一个有趣的结论是:两个大脑取平均的结果比依赖两者各自得出的结果都要好很多。这应当是让 AlphaGo 表现出和人类相似性的关键所在。

二、

如果我是这篇论文的审稿人,我会对论文提出下面这些问题和评论:

首先,这些神经网络训练在很大程度上是通过自我对局来实现的。这既是某种优势(按照 Facebook 人工智能研究员田渊栋的说法,几千万自我对局这种规模是相当惊人的数据量),某种程度上来说也是不得已而为之,因为人类对局的总数实在太少,会导致机器学习中常见的过度拟合问题。

但是这样是否有可能造成自我设限乃至画地为牢的后果?这同时牵涉到人们对神经网络学习过程的理解和对围棋本身的理解。一方面,神经网络本身是否包容一定程度的「think out of the box」的能力,这固然取决于具体的神经网络算法,但也确实是人们对神经网络方法的一个本质困惑。另一方面,因为 AlphaGo 最基础的定式仍然是来源于人类对局,因此,这个问题依赖于人类棋手本身是否已经穷尽了围棋中所有有意义的基本定式。

(作为一个案例,在 AlphaGo 和樊麾的第二盘对局中,很多人都注意到 AlphaGo 走了一个不标准的大雪崩定式,这是说明 AI 学错了呢,还是它发现这是更好的走法?)

其次,这两个大脑的工作方式确实和人类很相似,一个判断细部,一个纵览全局。但 AlphaGo 最终的结合两者的方式相当简单粗暴:让两者各自评估一下每种可能的优劣,然后取一个平均数。这可绝不是人类的思维方式。

对人类来说,这两种思考问题的方式的结合要复杂的多(不仅仅是在围棋中是这样)。人们并不是总是同时对事态做出宏观和微观的判断,而是有时候侧重于大局,有时候侧重于细部。具体的精力分配取决于事态本身,也取决于人在当时的情绪、心理和潜意识应激反应。这当然是人类不完美之处,但也是人类行为丰富性的源泉。

而 AlphaGo 固然体现出一定的大局观,但从具体算法看来,它在为了宏观优势做出局部牺牲这方面的能力和人类完全不能相提并论。AlphaGo 引入整体盘面评估确实是它胜于许多别的围棋 AI 的地方,但从根本上来说,这只是人们让 AI 具有「战略思维」的尝试的第一步,还有太多可以改进的可能性。

最后,和很多别的围棋 AI 一样,当 AlphaGo 学习盘面判断的时候,采用的是图像处理的技术,也就是把围棋棋盘当做一张照片来对待。这当然在技术上是很自然的选择,但是围棋棋局究竟不是一般意义上的图案,它是否具有某些特质是常见的图像处理方法本身并不擅长处理的呢?

三、

为什么要让人工智能去下围棋?有很多理由。但在我看来最重要的一个,是能够让我们更深入地理解智能这件事的本质。

神经网络和机器学习在过去十年里跃进式的发展,确实让 AI 做到了许多之前只有人脑才能做到的事。但这并不意味着 AI 的思维方式接近了人类。而且吊诡的是,AI 在计算能力上的巨大进步,反而掩盖了它在学习人类思维方式上的短板。

以 AlphaGo 为例。和国际象棋中的深蓝系统相比,AlphaGo 已经和人类接近了许多。深蓝仍然依赖于人类外部定义的价值函数,所以本质上只是个高效计算器,但 AlphaGo 的价值判断是自我习得的,这就有了人的影子。然而如前所述,AlphaGo 的进步依赖于海量的自我对局数目,这当然是它的长处,但也恰好说明它并未真正掌握人类的学习能力。一个人类棋手一生至多下几千局棋,就能掌握 AlphaGo 在几百万局棋中所训练出的判断力,这足以说明,人类学习过程中还有某种本质是暂时还无法用当前的神经网络程序来刻画的。

(顺便提一句,很多评论认为 AlphaGo 能够通过观察一个特定棋手的对局来了解他的棋风以做出相应的对策。至少从论文来看,这几乎确定是不可能的事。一个棋手的对局数对 AlphaGo 来说实在太少,无从对神经网络构成有效的训练。观察和总结一个人的「棋风」这件事仍然是人类具有完全优势的能力,对电脑来说,这恐怕比赢棋本身还更难一些。)

这当然不是说,AlphaGo 应该试图去复刻一个人类棋手的大脑。但是 AlphaGo 的意义当然也不应该仅仅反映在它最终的棋力上。它是如何成长的?成长曲线具有什么规律?它的不同参数设置如何影响它的综合能力?这些不同参数是否就对应了不同的棋风和性格?如果有另一个不同但水平相当的 AI 和它反复对弈,它能否从对方身上「学到」和自我对弈不同的能力?对这些问题的研究和回答,恐怕比单纯观察它是否有朝一日能够超越人类要告诉我们多得多的知识。

因此,即使 AlphaGo 在三月份战胜了李世乭,在我看来也是另一扇大门的开启而非关闭。事实上,即使就围棋发展本身而论,如果把 AlphaGo 的两个大脑以如此简单的方式线性耦合起来就能胜过人类,那只能说明人们对围棋的规律还有太多值得探索的空间。

而对人工智能领域来说,AlphaGo 和一切神经网络一样,本质上还只是个大黑盒,我们能观察到它表现出的巨大能力,但对它究竟是如何「思考」的这件事依然所知甚少。在工程上,这是个伟大的胜利。在科学上,这只是万里长征的第一步而已。


 

AlphaGo 项目主页:http://www.deepmind.com/alpha-go.html

Nature 论文:http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

Nature 报道:http://www.nature.com/news/google-ai-algorithm-masters-ancient-game-of-go-1.19234

Dan Maas 对论文的浅显总结:http://www.dcine.com/2016/01/28/alphago/ 


本文转载自:http://36kr.com/p/5042969.html

Logistic函数(sigmoid函数)

一.Logistic函数

Logistic函数的表示形式如下:

QQ截图20160115170338

它的函数图像如下,由于函数图像很像一个“S”型,所以该函数又叫 sigmoid 函数。

QQ截图20160115164821

满足的性质:

1.对称性,关于(0,0.5)中心对称

QQ截图20160115170601

2.逻辑斯谛方程即微分方程

QQ截图20160115170825

最早logistic函数是皮埃尔·弗朗索瓦·韦吕勒在1844或1845年在研究它与人口增长的关系时命名的。广义Logistic曲线可以模仿一些情况人口增长(P)的 S 形曲线。起初阶段大致是指数增长;然后随着开始变得饱和,增加变慢;最后,达到成熟时增加停止。

当一个物种迁入到一个新生态系统中后,其数量会发生变化。假设该物种的起始数量小于环境的最大容纳量,则数量会增长。该物种在此生态系统中有天敌、食物、空间等资源也不足(非理想环境),则增长函数满足逻辑斯谛方程,图像呈S形,此方程是描述在资源有限的条件下种群增长规律的一个最佳数学模型。在以下内容中将具体介绍逻辑斯谛方程的原理、生态学意义及其应用。

二.Logistic Regression(逻辑斯蒂回归)

Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测,也就是根据某广告被用户点击的可能性,把最可能被用户点击的广告摆在用户能看到的地方,然后叫他“你点我啊!”用户点了,你就有钱收了。这就是为什么我们的电脑现在广告泛滥的原因了。

还有类似的某用户购买某商品的可能性,某病人患有某种疾病的可能性啊等等。这个世界是随机的(当然了,人为的确定性系统除外,但也有可能有噪声或产生错误的结果,只是这个错误发生的可能性太小了,小到千万年不遇,小到忽略不计而已),所以万物的发生都可以用可能性或者几率(Odds)来表达。“几率”指的是某事物发生的可能性与不发生的可能性的比值。

Logistic regression可以用来回归,也可以用来分类,主要是二分类。它不像SVM直接给出一个分类的结果,Logistic Regression给出的是这个样本属于正类或者负类的可能性是多少,当然在多分类的系统中给出的是属于不同类别的可能性,进而通过可能性来分类。

假设我们的样本是{x, y},y是0或者1,表示正类或者负类,x是我们的m维的样本特征向量。那么这个样本x属于正类,也就是y=1的“概率”可以通过下面的逻辑函数来表示:

QQ截图20160125200523

这里的θ是模型参数,也就是回归系数,σ是sigmoid函数。这样y=0的“概率”就是:

QQ截图20160125200514

考查逻辑斯蒂回归模型的特点,一个事件的几率(oods)是指这件事发生的概率与不发生概率的比值,如果事件发生的概率是p,那么该事件的几率是p/(1-p),该事件的对数几率(log odds)或者logit函数是

QQ截图20160125163555

对于逻辑斯蒂回归而言,可以得到如下的对数几率

QQ截图20160125163606

这就是说,在逻辑斯蒂回归模型中,输出y=1的对数几率是输入x的线性函数,或者说,输出y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯蒂回归模型。换句话说,y就是我们的关系变量,例如她喜不喜欢你,与多个因素有关,比如你的人品,你的长相,你是否有钱等。我们把这些因素表示成变量x1, x2,…, xm,那么这个女生是怎么考虑这些因素的呢,每个人心理其实都有一杆秤,例如有人比较看重你的人品,人品的权重是0.8,;也有人比较看重你有钱,有钱的权重设置成0.7等等。我们把这些对应于x1, x2,…, xm的权值叫做回归系数,表达为θ1, θ2,…, θm。他们的加权和就是你在心目中的得分。

三.模型参数学习

在参数学习时,可以用极大似然估计方法求解。假设我们有n个独立的训练样本{(x1, y1) ,(x2, y2),…, (xn, yn)},y={0, 1}。那每一个观察到的样本(xi, yi)出现的概率是

QQ截图20160125194639

对于整个样本集,每个样本的出现都是独立的,n个样本出现的似然函数为(n个样本的出现概率是他们各自的概率乘积)

QQ截图20160125194648

那么上述的似然函数就是模型的代价函数(cost function),我们要求的参数就是θ*。我们稍微对上式进行转换

QQ截图20160125194659

对L(θ)的极大值,得到θ的估计值。问题变成了以对数似然函数为木匾函数的最优化问题。用L(θ)对θ求导,得到

QQ截图20160125195933

无法解析求解的,所以一般使用迭代的方法求解,通常采用梯度下降法和拟牛顿法。

四.多项逻辑斯蒂回归

上面介绍的是儿分类的模型,用于二类分类。可以将其推广为多项逻辑斯蒂回归模型(multi-nominal regression model),用于多分类,假设离散随机变量Y的取值是{1,2,3,…,K}那么多项逻辑斯蒂回归的模型是

QQ截图20160125213742

同理,二项逻辑斯蒂回归的参数估计的方法也可以推广到多项逻辑斯蒂回归。

 

参考资料:

[1].机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)

[2].《统计学习方法》 李航 著

【转】卖萌的大牛你桑不起啊 ——记CVPR2011一篇极品文章

   CVPR2011正在如火如荼的进行中,在网上能看到的部分文章中,我终于找到一篇让我眼前冒光的文章。虽然,其实,也许,主要的理由是我好不容易能看懂一篇。不过,这并不妨碍该文章定会成为今年CVPR的一朵奇葩这件事。不过它肯定拿不了best paper啦,因为它只是篇poster,但我猜也许是组委会认为如果让他们当oral,大牛现场卖萌会雷死观众,并可能引起大面积恐慌。

   鉴于我没有找到更好的平台共享这一发现,就只好先放到校内了。不过这个主题不光是对计算机视觉的人有意义,只要是搞数据的人都会有些用处吧。

   文章题目是:Unbiased Look at Dataset Bias,无偏见的研究数据集偏见。首先看看作者,一个是MIT的Antonio Torralba,另一个是CMU的Alexei A. Efros。 MIT和CMU在计算机视觉领域是两个绝对的巨人,无人能望其项背。这两个人这几年刚拿到副教授职位,而且又是那种论文又高产又高质的家伙。要注意哦,这篇文章没有研究僧,也就是说,这是一篇大牛和大牛的强强联合之作。也正是如此,该文章发挥出了大牛卖萌的极致。满篇充斥着“矮油”(alas),“让我们玩儿个游戏/玩具实验(toy experiment)”等等,各种你很难在一般论文里看到的搞笑语言。特别是文章的致谢和声明:

   The authors would like to thank the Eyjafjallajokull volcano as well as the wonderful kirs at the Buvette in Jardin du Luxembourg for the motivation (former) and the inspiration (latter) to write this paper. “作者要感谢埃Eyjafjallajokull的火山(就是2010年冰岛那个倒霉的让欧洲航线大面积瘫痪的火山)以及Buvette in Jardin du Luxembourg(法国一个酒吧)的美味基尔酒,前者给了我们写作的动机,而后者给了我们灵感。”我猜测是那个时候他们在法国开会,结果被火山给关在那儿了,几个无聊的人只好跑去酒吧喝酒,于是在酒精的刺激下想出了这个题目。唉,大牛就是大牛,这种时候都能搞出这样一篇文章,让我等草民怎么活啊,以后天天去喝酒好了。

   Disclaimer: No graduate students were harmed in the production of this paper. Authors are listed in order of increasing procrastination ability.

   声明:没有研究僧在制作论文的过程中受到伤害(喂喂,难道研究僧是保护动物么?那有木有研究僧保护协会啊?啊?有木有?)。作者是按照拖延症的程度顺次递增排列(看来大牛们也有同样问题)。

   如此搞笑的文章,真的让人欲罢不能。关键是两位大牛在疯狂卖萌的同时,适时的提出了一个计算机视觉界一个极富有争议的问题,并做了很好的分析,可能会在未来很多年掀起一个风气。不得不说,两位大牛挖了一个超级NB的大坑。来来来,让我们一起跳下去吧。

   计算机视觉里面很大一块是在做物体检测、识别、分类(object detection, recognition, classification)。为了公平的比较不同的算法,大家就设计出了很多数据集(dataset)作为基准(benchmark)来比较算法的性能。所以,当你阅读了灰常多的论文后,你会发现,大家的实验部分都会说:在某某个数据集上我的算法是最牛X的;在某某数据集上我的算法和当前最牛X的其他地方差不多,但速度快/准确率高/误报率低;虽然我的算法在某数据集一般,但几个数据集一平均,我的最牛X…… 但是,这些数据集真的可以评价算法的优劣么?两位大牛向这些数据集提出了挑战。

   首先,咱玩儿个游戏,叫连线配对,下面的每组图片都是从同一个数据集挑出的,请把他们和正确的数据集名称对应起来:

b_large_MBdE_664b0001b88d5c42.jpg

   在他们的实验室(大家都是搞这些的),所有人配对的正确率超过75%。其实随便看看也能看出门道,有的数据集就是车,有的就是自然景色,有的就是局部场景,有的就是实物,有的就是干净背景,有的就是专业摄影师拍摄的,有的就是随便找的等等。所以,尽管大多数数据集都号称“我们尽可能的多样化,非刻意的人工的(in the wild)寻找样本”,但事实上还是带了偏见了。为了验证这个假设,他们用最简单的一些特征训练了一个12路分类器,结果,分类效果还不错,每类分正确的比例最小也有20%,有6个超过30%,1个超过99%,要知道随机猜对的概率只有1/12 =8%。而且当训练数据慢慢增多到每类1000个时,正确率还没有收敛的迹象。一般来说,分类效果越好,证明两个类别的区分度越高,也可以说不同的数据集来自“不同的世界”,而随着样本量增加,还很有可能区分度越来越高。我勒个去,你们都说自己“多样化”的描述了这个世界,而实验却证明你们表现了不同世界,你们太坑爹了!特别是Caltech101,人家分类器正确率都99%了,你到底描述了一个多么简单的世界啊!桑不起啊桑不起!大牛指出,和机器学习领域不同,它们的数据集就是它们自己的世界。而视觉领域不同,于是大牛把这些“伪世界”称为“Corel世界”“Caltech101世界”“PASCAL VOL世界”等等,还是非常形象的。

   那么换个角度,不同数据集中的同一个物体(例如车、人)会不会相对比较相似呢,如果相似不就说明他们还是展现了同一个世界,只不过角度不同嘛。 b_large_MwwS_37e50001bfdb5c3f.jpg

   遗憾的是,即使是同一种物体,偏见还是大大的存在,人眼都看的出来!为了谨慎,作者还是对上述5个例子做了相同实验,结果分类器正确率61% 远大于随机猜对的20%。所以,别说你们什么“多样化”了,神马都是浮云,事实证明,没有偏见的数据集到现在还没出生呢。

   文章的小标题写作“序幕”(prologue)…..“尾声”(epilogue),二位果然是在演一台卖萌大戏啊。文章首先回顾了视觉领域数据集的发展史,然后声讨了一下数据集带给这个领域的坏处。“这个领域过度的追求数据评估,浪费很多时间在precision-recall曲线上而不是在像素上”,“现在的研究都是在前人基础上,而很少有完全创新工作,因为全新的工作刚开始肯定拼不过那些经过认真细致调教的算法”,“大家越来越多的关注自己的算法在某一个数据集上胜出,而从不考虑它是不是有统计显著性”。大牛啊,你们道出了我们的心声啊!!大牛还说,从发展史看出,尽管我们不停的说要避免“偏见”,但每一个新数据集都不可避免的进入了另一种“偏见”,如果不搞明白到底错在哪儿,我们注定会继续错下去的。

   如果要谈“偏见”我们就得有个标准,即观测者和任务(人看到的世界和鸟看到的肯定不同)。好吧,那我们就定义“给定人类感受到的典型视觉环境世界,任务是去检测其中的常见物体”。那么“偏见”就是拿一个数据集和真实视觉世界作比较。而真实世界,呃,我们得拿另一个数据集做代表,而另一个数据集,呃,它还是带偏见的。肿么办?肿么办?还是大牛比较聪明,他们提出了如下方法,即交叉检验。

   用一个数据集上训练的分类器去分类另一个数据集。因为我们前提假定这些数据集都是在描绘同一个世界,那么就可以分出优劣了。具体的任务分为两个,一个叫做分类(classification),即给定一张图,指它是否包含某个特定物体。一个叫做检测(detection),即给定一张图,找出所有特定物体并指出它们的位置。 实验结果表明,两个任务基本都是,在任一个数据集上做的分类器,在其数据集上的效果都会变差,平均而言下降了40%左右,是非常显著的。而且要不是因为有Caltech101和MSRC这两个各种简单的数据集罩着,可能下降更多。

   作者分析偏见的罪魁祸首估计是这么几个:1.“选择偏见”,大家更偏爱选择某类数据,例如风景、街景、或用关键词搜索的网络图片。2.“拍照偏见”,摄影师更喜欢用相似角度拍同一种物体。3.“标签偏见”,特别是语义分类的时候,同种东西可能有不同称呼,例如“草地”“草坪”,“绘画”“图片”。4.“负样本偏见”,对于分类器而言,想要分出来的东西是正样本,其余都是负样本。一般来说,负样本应该是无穷大的,但实际上,我们只能用有限多的负样本。那么这些有限的负样本有代表性么?足够了么?

   我们再做个实验,对每个数据集用它们自己的正负样本训练分类器,但测试时,从所有的数据中挑选负样本。如果错分率增加,说明其他数据集的负样本被这个分类器当成了正样本,进一步说明不同数据集的负样本是不同的。结果也证实了我们的猜测,有3个数据集中招了,错分率增加了20%,但ImageNet,Caltech101, MSRC没有中招。据分析,ImageNet确实负样本丰富多样,这个实验没有给它造成困扰。但是,另外两个嘛,你们太特么简单了,简单到不会分错啊。简单的数据集尼桑不起啊!

   至于是否足够?这里作者提出了一个有意思的问题。当我们要分类“船”的时候,假如你的船样本都在水里,你怎么知道“懒惰的”分类器不是提取了“水”或者“岸”的特征呢?因此这确实很重要,但限于要求有大量的人力标定工作,暂时还没有做,不过有了Mechanical Turk我们可以以后慢慢来。

   讨论完数据集的偏见,我们可以讨论一下数据集的价值,特别偏见的价值就少,无偏见的价值就应该高。想象一下如果我们想提高一个分类器的准确率,当然牛X人选择改进特征、物体表示方法以及学习算法,而简单些的则是扩大样本数量。但讨厌的是,样本数量的增大和准确率的提高是一个倒霉的对数关系,要想增加一点儿准确率,需要指数级增长的样本量;另一方面,如前所述,如果增加了不是同一种“偏见”关系的样本,可能还会造成负增长。

   那么问题来了,我们到底能不能用一个数据集的样本去提高另一个数据集的准确率呢?或者说怎么定义它们的关系呢?神奇的大牛给了我们如下方法: 

假设从A数据集用1000个样本训练出的分类器,测A的数据集得到的平均precision-recall值(一种正确率)是30,又假设用B数据集训练出的分类器测A数据集,要想得到30的值需要5000个样本。 那么这两个数据集的关系就是1000/5000 = 0.2,也就是说一个A中的样本值0.2个B中的样本。 b_large_bLse_44f00001bef05c71.jpg

这样一来,数据集市场就呈现出这样一种兑换关系,要想在PASCAL的市场上将用1250个训练出的分类器增加10%的准确率,那么你需要1/0.26125010=50000个LabelMe样本,好不值钱啊!而且你会发现,每个数据集都是“我的市场我做主”,其他数据集在自己市场永远是不值钱的。所以如果你要问,如果用当前的数据集训练一个真实世界的分类器,这些数据集值多少钱呢?那我的回答恐怕只能是“聊胜于无”了。

   也许会有人说,这不是数据集的错,而是你的表示物体的方法、训练算法有问题,最终都会“过学习”使得看上去是数据集的错。你看,我们人类学习时候也只见过一小部分实例,但我们的视觉系统克服了这个问题学到了正确的东西。好吧,大牛说,咱退一步,至少现在还不要把所有的错都推给算法,毕竟,如果你的数据集只给出了“从后面观看的赛车”是汽车,你不能期待我的算法能告诉你“侧面看过去的家庭轿车”也是汽车吧。

而就目前情况来看,哪些数据集不错,哪些比较垃圾呢?大牛说,毋庸置疑,Caltech101和MSRC,你们该下岗下岗,该回家回家,赶紧洗洗睡吧。而PASCAL VOC, ImageNet, SUN09看上去还凑合,也许我们正朝着正确的路在走。

   那我们是不是应该关心我们的数据集的质量呢?大牛说,如果你只关心把你的数据集变成一堆特征向量并拿去机器学习的算法里去学习,那就不用管它了。而如果你想弄一种能理解真实世界的算法,那数据集的质量就至关重要了

   那么我们小弱们到底该怎么做呢?大牛解释道,你们应该先试着做做交叉检验,我们很愿意公开代码和数据集(小弱们开始欢呼雀跃)。大牛继续说道,我们再给出几个建议供你们制作数据集时参考:对于“选择偏见”建议你们从多种源获取,例如不同国家的不同搜索引擎,或者你们找一堆没人标记过的图片,然后人肉做标记;对于“拍照偏见”,(嘿嘿,大牛莞尔一笑)你们有没有注意过,google image搜索“mug”绝大多数杯子的手柄都在右边。对于这类问题,我们建议你们做做图像变换,翻转啦,扭曲啦神马的。而对于“负样本偏见”,你们可以加入其他数据的负样本,或者用一些标准算法从没标记过的样本中搜索那些不容易区分的负样本。但这同样是带偏见的,即“增加你算法的难度”偏见。

   最后,大牛略作谦虚的表示,尽管标题是“无偏见的”,但也许我们自己的偏见已然融入了文字中。不过本文的目的是希望大家来一起讨论一下这个重要但又一直被忽略的问题。

   至此,文章戛然而止,留给了我们无限遐想的空间。此文一出,炸开了好大一个坑,不知道多久会被灌满。冥冥之中也得罪了不少人,“我们还想靠着不同数据集的结果吃饭呢!”“我们的方法只能在这个数据集上行得通,你还让不让我们发表了!”“我的结果就是比你的好1.7%,怎么样怎么样!”当然,一群小牛也要跟上,赶紧做交叉检验,赶紧提出各种理论,争取早日灌满此坑。而至于我们这些小弱们,唉,还是不玩儿这么高端的了。老板让干嘛就干嘛,偶尔看看如此卖萌的大牛们就心满意足了。各种羡慕去参会的人们,你们赶紧发游记发pp发总结!!!!