本篇文章6112字,读完约15分钟
本文是首次在微信公共平台上发表:新智元。 文案是作者个人的观点,不代表网络的角度。 投资者据此,风险请自己承担。
新智元译介
作者:汪军张伟楠等
编译:张易
【新智元领先】sigir的三篇strong accept满分采用论文《irgan :大统一新闻检索模式的游戏竞争》( irgan 提出了irgan框架,通过极小化极大算法中的抗性训练统一了生成式和判别式ir模型这两个新闻检索方法学派。 研究者在四个现实世界数据集上对三个典型的ir任务(网络搜索、项目推荐、问答)进行了广泛的实验,并在各自的实验中关注了显著的性能提高。
除了介绍论文的复印件外,我们还特别阐述了研究缘起和研究背后中英两个团队的合作方法,相信会给你带来一定的启发。
作为新闻检索行业的顶级学术会议,在8月7日~11日于东京召开的sigir中,中国研究者提交的论文以3人strong accept的满分被采用,位居362篇论文的首位。
这篇论文的主题是“irgan :大统一新闻检索模型的游戏竞争”( IR GAN:AM MAX GAMEMEForunifying Generative and DISCINATIVIINFMATionretrieval Models 第一作者是在伦敦大学学院( ucl )进行长时间新闻检索( ir )基础研究的汪军教授 另一位通讯作者张伟楠主持了实验工作,他是汪军教授的学生,现在在上海交大任教。 这篇论文是从提案到实验展开,团队反复完成论文写作,中英双方团队合作的结果。 介绍论文复印件后,我们拿出专业的篇幅,为你讲这篇论文背后的故事,希望能给中国研究者一点参考和鼓励。
本文提供了新闻检索建模中两种思维流派的统一描述:重点关注给定查询的相关文档生成检索模型和预测查询文档的关联性的判别检索模型。 我们为了反复优化这两个模型提出了博弈论公式的极小化极大算法。 另一方面,以从被标记的数据和未被标记的数据中发掘比较有效的信号的判别模型为目的,提供了训练生成模型的指导,以应对被给定查询的文档中隐含的关联性分布。 另一方面,作为现有判别模型的攻击者的生成模型通过使其判别目标最小化来对抗的方法,生成对判别模型来说很难的样本。
随着这两个模型之间的竞争,综合框架利用了两种思路: ( I )生成模型通过判别模型的信号学习来适应文件的关联性分布。 ( ii )判别模型利用生成模型选择的无标签数据,可以实现文件排序的更好的判断。 我们的实验结果显示了明显的性能优化,在web检索、推荐、问答系统等各种应用中,precision@5和map分别超过了强基准算法23.96%和15.50%。
新闻检索( ir )的典型方法是提供给定查询的文档(排序)列表。 有广泛的应用程序,包括副本搜索、web搜索、推荐系统、问答和个性化广告。 关于ir理论和建模,通常认为有两个主要的思维流派。
经典的思维流派以文档和新闻诉求(从查询中可以看出)之间存在独立的随机生成过程为前提。 在副本搜索中,新闻搜索的经典关联模型侧重于描述如何从特定新闻诉求生成(关联)文档。 q → d。 其中q表示查询(取决于关键字、客户新闻、问题、特定的ir应用程序),d表示对应的文档(复制文档、商品、回答等),箭头表示生成方向。 值得注意的例子是robertson和sparck jones的二进制独立模型。 其中每个单词标签是独立生成的,形成相关文档。
复制检索的统计语言模型考虑了从文档到查询的逆生成过程: d → q,一般从文档生成查询词(即查询似然函数)。 在词语嵌入的相关事业中,词汇标签是从他们的上下文词汇中生成的。 在推荐的系统应用程序中,还可以从已知上下文项目中生成/选择推荐的目标项目(原始文档空之间)。
现代ir思想的流派认识到机器学习的力量,从标志的关联评价及其代表性的事情(点击和等级等)开始学习判别(分类)处理方案。 将文档和查询结合起来作为特征考虑,根据大量的训练数据预测相关性或排序顺序标签。 q + d → r。 其中r表示相关性,符号+表示特征的组合。 网页搜索的一大进展是学习排序( ltr ),这是一系列机器学习技术,用于正确排序特定查询(或上下文)的文档列表。
学习排序的三种主要模式是“每点”、“每对”和“每列表”。 关于各文献的关联性,逐次法通过学习,接近人们评价的关联性。 配对法被设计为从任意文件对中识别相关性更高的文件。 清单法学习对各查询在整个排行榜列表中定义的(光滑的)损失函数进行优化。 另外,推荐系统的最新研究进展是矩阵分解,顾客特征和项目特征的相互作用模式利用向量内积进行关联性预测。
新闻检索的生成模型在对复制统计、文件识别符空间的分布等特征建模方面理论上是牢固成功的,但在利用来自其他频道的关联性信号(链接、点击等)方面存在很大困难,基于网络的 学习排序等新闻检索判别模型可以从大量的无标签/无标签数据中隐式地学习检索排序函数,但现在从大量的无标签数据中取得有用的特征或收集有用的信号的一般方法不足。 特别是从文档和查询两者或从集合中的相关文档的分布。
本文认为检索模型的生成和判别像同一硬币的两面一样同等重要。 在机器学习中受到对抗网络( gan )的启发,我们提出了博弈论式的极小化极大算法,结合了上述两种思路。 具体地说,定义两个模型共同的检索函数(例如基于判别的目的函数)。 另一方面,判别模型pφ(r | q,d )的目的是通过从标签数据中学习来使目标函数最大化。 这自然地提供了生成超出传统对数似然的搜索模型的替代指导。 另一方面,生成的检索模型pθ (d |q,r )作为挑战者起作用,将判别器推进到极限。 这是因为判别器反复提供最困难的状况,判别器通过对抗地最小化目的函数来重新训练自己。
这样,两种检索模型用极小化极大算法扮演比赛中的双方,努力在每场比赛中“打败”对方。 请观察我们的极小化极大算法与现有的博弈论式ir方法根本不同。 由于现有方法通常试图对客户和系统之间的交互进行建模,因此戴尔方法的目的是统一生成表达式和判别表达式的ir模型。
实际上,我们实现了三个典型的ir应用程序——web搜索、项目推荐和问答——提出的极小化极大搜索框架。 我们的实验表明,极小化极大算法达到了不同的均衡。 这是因为根据环境设定有不同的统一效果。 通过逐次对抗训练,生成搜索模型可以通过判别搜索模型的训练奖励来显著提高。 precision@5中,与几个强标准相比,得到的模型在web检索中提高了22.56%,在项目推荐中提高了14.38%。 另外,通过新的配对对抗训练,判别为大大得到了为了生成检索模型而选择的样本的推进,与选择的强大算法相比,precision@5在网络检索中为23.96%,在precision@1对话任务中为23.96%
算法1
我们提出的irgan处理方案的整体逻辑总结在算法1中。 在对抗训练之前,生成器和判别器可以用普通模型初始化。 然后,在对抗训练阶段,生成器和判别器用式(5)和(3)用别的方法训练。
判别器和生成器是怎么互相帮助的? 关于positive的文件,无论是否被关注,由判别器fφ(q,d )和条件概率密度pθ(d| q,r )给出的关联性得分在某种程度上可能有正相关。 在每个训练阶段,生成器试图生成判别器确定边界的样本,以使生成器对下一次训练感到困惑,判别器努力判别生成的样本。 虽然是positive,但由于unobserved (即true-positive )的样本和(部分)注意到的positive样本之间存在正相关,所以生成器比具有来自判别器的信号的其他样本更早地输出这些positive
图1
为了进一步说明这个过程,以图1所示的水中肥皂为例。 没有注意到的保护皂和注意到的保护皂之间有潜在的连接线(即正相关性),注意到的保护皂永久浮在水面(即判别器的判定边界)上。 判别器起到了将浮在水面上的没有注意到的肥皂落到水面上的作用,生成器有选择地将肥皂作为浮在水面上的水而工作。 即使生成器不能完全适应条件数据分布,也有可能存在在水的不同深度positive和negative的未注意肥皂的分布稳定时得到的动态平衡。 没有注意到的消极肥皂与水面上在意的积极肥皂相连。 因为这最终应该会到达比(没有注意到的) negative肥皂更高的位置。
我们的实验对应了我们提出的irgan三个现实世界的应用,即网页检索、推荐系统、问答系统。 由于三个应用程序分别有自己的背景和基线算法,我们的实验分为三个子部分。 首先,在网页搜索的单个任务中测试irgan-pointwise和irgan-pairwise的方法。 然后,在排序偏差不太重要的项目推荐任务中对irgan-pointwise进行了进一步的研究。 我们还在排序偏差更重要(一般只有一个答案是正确的)的问答任务中测试了irgan-pairwise。
本文提出了通过极小化极大算法中的抗性训练,统一模型生成和判别模型这两个新闻检索方法学派的irgan框架。 这种抵抗性训练框架,( I )生成式检索模型被从判别检索模型中得到的信号所诱导,比非学习方法和最大似然推定方法更有利。 ( ii )生成器的提供通过战略扩展negative样本,可以扩展判别式检索模型,更好地对文件进行排序。 通常,irgan提供了更灵活粗略的训练环境,并将这两种搜索模型结合起来。 在四个现实世界数据集中,对三个典型的ir任务(互联网搜索、项目推荐、问答)进行了广泛的实验。 各组实验均有明显的性能提高。
gan的实践取得了很大的成功,但还有很多问题需要研究者的回答。 例如,现在gan还能生成比其他技术更清晰的真实图像的理由是“完全不知道”。 我们提出的irgan框架中新闻检索对抗性训练的探索表明,根据任务和设定最终可以达到不同的均衡。 在irgan的每点( pointwise )版本中,检索模型的生成比判别检索模型有所改善,但在irgan的配对方法中得到了相反的注意。 这一定需要进一步的研究。
将来打算进行基于越来越多的实际数据集的进一步实验。 另外,计划扩展我们的框架,测试词标签的生成。 一个可能的研究方向是从irgan生成检索模型中学习词权重方案,并在此基础上导出新的特征排序。 另外,语言模型可以与gan训练一起重新定义,其中可能出现新的有用的语言模式。
1 .生成式和判别式、新闻检索两个学派
新闻搜索界一直有两个学派。 经典方法以生成模型为中心,有名的概率排名大致包括( probabilistic ranking principle )和检索语言模型( ir language model )、汪军教授(本文第一作者) 的组合排名受到“大体”( portfolio ranking principle )机器学习的影响,近年来,有时利用大量的数据集来判别模型的训练排名。 这包括学习到rank和神经互联网。 但是,两个学派有优缺点,如何提供一个大统一一直不是问题。
年9月末,张伟楠拿着包去英国伦敦汪军教授那里留学。 汪军教授在伦敦大学学院( ucl )进行长时间新闻检索( ir )的基础研究,他的学生时代领导人是ir界的泰斗stephen robertson (概率排名的大致发明者)和现在最有影响力的教授之一arjen de vries
其实关于irgan的大致思想,汪军和张伟楠早就讨论过了。 由于生成器制作了强大的战略负取样器,因此判别式排序模型肯定有助于提高头部文件的排序效果。 这种现象在他们写sigir副本的时候确认了两个人发现的。 gan出来后,汪军观察这个对抗训练框架,马上想到gan可能有助于直接选择生成式的ir模型(不用重新排列文件),生成新文件,达到统一模型生成和模型判别的目的。 但是,这个想法一直处于初步的思考中,还不成熟。
2 .中英团队合作速度
年12月初,在上海交大任教的张伟楠突然接到汪军的电话。 这时,他在西班牙出席了当时的nips,听了ian goodfellow的gan tutorial。 时间,关于在gan上融合ir界两个大派系的处理方案清楚地出现在他的大脑中,同时被导出。 在理解irgan的构想后,张伟楠很快就由交大致远工科的大三学生在澜涛和计算机系研究三学生横禹开展了实验事业。 禹其实参加了阿里巴巴徐盈辉博士的研究小组。 为了加强交流,张伟楠把他们俩直接搬到自己的办公室,开始了快速的反复开发。 之后,汪军联系天津大学的张鹏教授和他的学生王本友参加项目,组兵分别在网页排序、个性化推荐、问答系统方面验证了irgan的比较有效性。 英国汪军和戴尔张教授开始写论文。
汪军说:“现在研究计算机也不能单兵作战了,需要强大的团队支持,工程学和数学都很擅长。 不得不说我们中国的研究小组非常优秀令人钦佩。 澜涛和横禹以前发表了aai论文,王本友在ir行业也有多个sci和cikm论文。 这些科研经验使他们在迅速重复irgan的实验中得到了更好的评价。 更令人吃惊的是,他们的工作勤奋得难以想象。 多亏了他们的勤奋,irgan沉重的实验工作者在4周内全部完成了。 ”。
伟楠说:“作为小老板的我们也没有懈怠。 我和澜涛横禹朝夕相处,迅速反复进行实验开发和论文写作。 徐盈辉博士从杭州直接赶到上海交大,和我们详细谈了论文和实验的各个细节。 徐博士是hard-core的ir高级研究者,在无数电话会议上表明他为建模付出了很多力量。 张天鹏教授长时间研究ir和qa方面的课题,保证qa这条路的实验进展顺利,与我们合作写了论文。 ”。
sigir的截止日期是1月25日,两天后是除夕。 直到最后几天,校园里已经有人上楼了空,学生们开始有点不耐烦了。 张伟楠和他们在大咖啡店睡了午觉,忙得安静下来。 张鹏教授直接让学生买回家的机票,免得担心。
汪军说:“中英队之间的8小时时差有利于我们的迅速迭代,英国的事业在深夜结束后直接交给了中国队(已经是中国的第二天早上)。 中国队结束后,可以再交给英方。 我们基本上是24小时一直快速反复,保证工作质量和速度。 ”。
图2
整个团队的8个人在bitbucket上提交论文latex的编辑,通过git强大的编辑merge功能,我们总是有很多人可以并行重复论文的工作。 最后一个1月24日,我们的提交次数超过了200次,这个项目的总提交数达到了550次。
3 .论文的收到和后述
年4月的一天,irgan论文以3个strong accept的满分被采用,排在362篇论文的第一位。 irgan的微信群也自然发出了欢呼声。
irgan的成功录用只是研究的开始。 以前汪军和张伟楠课题组合作推出了生成离散复制序列的seqgan事业。 汪军说:“gan是双智体集体智能,以对抗为主。 我们以前对离散数据的判别和生成有一定的研究基础。 离散数据的生成很可能需要强化学习,促进多智能体强化学习的方向的探索。 ”。
标题:“【SIGIR2017满分论文】IRGAN:大一统新闻检索模型的博弈竞争”
地址:http://www.china-huali.com/cjxw/46108.html