SIGIR2014部分印象

这次参加SIGIR 2014感觉各方面收获还是蛮大的,虽然同事们都说这次会议文章水,SIGIR已死之类的。但是一来,我觉得一次学术盛会能诞生一两篇能参与架起通往未来的桥梁的文章就已经可以算完成历史使命了。人类文明的发展,科学的进步,工程的成就乃至其他很多人造的东西都不是一蹴而就的,都有一个量变到质变的过程,不积跬步,无以致千里。不用对一两篇文章要求太高。二来,在会上也见到了许多青年才俊,拓宽了不少眼界,对“学术圈是怎么一回事”这件事有了更新的认识,和更全面的了解。三者,能去澳大利亚玩一趟,我觉得还是很不虚此行的`(*∩_∩*)′……

这次SIGIR的会址(在当地的会展中心,就在湖边,离海也就步行的距离,风景不错)

整体来说这次SIGIR的论文议题主要集中在推荐(和Recommendation有关的sessio感觉占到了30%左右),个性化搜索(在各个session里反复出现反复强调),微博(其实microblog基本可以认为了twitter专场,占了两个session:microblog和more microblog = =,然后还有social media之类),另外医疗和法律有一个专门的session(Doctors and Lawyers),也有专门的一个workshop讲media information retrieval,不知道是因为医生和律师本来就是美国的热门行业还是最近医疗搜索突然火起来,从KDD的议题来看也有不少篇幅讲医疗信息化、网络化和数据挖掘的,可能这一块真得要准备爆发了。不过总体来看整个SIGIR的议题还是很集中,而且据说这几年基本就是炒冷饭,许多大牛的说法就是搜索技术或者说信息检索技术这几年在工业界也基本走到了尽头,没有特别激动人心的重大突破了,所以学术界也只能止步不前(毕竟搜索领域有google这样的巨无霸,微软、雅虎也砸过不少钱,而且海量一手的数据都在实际的搜索引擎上,所以IR领域估计是比较少的工业界成果可以领先于学术界的地方)。不够总的来说还是有一些有意思的文章的,下面就大概介绍一下SIGIR上几篇印象比较深的论文。

一篇是这次会议的”best paper”,名字叫“Modelling Interaction with Economic Models of Search”。这篇论文也被安排在了第一个session。挺有意思的是我当时在现场听了这个paper的presentation,觉得蛮水的= =,所以在banquet听到主席宣布这篇文章当选为”best paper”时,颇有一种被打脸的感觉(呵呵)。这篇文章讲什么从题目也能看出个大概了,其实就是将经济学的模型用于Interactive Information Retrieval,看着就是提出了一个线性的公式,把几个和interactive information Retrieval的参数作为变量,组合出一个结果定义为搜索的cost,然后去最优化这个cost,实质就是把这个问题变成了一个非线性规划问题(因为出现了两个自变量相乘的情况)= =。公式推得挺好,图表也配得不错,最后很好地验证了几个假说,当时也没细听,不过个人感觉,总得来说就是提出了一个漂亮的模型能比较好地解释已有的一些现象,从科学的角度来讲好像的确挺了不起的(牛顿力学、相对论其实也不过是在完备的解释世界而已),但是从应用的角度来看,至少目前也看不出什么很明显的应用,而且信息检索毕竟不完全等同于纯粹的基础自然科学,解释可以有好几套,关键得有人接受,最终实际效果的提升也许才是王道。当然,我是小白,而且也不算听得很细,可能意见浅显了,对作者如有冒犯,先行道歉; )。

另外有一篇文章是本次会议的”best student paper”。名字叫:“Towards Better Measurement of Attention and Satisfaction in Mobile Search”。这篇文章是一位在google实习的同学写的,研究的是移动端的用户体验,观点挺新颖,提出了移动端与PC端相比应该有不同的用户体验的评判方式。在PC端主要靠的是点击和翻页来判断搜索结果对用户的满足度,但是在移动端,由于显示屏幕更小、交互方式不是键鼠而是触摸屏,导致一些不一样的变化,用户的行为由点击和翻页变成了触摸与滚屏,而更重要的是文章中指出由于一些answer-like的结果无需点击就可以获得用户想要的信息,因此传统的用点击来评判相关性和搜索满足度的方法已经不再适用。因此文章提出了一种新的方法,通过关注viewport(手机上的可视范围)和用户停留在手机上半屏的时间以及滚屏滚过的结果条数,来量化评估搜索的相关性结果。文章中尤其关注了knowledge graph的结果的相关性与以上几个指标之间的关系,并且设计了精巧的实验,提出了丰富的假说,支撑了上述的逻辑(详情可以看论文)。从想法来看还是有一定新意的,不过反过来,真正在工业界做移动用户体验的,接触了实际数据,估计都会想到这些……呃,还是不吐槽了。

最后再谈谈”doctors and lawyers”这个session,这个session估计是所有session里华人最少的了(没有华人),估计还是美帝对这两个问题更关心一些,做presentation的都是名校学生。

几篇文章听下来,感觉医疗检索这块已经逐渐成为热点了,当然从专门化的角度来看,这一块其实和其他垂直领域的搜索没有太大的不同,只不过市场更大,门槛更高一些。我以前觉得国内公立医院数据不肯开放,是医疗信息化的一大阻碍,和德国的一位同学交流下来才知道在西方要获取医院数据也是难上加难,这些数据一般只向这些医院信得过的那些咨询公司开放,而其他研究机构想拿到,得付出比较大的代价,而且只能拿到一小部分做研究。从这个角度来看医院和医生的信息化还是任重而道远。而出了医院医生的信息化,医疗还有一大块就是疾病信息的信息化,其实这个和前者也是紧密联系的,不过目前学术界可能更多的还是在解决如果让普通用户更准确地表达他们的医疗诉求,更方便地检索已有的医疗知识上。

律师这一块也不用多说了,因为美国是英美法系,所以对于判例非常看重,对于历史上的判例及相关条文的检索,以前用人做事非常昂贵而辛苦的,现在好了,信息检索完全就是对应这个需求产生的,所以只要把现成的技术应用上去就可以得到很不错的实际结果。

在正式环节最后是work shop,我参加了medical information retrieval的work shop,大体还是讲医疗信息的检索,如何获取可信的医疗信息,如何将疾病描述对应到精确的学术名词等……总的来说还有比较长的路要走。

另外,会前tutorial环节的SIRIP还是挺水的,有很多工业界的广告元素(包括我厂)。其中最夸张的是adobe,派了一个韩裔美女学生上来放PPT,中间还放了好多明显广告性质的视频,最后说:“我啥都不知道,别来问我”……,基本上就是放了花瓶上去放广告的。学术界的tutorial,虽然讲的有不少大牛,但是说的都算是很基础的东西,基本上是导论和综述的性质。

韩国mm(拍得不是很清楚)

韩国mm(拍得不是很清楚)

我厂在会议签到处的易拉宝

我厂在会议签到处的易拉宝

 

另外,SIGIR上面的一大特色就是才艺表演,这次请了澳洲本地的土著来表演吹长笛,一身打扮还是很有视觉冲击力的。

开幕式上的才艺表演

开幕式上的才艺表演

This entry was posted in life, machine learning and tagged , , , , . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *