大数据下的数据标签与推荐技术沙龙

上周去听了一期阿里技术沙龙,感觉收获蛮大的,记录一些感想。

整个沙龙分三场topic,分别由阿里、百度、豆瓣主讲,三个议题分别是:标签生成与推荐在淘宝导购中的应用、推荐技术在百度UGC产品中的应用、NLP在豆瓣标签系统中的应用。三个听下来,阿里和百度的演讲感觉和以前的印象相符:阿里准备得很充分,内容翔实而有吸引力,不过实际深度有限,披露的正好都是不算特别关键的内容——这从另一个侧面也可以看出阿里对这类技术分享相当有经验,该说的充分说的,不该说的也控制得很好,不会让你觉得刻意藏着什么。而百度的演讲给人的感觉还是一如既往的“店大欺客”,准备不是很充分,PPT内容较单薄,来的是经理(阿里和淘宝来的都是工程师),主要目的是招人(从一开始就直接说了,打广告……)。感觉长期这样下去,在外面的学术界影响力会越来越受影响,间接地也会影响到最终的招人结果,其实百度的技术在很多方面都比阿里强,而且在工业界的实际应用经验很多方面也是阿里短期内没法比的,在技术交流上还是应该走得更开放一点,对公司的发展和整个业界生态圈的良性循环都是有好处。相比这两家公司,豆瓣的内容干货就多很多了,基本上可以说是倾囊相授,给人感觉还是小公司没有架子。

阿里的标签技术提到了许多技术细节,但是实际应用其实比较有限(淘宝用户都懂的),百度讲得内容干货很少,只有豆瓣的标签技术有长期的广泛应用,而且讲得很成体系,下面就小结一下自己对豆瓣标签技术演讲的感受:整个topic主要讲了标签的提取和标签的整合。标签的提取方法包括词库构建、中文分词、词性标注、标签选择几个步骤。以前我一直觉得中文分词可以用现成的分词库,所以没有考虑过词库构建的问题。这里豆瓣的分词是自己做的,提到了使用外部资源(主要是维基百科)和内部词库的方式(常规的基于语料库和统计语言模型的方法)。在分词的时候采用词性标注辅助的方法,也是很常规的做法。在标签选择时使用了被用户标注过的次数、使用过该标签的用户数、该标签所属的条目数这三类特征,个人感觉还是很make sense的。另外还用到了TF/IDF,TextRank(类似于pagerank的算法,使用窗口内共现作为link)和主题模型。在标签整合方面重点提到了同类词的合并,这应该是目前标签自动抽取技术里面都会遇到的一个主要问题。这里豆瓣主要用了几种技术:实体链接、相似度计算、外部资源、词共现、DNN(word2vec)个人感觉最主要的难点在于一些缩写、别称、异体字等网络用语,不过在语料库充足的情况下,还是可以解决这类问题的。在标签整合中还提到了标签分类,由于豆瓣产品的特殊性,对标签分类显得比较容易一些(比如电影的标签就可以直接分在电影这个类目下)。当然,最后细化的分类还是要依靠人工的标注。利用分类的结果豆瓣构造了一棵标签树,使得跨类别推荐更方便一些。(比如电影里的某一类标签同时音乐,那么就可以向使用这类电影标签的用户推荐同样标签的音乐资源)最后,豆瓣的工程师比较了标签和其他几种文本分析方法的区别,其中提到和摘要比,摘要的信息更全,但是目前机器自动合成句子的算法还不成熟,因此不如标签实用,而隐层特征相比标签不易于解释,分类和标签比,其实标签本身就可以看成一种多分类的方法。总得来说,豆瓣的这个演讲把整个自动化标签技术的基本要素都提到了,很适合从头创建的标签系统借鉴。

This entry was posted in machine learning and tagged . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *