非正式访谈第二期|中国人民大学潘星宇:站在巨人等肩膀上更容易赢

转载
1353 天前
8989
链想家

来源:链想家

链想家计算科技大赛的第二期的非正式访谈又来咯!

这周我们采访了一位人工智能赛题参赛选手潘星宇

他来自中国人民大学的大数据技术与数据科学专业

将为大家分享他对此次赛题的看法以及一些参赛技巧



参赛指导老师介绍


——张静


现任中国人民大学信息学院计算机系讲师,博士毕业于清华大学计算机科学与技术系,师从唐杰老师与李涓子老师研究社会网络挖掘。近年来发表多篇数据挖掘国际顶级会议与期刊论文,包括KDD、TKDE、TKDD、IJCAI、AAAI等。

 

Google统计论文引用量达到3300多次。在读期间访问美国伊利诺伊香槟分校韩家炜教授。获国家奖学金等多项奖学金。担任过多个国际著名会议,例如ICDM、IJCAI、CIKM等的程序委员会委员。


2020.07.13
星期一


一切伟大的科学理论都意味着对未知等新征服。

——波普


Q:在了解赛题后,最先做了哪些思考?比如确定赛题对应的学术任务、是否有阅读过或推荐一下赛题任务相关的参考论文、对于数据集的探索等等。


A:我在了解赛题后,在老师的提示下,确定了赛题对应的学术任务就是同名消歧(ame Disambiguation),这个任务在学术领域也是一个非常重要的主题。之后我阅读了《Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop》以及 《A Unified Probabilistic Framework for Name Disambiguation in Digital Library》两篇论文,这两篇论文给了我很大的启发,为我提供了一些探索方向。


类似这种数据预测或分析的比赛,数据集肯定是至关重要的,我在解决问题之前,先对数据集做了一个统计性的分析(比如数据集规模,训练集上同名作者的平均数量),这个部分会影响我后面对于任务解决方法的选择;接着我又截取一部分数据进行了检查(比如数据的结构特点是怎样的,数据的完整性如何,是否存在缺省项,是否包含不同种类的语言等),这个部分会指导我后续的数据清洗工作。


Q:在科研、学习或工作中是否做过相关的工作?有没有一些技巧分享给大家?


A:这是我第一次做这样的工作,之前对于同名消歧只是略有了解,没有认真地阅读相关文献或者动手实践一些任务。关于技巧,因为我自己的经历还非常不足,只能是基于这次比赛向大家分享一些小小心得,谈不上什么技巧。


对于这样的从未接触过的主题,我觉得在任务开始之前先多去阅读前人的论文,多去参考前人的经验要比直接上手干好得多,因为自己埋头苦思出的一些方法很有可能已经被前人实践过了,往往是那些踩在巨人肩膀上的人更容易取得更好的成绩。


当然,我们也不能盲目遵从前人的工作,因为数据集的不同可能会导致整个任务的方法发生改变。就拿这次竞赛为例,本次竞赛的数据集很小,那么如果采用某些论文的模型,可能会导致效果一般而且训练过程非常耗时的问题,这其实就是因为那些论文要解决的数据集规模更大,数据结构也有差异,他们的方法并不完全适合本次任务,所以具体问题具体分析也是我总结出的第二个心得。



Q:谈一谈您对于本次赛题“论文同名消歧”意义的理解。


A:同名消歧是一个经典主题,它的应用场景很多,比如学术搜索,社交网络分析等。本赛题具有很强的现实意义,是一个从应用场景出发提出的问题,设置这样的题目,既能够帮助需求方找到一个更优秀的方法来解决这个问题,同时也给了像我这样的科研小白一次实践的机会,不仅可以锻炼自己的能力,而且让我们认识到自己所学的知识如何运用到现场景,解决现实实中存在的问题,做到真正的学有所用。总之,这个类型的题目具有双赢的效果。


Q:对于NLP领域研究的未来发展,有哪些展望和期待?

A:这个问题我真的挺难回答,因为我对NLP了解不多,目前自己只是学习了相关的知识,还没有为这个领域的研究和发展做出任何贡献,针对这一领域的未来发展我实在没有什么资格评价。NLP在当下应用场景很广,已经逐步走入人们的日常生活,从一名普通用户的角度,我自然是希望NLP的相关技术能够在更多场景中得到使用,便捷人们的生活。


《全国高校参赛队伍非正式访谈》

#持续报名中#

想要参与访谈的团队扫描海报二维码

联系链想家的商务小姐姐哟