Corey
by Corey
~1 min read

Categories

  • articles

Tags

  • Life

来到军事医学科学院已一年有余,正式加入实验室工作也有小一年的时间「除掉半年的上课时间」。学术上说,进行了很多尝试,包括但不限于微信开发,自然语言处理,短文本标签推荐以及益生元预测。回想起来,虽然失败占据了绝大多数的情况,但依然有些许可圈可点之处。

刚进实验室时,生物基础一般,计算机基础无限接近与0。经过实验室这小一年的熏陶和培养,了解了一些医学知识,熟悉了部分编程技巧,成为了一个愿意解决问题,热爱生活的伪生物医学信息科技工作者,也找到了了迄今为止最为满意的科研事件———益生元预测。刚进实验室第一个工作是微信开发,即以微信公众平台为前台窗口,利用文本挖掘技术实现基于自然语言的生物信息服务。这个课题可深可浅,因为文本挖掘实在是一个可伸缩性太强的名词,下至粗浅的词频分析、文本分类,上达精准的语义分析、智能问答。就是面对这样一个容错性如此高的课题,我也失败了,失败的原因现在看来还比较有趣,就是配置不好服务器。当然我认为这只是个表象,本质是自己薄弱的计算机知识。当初的自己写一个算GC含量的小程序都十分费劲,不明白计算机编程原理,不会Linux,Python不会读写文件,就连严格的程序缩进也是过了好久才知道,最关键最要命的一点就是有问题不知道去哪找答案如何找答案。后来,学会了Google,渐渐明白了输入哪几个关键词可能会得到解决办法,这个时候,我认为才到了初入茅庐的阶段。

在经历屡次失败后,便放弃微信开发,转向自然语言处理等工作,我对自己这种及时转向的心态一直是持乐观的态度,一个阶段如果很难攻克,适当放弃并没有什么不好,只要保持一颗愿意尝试新鲜事物,肯于不断学习的心态,总是有能做好的事情,倘若有缘,日后定会相遇。日子长得很,谁知道未来会怎么样呢?「没错,时隔一年,我又捡起了微信开发,已经完成了实时文献查询以及用户个性定制两个主要模块,算是给自己一个交待。」值得一提的是,在学习文本挖掘期间,我实现了人生中第一个有具体功能的程序———利用TF-IDF算法实现文本分类。当然,确切地说,也不算我写的,主体框架是生物信息组屈老师在我面前一行一行写的,并且一行一行地为我解释,我认为有了这个经历,自己才算真正明白写程序是怎么一回事,接下来便可以尽情尝试无限的可能性,在这里需要感谢屈老师。

在2014年的8月份,恰逢实验室暑休,我也有机会好好思考自己的课题发展,而不是东一榔头西一棒子的瞎敲。我结束了之前的自然语言处理以及短文本标签推荐等课题,决定顺着实验室的大势「菌心说·慢病调理」,开始进行益生元预测的工作,也就是这篇文章的主题。最初的想法是做益生菌的预测,张老师在听完想法后给了实际且中肯的建议:

如果真的想把慢病调理做到实处,尽量选择转化率高的项目,相比益生菌,益生元更优。

这句话,一语惊醒梦中人,益生菌作为生物制品审批手续甚是繁琐甚至可以说苛刻,而益生元大多为一些碳水化合物,控制标准也低得多,所以随后便毫不犹豫地转向了益生元预测。借助着之前工作积累的一些Linux、Python、数据库等知识,再辅以生物信息组卢老师在统计分析上的详尽指导,益生元项目也渐渐步入正轨。回头想想,之所以把这个并不那么完备,甚至有些粗浅的研究视为相对最优选项,有几个简单而粗暴的理由。

  • 自己选题,心有所系
  • 能够扩大益生元的研究范围
  • 有可能为公众的健康调理提供更好的方案

在整个过程中也自然遇到了许多困难,尤其是在算法优化方面。每当我一筹莫展时,生物信息组卢老师常常会挑出相关的参考文献与我一同研究,这种精神,十分令人感动。

下一个阶段,我打算收尾益生元项目,微信公众号补充几个实用小模块,再回过头捡起生物老本行,做一些传统生物信息学项目,继续解锁更多的可能性。

2015,望好运常在。