AImedentomologie’s diary

ご意見等あればコメントあるいは atmiyashitaあっとまーくgmail.comまでご連絡ください。

pythonでシークエンスファイルを扱う

DNAシークエンス(サンガー法)のデータ、どのように取り扱ってます?

波形データをひとつひとつ目で見てチェック・・・してましたつい最近まで私は。

 

なんかめんどくせーなこの単純作業。。。

 

という心の声にそろそろ逆らえなくなってきました。最近、本当にいろいろなことについて単純作業に対する精神的ハードルが増大する一方で…ていうか、どんなに早くやっても波形データ(一つ500bpくらいとしましょう)ひとつ目で見て確認して、クオリティーの低い領域をカットして、アライメントしてcontigにして…という一連の作業に5分くらいはかかるんですよね。辛くないですか?

 

ターゲット10個あったら軽く1時間かかるし。その精神的負担、辛くないですか?(二回目)

 

それで、波形を目で確認するのは、やめることにしました。上記の作業、簡単に自動化できますよ。そう、pythonならね。

なんのために手元にCPUがあるのかって話ですよ。計算機にできることは、全部計算機にやらせましょ。ということでコードを書きましたので、もう今後の人生で 'xxx.ab1'をダブルクリックすることはないと思います。つーか最近もはや「ファイルをマウスでダブルクリックで開く」という作業自体が既にダルいです。

 

pythonにはabifpyとか、あるいはもっと大きなものだとbiopythonというモジュールがありますので、それで大抵の必要な処理はできるんじゃないですかね。

 

※ちなみにRを10年以上使っていましたが、最近pythonも使い始めました。言語としての使い勝手というよりは、分野によって人気の言語が異なり、最近取り組んでいるテーマ周辺ではpythonユーザが多いので、pythonで仕事をした方がトラブルシューティングが楽、という理由です。Rとpythonでは勝手が違うことが多くて戸惑いつつですが、だいぶ慣れてきたように思います。

研究のスタート

研究は新しくないといけない。

論文ですでに発表されていることは、すでに既知のこと=新しくない。

言い換えると、論文を読むことによって、これから自分が取り組もうとしていることの中で「何が新しくないか」を知ることができる。それによって、自分の貴重な時間のなかから「何に時間を割くべきでないか」がわかる。

この段階で初めて、研究のスタート地点に立ったと言えるのかも知れない。

 

bioRxivに公開する記事の完成度

bioRxivに公開する原稿を用意するとき、どの程度の完成度まで仕上げるのだろうか?

学術誌に投稿するレベルに達してから、というか投稿しつつ、プレプリントをbioRxivで公開するというのが正しい使い方なのだろうか?