Output dir:设置输出文件夹。

没网,获取参考失败,报错
General
Exclude file和Exclude:用于指定不使用哪些参考物种序列。(一般不用)
Filtering Kmer:设定过滤时的Kmer长度。越长就越难匹配到参考序列上,但是太短了匹配上的reads就会非常多,会出现错误。默认为31。
Assembly Kmer:设定组装的Kmer长度。默认为41。
(测的乘数较高的话默认参数应该足够了,推荐的乘数为20×以上,乘数不够或者没有较近关系的类群参考,可以适当降低Kmer设定,过滤Kmer不应低于21,组装Kmer不应短于31,越低结果错误的风险越大)
Filtering thread:过滤运行线程,gui版本为1,电脑能双线程的话可以尝试,不过要么没用要么很卡,反正我没试过。
Assembly thread:组装运行线程,默认为4。
Advanced
Step length:获取Kmer的步长,比如一个reads为AATTCCGG,我设定Kmer长度为5,步长为1的话得到以下Kmer:AATTC、ATTCC、TTCCG、TCCGG,设定步长为2的话就是:AATTC、TTCCG。举的例子可能不好,但大致就是这个意思,步长短获取的Kmer就多,约容易获取匹配,如果测序覆盖度够高可以适当调高来减少运行时间。
Ref number:当参考物种较多时,设定转化为哈希表的最大参考数,用于减少运行时间。
Change seed: The setting for the number of seed changes, default value is 32. Actually, change seed is the amount of times the assembly's beginning point can be changed. The seeds are high-abundance K-mers selected from filtered reads that serve as the beginning point for de novo assembly. When the assembled gene's length is less than the set value, Easy353 will alter the assembly beginning point.(不能理解,但感觉对结果影响不是很大,默认值应该就OK了)
Kmer limit:用于删除丰度低或错误的Kmer,只有出现次数大于限定设置的Kmer才回用于组装,如果测的数据集覆盖率很高,可以使用更大的值来保证质量。
Min/Max length ratio:组装基因与参考基因长度比的上下限设定。默认为0.8-2.0范围。
输出会有三个文件夹
353_genes_of_species:从邱园的官网上下载的参考物种序列。
easy353_result:其中filtered_reads_for_genes为过滤后的每个基因对应的Kmer;而target_genes包含组装结果,组装不成功的基因会放置在单独的文件夹中,assemble_log.csv文件包含结果记录。
reference_of_353_genes:将参考物种序列按照基因编号进行分组。
easy353_result文件重命名备份,另两个文件夹作是参考序列,可以保留在工作目录中,以免同样的内容反复下载浪费流量。
23.11.15加笔
GeneMiner和其gui模式也可以从github获取:https://github.com/happywithxpl/GeneMiner/releases
GeneMiner运行需要Python环境,首先要保证你的服务器安装了Python,安装后要确认一下是不是加入了自己的环境变量或全局环境变量。
GeneMiner安装和具体使用说明参考:https://github.com/happywithxpl/GeneMiner
下面仅做示例
输出如下

使用的时候可能会报错找不到 'Bio',这时可以安装一个Biopython包
23.11.21 加笔
GeneMiner的内存利用率似乎偏低,在组装那一步会占用大量内存,同时跑过多线程容易导致服务器死机(快被机房管理老师记熟了……)
虽然可以控制数据使用量来降低内存消耗,但是可能会降低输出质量。
服务器提前安装earlyoom,防止死机
bootstrap可以用来筛一遍,内存占用极大,可以用,但没必要。筛完剩的可能每个样品又有点差别,最后矩阵里就不剩几个了,剩下的未必就对的齐。
23.11.23 加笔
GeneMiner现在暴露出一个缺陷,具有内含子的基因挖出来会带着内含子,因此以转录组做参考得到的目标序列会在中间多出一段或多段。
内含子跟外显子的进化速率一般来说是不同的,然而GeneMiner得到的结果也无法直接用于分区分析,只能通过人工校对来手动剪切,对于大数据量来说是十分痛苦的过程,但是不去校正有可能对最终树的结构造成影响。
寻求最佳解决办法中。
23.12.23 加笔
easyminer似乎有一定的改进,另外又集成了一些别的功能。内含子的问题好像有解决,但是效果有待验证,其次对步骤似乎也有精简,省去了组装文件与结果文件的重复,所以最后结果中的组装输出文件就是最终的结果。但是过滤文件实在是太大了,如果在结束后不能自动删除的话,对电脑容量提出了挑战。
此外还发现GeneMiner的运行占用内存会随着基因数量增加而比较平缓的线性增加,但随着参考数量的增加内存占会用剧增,因而选择少量、近缘、最佳的序列作为参考是最优的。
24.1.14 加笔
GeneMiner新版本上线(就是上面提到的easyminer)whatsapp登录,目前仅支持window版本。新版本集合了很多功能,包括OrthoFinder的同源基因筛选、系统发育重建(建树)、时间标定等,可以对获取的序列快速筛选(包括根据与参考序列比对后,序列差异较大的可以直接设定阈值筛掉)。新版本由于是窗口界面,使用的门槛可以说是非常低了,再加上加入了中英版本一键切换功能,完全是为国人设计的软件,这一点十分赞。
优点在于window,明显的一个缺点也在window。
首先是算力不够的问题:一般人的计算机算力都是有限的,无论如何都不可能跟单个服务器甚至集成去比,随着参考和目标序列的增加而增加的内存占用量可不能小看whatsapp网页版,跑着一个GeneMiner,如果用上的线程过多的话,连Excel都打不开。
再是本地空间不足的问题:一般植物基因组大小有0.5G很正常吧——我想要高质量的数据,至少得测个20X,那么我测个20G数据不过分吧(老标本破碎的严重我测个50G保个底也不过分吧)——测序公司好心给我都测了些数据,最后给了我70G双端数据的cleandata还不多收我钱,我不能说这个公司做得不对吧。GeneMiner推荐20G以上内存,我D盘还剩27G,结果跑了一晚上D盘红了,写入不了后GeneMiner跑断了,断了还只能重跑。如果我的电脑只有256G内存,这个批量操作的功能给我也只能喂狗。(这就去装个2T的好吧,装照片也不装测序数据)
还有个缺点前面的加笔中也反复提及了,GeneMiner在设计的时候似乎就没有考虑基因内含子这回事
我又稍微仔细看了一下工作原理,虽然我没太看懂,但我大概估摸这个软件对有内含子的基因就是没法,从原理上来看,只要内含子长度过长,就不可能把完整的基因拼出来。GeneMiner是先过滤后拼接的,内含子长度长过reads后就有可能有那么一段跟哪个参考都匹配不上(我一个内含子长度超过150bp很难吗),被过滤掉后就没了。拼接摒弃了SPAdes等成熟的拼接软件whatsapp网页版,创新了拼接方法,会边跟参考比对边拼接,也就是说基本上完全忠于参考的,那么参考不含内含子,那么拼出来的序列就不可能会包含,完全异于Hybpiper的先拼整段再去除内含子的思路。这样造成的结果就是,有的样拼出来是只包含这边一段的外显子,有的只包含另一边的外显子,剩下的既包含部分内含子又有部分外显子,MAFFT后成分复杂惨不忍睹。如果目标基因多,筛掉一些还剩一些,走量的话总是有能用的,但是最后得到的序列是个啥成分很难去评判,只能说位点够多,足够保证节点支持率是100/1.00。
强烈推荐使用hybpiper相关配套的一系列管道,可以参考以下笔记的第4部分。
以转录组数据作参考,获取二代测序数据中的单拷贝核基因
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。




