在BWA中,需要给每个需要比对的序列添加一个@RG标签表示read group,方便在后续的分析中进行标识和分组。每个@RG标签都应该包括以下信息:
ID:每个read group都应该有一个唯一的ID,通常是一个简短的字符串,用于识别该组数据。
SM:样本的名字,是该组数据中需要比对的所有序列的共同属性。
PL:平台的类型,比如illumina,solid等。
LB:该序列是来自于哪个库,比如PCR-free library,PCR-based library等。
如果你的fastq数据文件中不是以@RG开头,你可以手动添加一个@RG标签,或者使用一些外部工具来进行添加。其中一个外部工具是Picard的AddOrReplaceReadGroups命令,可以用来添加或替换fastq序列的@RG标签。
例如,你可以使用以下命令来使用Picard将fastq序列的@RG标签添加到bam文件中:
picard AddOrReplaceReadGroups \
INPUT=input.bam \
OUTPUT=output.bam \
RGID=group1 \
RGLB=lib1 \
RGPL=illumina \
RGPU=unit1 \
RGSM=sample1