Amazon Best VPN GoSearch

Biểu tượng yêu thích OnWorks

gmod_bulk_load_gff3.plp - Trực tuyến trên Đám mây

Chạy gmod_bulk_load_gff3.plp trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks trên Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình giả lập trực tuyến MAC OS

Đây là lệnh gmod_bulk_load_gff3.plp có thể chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS

CHƯƠNG TRÌNH:

TÊN


$ 0 - Tải hàng loạt tệp gff3 vào cơ sở dữ liệu chado.

SYNOPSIS


% $ 0 [tùy chọn]
% con mèo | $ 0 [tùy chọn]

LỰA CHỌN


--gfffile Tệp chứa GFF3 (tùy chọn, có thể đọc
từ stdin)
- tệp Fastafile Fasta để tải trình tự từ
- sinh vật Sinh vật cho dữ liệu
(sử dụng giá trị 'fromdata' để đọc từ GFF sinh vật = xxx)
--dbprofile Tên cấu hình cơ sở dữ liệu
--dbname Tên cơ sở dữ liệu
--dbuser Cơ sở dữ liệu tên người dùng
--dbpass mật khẩu Cơ sở dữ liệu
--dbhost Máy chủ cơ sở dữ liệu
--dbport Cổng cơ sở dữ liệu
--analysis Dữ liệu GFF là từ phân tích tính toán
--noload Tạo các tệp tải hàng loạt, nhưng không thực sự tải chúng.
--nosequence Không tải trình tự ngay cả khi nó có trong tệp
--notransact Không sử dụng một giao dịch duy nhất để tải cơ sở dữ liệu
--drop_indexes Thả chỉ mục của các bảng bị ảnh hưởng trước khi bắt đầu tải
và tạo lại sau khi tải xong; nói chung
không giúp hiệu suất.
- xác thực Xác thực các điều khoản SOFA trước khi thử chèn (có thể
khiến tập lệnh khởi động chậm, bị tắt theo mặc định)
--ontology Đưa ra hướng xử lý Ontology_terms sai
--skip_vacuum Bỏ qua việc hút bụi các bảng sau khi chèn (mặc định)
--no_skip_vaccum Đừng bỏ qua việc hút bụi các bảng
--inserts In câu lệnh INSERT thay vì SAO CHÉP TỪ STDIN
--noexon Không chuyển đổi các tính năng của CDS thành exon (nhưng vẫn tạo
tính năng polypeptide)
--recreate_cache Làm cho bộ đệm tên duy nhất được tạo lại
--remove_lock Xóa khóa để cho phép một quy trình mới chạy
--save_tmpfiles Lưu các tệp tạm thời được sử dụng để tải cơ sở dữ liệu
--random_tmp_dir Sử dụng dir tmp được tạo ngẫu nhiên (mặc định là
để sử dụng thư mục hiện tại)
--no_target_syn Theo mặc định, trình tải thêm targetId vào
danh sách từ đồng nghĩa của đối tượng địa lý. Cờ này
hủy kích hoạt này.
--unique_target Tin tưởng tính thống nhất của các ID mục tiêu. ID là trường hợp
nhạy cảm. Theo mặc định, tên duy nhất của một mục tiêu mới
sẽ là 'TargetId_PrimaryKey'. Với lá cờ này,
nó sẽ là 'TargetId'. Hơn nữa, tên của
mục tiêu đã tạo sẽ là TargetId của nó, thay vì
Tên của tính năng.
--dbxref Sử dụng chú thích Dbxref đầu tiên làm
dbxref chính (đi vào feature.dbxref_id),
hoặc nếu một đối số tùy chọn được cung cấp, thì đối số đầu tiên
dbxref có một phần cơ sở dữ liệu (tức là, trước ':')
phù hợp với mẫu được cung cấp được sử dụng.
--xóa Thay vì chèn các tính năng vào cơ sở dữ liệu,
sử dụng các dòng GFF để xóa các tính năng như thể
tùy chọn CRUD = delete-all đã được đặt trên tất cả các dòng
(xem 'Xóa và cập nhật qua GFF bên dưới'). Các
trình tải sẽ yêu cầu xác nhận trước khi tiếp tục.
--delete_i_really_mean_it
Hoạt động giống như --delete ngoại trừ việc nó không yêu cầu
để xác nhận.
--fp_cv Tên của từ vựng được kiểm soát thuộc tính đối tượng địa lý
(mặc định là 'feature_property').
--noaddfpcv Theo mặc định, trình tải thêm các loại thuộc tính GFF như
điều khoản cv feature_property mới khi bị thiếu. Cờ này
hủy kích hoạt nó.
** dgg lưu ý: nên đổi tên cờ này: - [no] autoupdate
cho bảng Chado cvterm, cv, db, sinh vật, phân tích ...

- các trang hướng dẫn chi tiết thủ công
--custom_adapter Sử dụng bộ điều hợp lớp con tùy chỉnh cho Bio :: GMOD :: DB :: Bộ điều hợp
Cung cấp đường dẫn đến bộ điều hợp làm đối số
--private_schema Tải dữ liệu vào một lược đồ không công khai.
--use_public_cv Khi tải vào một lược đồ không công khai, hãy tải bất kỳ cv nào và
dữ liệu cvterm vào lược đồ công khai
--end_sql Mã SQL để thực thi sau khi quá trình tải dữ liệu hoàn tất
--allow_external_parent
Cho phép thẻ Gốc tham chiếu đến các ID bên ngoài hiện tại
Tệp GFF

Lưu ý rằng tất cả các đối số bắt đầu 'db' cũng như sinh vật có thể được cung cấp bởi
mặc định theo Bio :: GMOD :: Config, được cài đặt khi chạy 'thực hiện cài đặt'. Cũng lưu ý
tùy chọn dbprofile và tất cả các tùy chọn db * khác loại trừ lẫn nhau - nếu bạn cung cấp
dbprofile, không cung cấp bất kỳ tùy chọn db * nào khác, vì chúng sẽ không được sử dụng.

MÔ TẢ


GFF trong tệp dữ liệu phải là phiên bản 3 do nó được kiểm soát chặt chẽ hơn đối với thông số kỹ thuật
và sử dụng từ vựng có kiểm soát. Theo đó, tên của các loại đối tượng địa lý phải chính xác
những từ đó trong Chú thích tính năng bản thể học trình tự (SOFA), không phải từ đồng nghĩa và không phải
số gia nhập (số gia nhập SO có thể được hỗ trợ trong các phiên bản tương lai của
kịch bản).

Lưu ý rằng chỉ thị ## khu vực trình tự không được hỗ trợ như một cách khai báo
trình tự tham chiếu cho tệp GFF3. Lệnh ## vùng trình tự không biểu đạt
đủ để xác định trình tự là loại thứ gì (tức là nó có phải là nhiễm sắc thể, đường viền,
cánh tay, v.v.?). Nếu tệp GFF của bạn sử dụng lệnh ## vùng chuỗi theo cách này, bạn phải
chuyển nó thành dòng GFF3 đầy đủ. Ví dụ: nếu bạn có dòng này:

## vùng trình tự chrI 1 9999999

Sau đó sẽ được chuyển đổi thành một dòng GFF3 như thế này:

chrI. nhiễm sắc thể số 1 9999999. . . ID = chrI

Làm thế nào GFF3 is lưu trữ in chado
Dưới đây là tóm tắt về cách dữ liệu GFF3 được lưu trữ trong chado:

Cột 1 (chuỗi tham chiếu)
Chuỗi tham chiếu cho đối tượng sẽ trở thành srcfeature_id của đối tượng trong
bảng featureloc cho tính năng đó. Tính năng đó thường được chỉ định xếp hạng bằng XNUMX
nếu có các vị trí khác được liên kết với đối tượng địa lý này (ví dụ: đối với một
tính năng), các vị trí khác sẽ được gán giá trị featureloc.rank lớn hơn
số không.

Cột 2 (nguồn)
Nguồn được lưu trữ dưới dạng dbxref. Cá thể chado phải có một mục nhập trong bảng db
có tên là 'GFF_source'. Sau đó, tập lệnh sẽ tạo một mục dbxref cho tính năng của
nguồn và liên kết nó với tính năng thông qua bảng feature_dbxref.

Cột 3 (loại)
Cvterm.cvterm_id của loại SOFA được lưu trữ trong feature.type_id.

Cột 4 (bắt đầu)
Giá trị của start trừ đi 1 được lưu trữ trong featureloc.fmin (một giá trị bị trừ vì
chado sử dụng tọa độ giữa các cơ sở, trong khi GFF sử dụng tọa độ cơ sở).

Cột 5 (cuối)
Giá trị của end được lưu trong featureloc.fmax.

Cột 6 (điểm)
Điểm số được lưu trong một trong các cột điểm trong bảng tính năng phân tích. Các
mặc định là analysisfeature.significance. Xem phần bên dưới về kết quả phân tích
để biết thêm thông tin chi tiết.

Cột 7 (sợi)
Chuỗi được lưu trữ trong featureloc.strand.

Cột 8 (pha)
Giai đoạn được lưu trữ trong featureloc.phase. Lưu ý rằng hiện có một vấn đề với
giản đồ chado cho trường hợp các exon đơn lẻ có các pha khác nhau trong các
bảng điểm. Nếu dữ liệu của bạn gặp trường hợp như vậy, hãy khiếu nại với
[email được bảo vệ] để tìm cách giải quyết vấn đề này.

Cột 9 (nhóm)
Đây là nơi điều kỳ diệu xảy ra.

Gán tên feature.name, feature.uniquename
Các giá trị của feature.name và feature.uniquename được chỉ định theo các
quy tắc đơn giản:

Nếu có thẻ ID, thẻ đó được sử dụng làm feature.uniquename
nếu không, nó được gán một tên duy nhất bằng với 'tự động' được nối
với feature_id.

Nếu có thẻ Tên, giá trị của thẻ đó được đặt thành feature.name;
nếu không thì nó là null.

Lưu ý rằng các quy tắc này đơn giản hơn nhiều so với các quy tắc Bio :: DB :: GFF
sử dụng, và có thể cần được xem lại.

Gán các mục nhập feature_relationship
Tất cả các tính năng được gắn thẻ Gốc đều được chỉ định các mục nhập feature_relationship của 'part_of'
đối với các tính năng chính của chúng. Các thẻ derived_from được chỉ định 'origin_from'
các mối quan hệ. Lưu ý rằng các tính năng chính phải xuất hiện trong tệp trước bất kỳ
các tính năng sử dụng thẻ Parent hoặc Derived_from đề cập đến tính năng đó.

Thẻ bí danh
Giá trị bí danh được lưu trữ trong bảng từ đồng nghĩa, dưới cả hai từ đồng nghĩa.name và
Syn nghĩa.synonym_sgml và được liên kết với đối tượng địa lý thông qua bảng feature_synonym.

Thẻ dbxref
Giá trị dbxref phải có dạng 'db_name: accession', trong đó db_name phải có
mục nhập trong bảng db, với giá trị db.name bằng 'DB: db_name'; vài
tên cơ sở dữ liệu đã được cài đặt sẵn với cơ sở dữ liệu khi chạy 'make prepdb'.
Thực thi 'CHỌN tên TỪ db' để tìm ra những cơ sở dữ liệu nào đã có sẵn.
Các mục dbxref mới được tạo trong bảng dbxref và dbxrefs được liên kết với
các tính năng thông qua bảng feature_dbxref.

Gap thẻ
Hiện tại chủ yếu bị bỏ qua - giá trị được lưu trữ dưới dạng một featureprop, nhưng nếu không
vẫn chưa được sử dụng.

Thẻ ghi chú
Các giá trị được lưu trữ dưới dạng mục nhập featureprop cho đối tượng địa lý.

Bất kỳ thẻ tùy chỉnh nào (tức là chữ thường trước)
Thẻ tùy chỉnh được hỗ trợ. Nếu thẻ chưa tồn tại trong bảng cvterm,
nó sẽ được tạo ra. Giá trị sẽ được lưu trữ với cvterm liên quan của nó trong
bảng tính năng.

Bản thể_thuật ngữ
Khi các thẻ Ontology_term được sử dụng, các mục từ Gene Ontology và Sequence
Ontology sẽ được xử lý tự động khi định dạng DB: accession tiêu chuẩn là
đã sử dụng (ví dụ: GO: 0001234). Để sử dụng các thuật ngữ bản thể học khác, bạn phải chỉ định rằng
ánh xạ các phân định DB trong tệp GFF và tên của các bản thể luận trong
bảng cv dưới dạng các cặp thẻ = giá trị được phân tách bằng dấu phẩy. Ví dụ, để sử dụng thực vật và
các thuật ngữ bản thể học tế bào, bạn sẽ cung cấp trên dòng lệnh:

--ontology 'PO = ontology thực vật, CL = cell ontology'

trong đó 'bản thể học thực vật' và 'bản thể học tế bào' là tên chính xác trong bảng cv
khi chúng xuất hiện.

Các thẻ mục tiêu
Việc xử lý đúng cách các thẻ Target yêu cầu phải có hai tính năng nguồn
đã có sẵn trong cơ sở dữ liệu, tính năng nguồn 'chính' (nhiễm sắc thể hoặc
contig) và 'chủ đề' từ phân tích độ tương tự, như EST, cDNA hoặc
nhiễm sắc thể tổng hợp. Nếu tính năng chủ đề không có, trình tải sẽ
cố gắng tạo một đối tượng tính năng trình giữ chỗ ở vị trí của nó. Nếu bạn có một fasta
tập tin chứa chủ đề, bạn có thể sử dụng tập lệnh perl, gmod_fasta2gff3.pl,
đi kèm với bản phân phối này để tạo tệp GFF3 phù hợp để tải vào
chado trước khi tải kết quả phân tích của bạn.

Các tính năng CDS và UTR
Cách các tính năng CDS được biểu diễn trong Chado giống như một giao điểm của
exon của phiên mã và đặc điểm polypeptide của phiên mã. Để cho phép thích hợp
bản dịch các tính năng CDS của tệp GFF3, trình tải này sẽ chuyển đổi CDS và UTR
các dòng đặc trưng cho các tính năng exon tương ứng (và thêm một ghi chú về featureprop rằng
exon được suy ra từ dòng GFF3 CDS và / hoặc UTR), và tạo ra một polypeptide
tính năng trải dài trong vùng gen từ khi bắt đầu dịch mã đến khi dừng lại.

Nếu tệp GFF3 của bạn chứa cả tính năng exon và CDS / UTR, thì bạn sẽ muốn
ngăn chặn việc tạo ra các tính năng exon và thay vào đó sẽ chỉ muốn một
tính năng polypeptide được tạo ra. Để thực hiện việc này, hãy sử dụng tùy chọn --noexon. Trong này
trường hợp, các tính năng CDS và UTR sẽ vẫn được chuyển đổi thành các tính năng exon như
miêu tả trên.

Lưu ý rằng trong trường hợp tệp GFF của bạn chứa các tính năng CDS và / hoặc UTR
không thuộc về các gen 'giáo điều trung tâm' (nghĩa là có gen, phiên mã và
Tính năng CDS / exon), không điều nào ở trên sẽ xảy ra và các tính năng sẽ được lưu trữ
như vậy.

GHI CHÚ
Đang tải tệp fasta
Khi --fastafile được cung cấp một đối số là đường dẫn đến tệp
chứa chuỗi fasta, trình tải sẽ cố gắng cập nhật bảng tính năng với
trình tự được cung cấp. Lưu ý rằng ID được cung cấp trong dòng mô tả fasta phải
khớp chính xác với những gì trong trường tên duy nhất của bảng tính năng. Hãy cẩn thận nếu nó là
có thể tên duy nhất của đối tượng địa lý đã được thay đổi để đảm bảo tính duy nhất khi nó
đã được tải từ GFF ban đầu. Cũng lưu ý rằng khi tải chuỗi từ fasta
tệp, tải GFF từ tiêu chuẩn trong bị vô hiệu hóa. Xin lỗi đã làm phiền.

## vùng-trình tự
Tập lệnh này không sử dụng chỉ thị vùng trình tự cho bất kỳ điều gì. Nếu nó đại diện cho một
tính năng cần được chèn vào cơ sở dữ liệu, nó phải được biểu thị bằng một
dòng GFF đầy đủ. Điều này bao gồm trình tự tham chiếu cho các tính năng nếu nó không
đã có trong cơ sở dữ liệu, giống như nhiễm sắc thể. Ví dụ, điều này:

## vùng trình tự chr1 1 213456789

nên thay đổi thành điều này:

chr1 UCSC nhiễm sắc thể 1 213456789. . . ID = chr1

Giao Dịch
Theo mặc định, ứng dụng này sẽ cố gắng tải tất cả dữ liệu cùng một lúc như một dữ liệu duy nhất
chuyển tuyến. Điều này an toàn hơn theo quan điểm của cơ sở dữ liệu, vì nếu có bất kỳ điều gì xấu
xảy ra trong quá trình tải, giao dịch sẽ được khôi phục và cơ sở dữ liệu sẽ
không bị đụng chạm. Sự cố xảy ra nếu có nhiều (giả sử lớn hơn 2-300,000) hàng
trong tệp GFF. Trong trường hợp đó, thực hiện tải như một lần vận chuyển duy nhất có thể
dẫn đến máy bị hết bộ nhớ và làm chết các tiến trình. Nếu --notranscat là
được cung cấp trên dòng lệnh, mỗi bảng sẽ được tải như một giao dịch riêng biệt.

CHÈN SQL so với SAO CHÉP TỪ
Bộ tải số lượng lớn này ban đầu được thiết kế để sử dụng cú pháp PostgreSQL COPY FROM cho
tải hàng loạt dữ liệu. Tuy nhiên, như đã đề cập trong phần 'Giao dịch', bộ nhớ
các vấn đề đôi khi có thể gây trở ngại cho các tải số lượng lớn như vậy. Trong một nỗ lực khác để vượt qua
vấn đề này, trình tải hàng loạt đã được sửa đổi để tùy chọn tạo các câu lệnh INSERT
thay vì câu lệnh SAO CHÉP TỪ. Các câu lệnh INSERT sẽ tải chậm hơn nhiều
hơn các câu lệnh SAO CHÉP TỪ, nhưng khi chúng tải và cam kết riêng lẻ, chúng nhiều hơn
có nhiều khả năng hoàn thành thành công. Như một dấu hiệu của sự khác biệt về tốc độ
tham gia, tải chú thích GFF3 men (khoảng 16K hàng), mất khoảng 5 lần
còn sử dụng INSERT so với COPY trên máy tính xách tay của tôi.

Xóa và cập nhật qua GFF
Có hỗ trợ thô sơ để sửa đổi các tính năng trong cơ sở dữ liệu hiện có thông qua
GFF. Hiện tại, chỉ có hỗ trợ xóa. Để xóa, dòng GFF
phải có thẻ tùy chỉnh trong cột thứ chín, 'CRUD' (để Tạo, Thay thế, Cập nhật và
Xóa) và có giá trị được công nhận. Hiện tại, hai giá trị được công nhận là
CRUD = xóa và CRUD = xóa-tất cả.

LƯU Ý QUAN TRỌNG: Sử dụng các thao tác xóa có khả năng tạo ra trẻ mồ côi
các đặc điểm (ví dụ: các exon có gen đã bị xóa). Bạn nên cẩn thận để đảm bảo
điều đó không xảy ra. Bao gồm trong bản phân phối này là một trình kích hoạt PostgreSQL (được viết bằng
plpgsql) sẽ xóa tất cả trẻ mồ côi một cách đệ quy, vì vậy nếu một gen bị xóa,
tất cả các phiên mã, exon và polypeptit thuộc về gen đó cũng sẽ bị xóa.
Xem mô-đun tệp / trình tự / chức năng / xóa-trigger.plpgsql để biết thêm thông tin.

xóa
Tùy chọn xóa sẽ xóa một và chỉ một tính năng mà tên, loại
và sinh vật khớp những gì trong dòng GFF với những gì trong cơ sở dữ liệu. Ghi chú
đặc điểm đó. tên đơn vị không được xem xét, cũng như các tọa độ được trình bày trong
tệp GFF. Điều này giúp cho các điều phối viên có thể thực hiện cập nhật thông qua GFF. Nếu như
có nhiều đặc điểm mà tên, loại và sinh vật phù hợp,
trình nạp sẽ in thông báo lỗi và dừng lại. Nếu không có tính năng nào phù hợp
tên, loại và sinh vật, bộ nạp sẽ in thông báo cảnh báo và tiếp tục.

xóa hết
Tùy chọn xóa tất cả hoạt động tương tự như tùy chọn xóa, ngoại trừ việc nó sẽ
xóa tất cả các đặc điểm khớp với tên, loại và sinh vật trong dòng GFF (như
phản đối việc chỉ cho phép xóa một đối tượng địa lý). Nếu không có tính năng
khớp đó, bộ nạp sẽ in một thông báo cảnh báo và tiếp tục.

Khóa chạy
Bộ tải hàng loạt không phải là một ứng dụng nhiều người dùng. Nếu hai quá trình tải hàng loạt riêng biệt
cố gắng tải dữ liệu vào cơ sở dữ liệu cùng một lúc, ít nhất một và có thể là tất cả
tải sẽ không thành công. Để ngăn điều này xảy ra, trình tải hàng loạt đặt một khóa trong
cơ sở dữ liệu để ngăn các quy trình gmod_bulk_load_gff3.pl khác chạy cùng một lúc
thời gian. Khi ứng dụng thoát bình thường, khóa này sẽ bị xóa, nhưng nếu nó
bị hỏng vì một lý do nào đó, khóa sẽ không được gỡ bỏ. Để tháo khóa khỏi
dòng lệnh, cung cấp cờ --remove_lock. Lưu ý rằng nếu trình tải bị lỗi
yêu cầu loại bỏ khóa, bạn cũng có thể cần phải xây dựng lại tên duy nhất
bộ nhớ cache (xem phần tiếp theo).

Bộ đệm tên duy nhất
Trình tải sử dụng cơ sở dữ liệu chado để tạo một bảng lưu trữ feature_ids,
tên duy nhất, type_ids và Organism_ids của các đối tượng địa lý tồn tại trong cơ sở dữ liệu tại
thời gian bắt đầu tải và các tính năng sẽ được thêm vào khi tải
hoàn thành. Nếu có khả năng các tính năng mới đã được thêm vào thông qua một số phương pháp
không phải trình tải này (ví dụ: Apollo chỉnh sửa hoặc tải bằng XORT) hoặc nếu tải trước đó sử dụng
trình tải đã bị hủy bỏ, sau đó bạn nên cung cấp tùy chọn --recreate_cache để đảm bảo
bộ nhớ cache mới.

Trình tự
Theo mặc định, nếu có trình tự trong tệp GFF, nó sẽ được tải vào phần còn lại
trong hàng bảng tính năng tương ứng với tính năng đó. Bằng cách cung cấp
tùy chọn --nosequence, trình tự sẽ bị bỏ qua. Bạn có thể muốn làm điều này nếu bạn
có trình tự rất lớn, có thể khó tải. Trong bối cảnh này, "rất
lớn "có nghĩa là hơn 200MB.

Cũng lưu ý rằng để các chuỗi tải đúng cách, tệp GFF phải có ## FASTA
chỉ thị (nó được yêu cầu để phân tích cú pháp thích hợp bởi Bio :: FeatureIO) và ID của
tính năng phải giống hoàn toàn với tên của chuỗi theo sau dấu> trong
phần fasta.

Bảng ORGANISM
Tập lệnh này giả định rằng bảng sinh vật chứa thông tin về
sinh vật. Nếu bạn không chắc chắn có đúng như vậy không, bạn có thể thực hiện lệnh này từ
dòng lệnh psql:

chọn * từ sinh vật;

Nếu bạn không thấy sinh vật của mình được liệt kê, hãy thực hiện lệnh này để chèn nó:

chèn vào sinh vật (tên viết tắt, chi, loài, tên_ chung)
giá trị ('H.sapiens', 'Homo', 'sapiens', 'Human');

thay thế bằng các giá trị thích hợp cho sinh vật của bạn.

Cha mẹ / con cái đặt hàng
Phụ huynh phải đến trước trẻ em trong hồ sơ GFF.

nghiên cứu
Nếu bạn đang tải kết quả phân tích (tức là kết quả rõ ràng, dự đoán gen), bạn nên
chỉ định cờ -a. Nếu không có đối số nào được cung cấp với -a, thì trình nạp sẽ
giả sử rằng các kết quả thuộc về một tập hợp phân tích có tên là
nối nguồn (cột 2) và phương thức (cột 3) với dấu gạch dưới trong
giữa. Nếu không, đối số được cung cấp với -a sẽ được coi là tên của
bộ phân tích. Dù bằng cách nào, tập hợp phân tích phải đã có trong bảng phân tích.
Cách phục hồi để thực hiện việc này là chèn trực tiếp nó vào psql shell:

CHÈN VÀO phân tích (tên, chương trình, chuyển đổi chương trình)
GIÁ TRỊ ('genscan 2005-2-28', 'genscan', '5.4');

Có các cột khác trong bảng phân tích là tùy chọn; xem lược đồ
tài liệu và 'phân tích \ d' trong psql để biết thêm thông tin.

Chado có bốn cột có thể để lưu trữ điểm trong cột điểm GFF; xin vui lòng
sử dụng bất kỳ cái nào thích hợp nhất và xác định nó bằng cờ --score_col (ý nghĩa
là mặc định). Lưu ý rằng tên của cột có thể được rút ngắn thành một chữ cái. Nếu như
bạn có nhiều hơn một điểm số được liên kết với mỗi tính năng, bạn có thể đặt điểm khác
điểm trong cột thứ chín dưới dạng một cặp thẻ = giá trị, như 'ID = 99' và số lượng lớn
trình tải sẽ đưa nó vào bảng featureprop (miễn là có cvterm để nhận dạng;
xem phần ở trên liên quan đến thẻ tùy chỉnh). Các tùy chọn có sẵn là:

ý nghĩa (mặc định)
bản sắc
điểm định mức
số liệu

Một bổ sung có kế hoạch cho chức năng xử lý kết quả phân tích là cho phép
các tệp GFF "hỗn hợp", trong đó một số dòng là kết quả phân tích và một số dòng thì không.
Ngoài ra, người ta sẽ có thể cung cấp danh sách các loại (tùy chọn với các nguồn) và
mục nhập liên quan của chúng trong bảng phân tích. Định dạng có thể sẽ là giá trị thẻ
cặp:

- kết hợp phân tích: Rice_est = rice_est_blast, \
khớp: Maize_cDNA = maize_cdna_blast, \
mRNA = genscan_prediction, exon = genscan_prediction

Nhóm các tính năng theo ID
Đặc tả GFF3 cho phép các tính năng như CDS và match_parts được nhóm lại
với nhau bằng cách chia sẻ cùng một ID. Trình tải này không hỗ trợ phương pháp này
phân nhóm. Thay vào đó, tính năng gốc phải được tạo rõ ràng trước các phần và
các phần phải tham chiếu đến phần gốc với thẻ Parent.

ID gốc bên ngoài
Đặc tả GFF3 nói rằng ID chỉ hợp lệ trong một tệp GFF, vì vậy bạn
không được có thẻ Gốc tham chiếu đến các ID trong một tệp khác. Bằng cách xác định cụ thể
cờ "allow_external_parent", bạn có thể nới lỏng hạn chế này. Một lời cảnh báo
tuy nhiên: nếu tên / ID duy nhất của đối tượng địa lý gốc đã được sửa đổi trong quá trình tải (để làm cho nó
duy nhất), chức năng này sẽ không hoạt động, vì sẽ không thể tìm thấy
tính năng một cách chính xác. Trên thực tế, nó có thể tồi tệ hơn là không hoạt động, nó có thể gắn con
các tính năng cho cha mẹ sai. Đây là lý do tại sao bạn nên sử dụng chức năng này!
Vui lòng sử dụng một cách thận trọng.

TÁC GIẢ


Ngày Allen[email được bảo vệ]>, Scott Cain[email được bảo vệ]>

Bản quyền (c) 2011

Thư viện này là phần mềm miễn phí; bạn có thể phân phối lại nó và / hoặc sửa đổi nó theo cùng một
các điều khoản như chính Perl.

Sử dụng gmod_bulk_load_gff3.plp trực tuyến bằng các dịch vụ onworks.net


Máy chủ & Máy trạm miễn phí

Tải xuống ứng dụng Windows & Linux

Lệnh Linux

Ad




×
quảng cáo
❤️Mua sắm, đặt phòng hoặc mua tại đây — không mất phí, giúp duy trì các dịch vụ miễn phí.