Difference between revisions of "Biopython/C2/Parsing-Data/Hindi"
From Script | Spoken-Tutorial
Sakinashaikh (Talk | contribs) |
Sakinashaikh (Talk | contribs) |
||
Line 373: | Line 373: | ||
|- | |- | ||
| 08:42 | | 08:42 | ||
− | | इस ट्यूटोरियल में हमने सीखा: | + | | इस ट्यूटोरियल में हमने सीखा: 'NCBI' डेटाबेस वेबसाइट से 'FASTA' और 'GenBank' फाइल्स डाउनलोड करना और 'SeqIO' मॉड्यूल से 'parse' और 'read' फंक्शन्स उपयोग करना। |
− | + | ||
− | + | ||
|- | |- |
Latest revision as of 11:04, 27 April 2017
|
|
---|---|
00:01 | नमस्कार |
00:02 | 'Parsing Data' पर इस ट्यूटोरियल में आपका स्वागत है। |
00:06 | इस ट्यूटोरियल में हम सीखेंगे 'NCBI' डेटाबेस वेबसाइट से 'FASTA' और 'GenBank' फाइल्स डाउनलोड करना |
00:14 | और 'Sequence Input/Output' मॉड्यूल में 'फंक्शन्स' उपयोग करके डेटा फाइल्स 'Parse' करना। |
00:19 | इस ट्यूटोरियल के अनुसरण के लिए आपको स्नातक स्तर की बायोकेमिस्ट्री या बायोइन्फॉर्मेटिक्स |
00:26 | और बुनियादी 'Python' प्रोग्रामिंग से परिचित होना चाहिए। |
00:30 | दिए लिंक पर 'Python' ट्यूटोरियल्स देखें। |
00:34 | इस ट्यूटोरियल को रेकॉर्ड करने के लिए मैं उपयोग कर रही हूँ: 'Ubuntu OS' वर्जन 14.10 |
00:40 | * 'Python' वर्जन 2.7.8 |
00:44 | * 'Ipython interpretor' वर्जन 2.3.0 |
00:48 | * 'Biopython' वर्जन 1.64 और * 'Mozilla Firefox' ब्राउज़र 35.0. |
00:56 | बायोलॉजी (जीवविज्ञान) में वैज्ञानिक डेटा सामान्यतः टेक्स्ट फाइल्स जैसे 'FASTA', 'GenBank', 'EMBL', 'Swiss-Prot' आदि में संचित किया जाता है। |
01:07 | डेटा फाइल्स डेटाबेस वेबसाइट्स से डाउनलोड की जा सकती हैं। |
01:12 | किसी भी वेब ब्राउज़र में नीचे दिया गया वेबसाइट लिंक खोलें। |
01:17 | एक वेब-पेज खुलता है। |
01:19 | अब मनुष्य के 'insulin gene' के लिए 'FASTA' और 'GenBank' फाइल्स डाउनलोड करते हैं। |
01:25 | सर्च बॉक्स में टाइप करें: 'human insulin', 'Search' बटन पर क्लिक करें। |
01:31 | वेब-पेज मनुष्य के 'insulin gene' की अनेक फाइल्स दिखाता है। |
01:35 | प्रदर्शन के लिए मैं 'Homo sapiens Insulin mRNA' नाम के साथ 4 फाइल्स चुनूँगी। |
01:43 | मैं 500 से कम 'base' पेयर्स (युग्म) रखने वाली फाइल्स चुनूँगी। |
01:48 | डाउनलोड के लिए फाइल चुनने के लिए चेक-बॉक्स पर क्लिक करें। |
01:56 | कर्सर को 'Send to' विकल्प पर लाएं जो पेज के ऊपरी दाएं कोने पर है। |
02:02 | डाउन एरो के साथ छोटे चयनित बटन पर क्लिक करें जो 'Send to' बटन के पास है। |
02:09 | 'Choose destination' शीर्षक में 'File' विकल्प पर क्लिक करें। |
02:13 | आप इस फाइल को किसी भी फाइल फॉर्मेट में सेव कर सकते हैं जो 'format' ड्राप-डाउन सूची बॉक्स में सूचीबद्ध है। |
02:21 | दिए विकल्पों में से 'FASTA' चुनें। |
02:25 | फिर 'Create file' विकल्प पर क्लिक करें। |
02:29 | स्क्रीन पर एक डायलॉग बॉक्स दिखता है। |
02:32 | 'Open with' चुनें, 'OK' पर क्लिक करें। |
02:36 | 'टेक्स्ट एडिटर में फाइल खुलती है। |
02:39 | फाइल 4 रेकॉर्ड्स दिखाती है, चूँकि हमने डाउनलोड के लिए चार फाइल्स चुनी थीं। |
02:46 | प्रत्येक रेकॉर्ड में पहली लाइन 'identifier' लाइन है। |
02:50 | यह 'ग्रेटर दैन (>)' चिन्ह से शुरू होती है। |
02:53 | इसके बाद 'sequence' आती है। |
02:56 | उस फाइल को अपने 'home' फोल्डर में 'sequence.fasta' की तरह सेव करें। |
03:01 | टेक्स्ट एडिटर बंद करें। |
03:03 | पहले चयनित समान फाइल्स के लिए 'GenBank' फॉर्मेट में फाइल्स डाउनलोड करने के लिए ऊपर की तरह ही स्टेप्स का अनुसरण करें। |
03:12 | 'file format' में 'GenBank' चुनें। |
03:16 | एक फाइल बनाएं। टेक्स्ट एडिटर के साथ खोलें। |
03:21 | ध्यान दें कि 'GenBank' फॉर्मेट में सीक्वेंस फाइल 'FASTA' फाइल से ज़्यादा फीचर्स रखती है। |
03:27 | फाइल को अपने 'home' फोल्डर में 'sequence.gb' की तरह सेव करें। टेक्स्ट एडिटर बंद करें। |
03:34 | प्रदर्शन के लिए हमें एकल 'रेकॉर्ड' के साथ 'FASTA' फाइल की ज़रुरत है। |
03:39 | इसके लिए चेक बॉक्सेस पर दोबारा क्लिक करके पिछले चयन को क्लियर करें। |
03:48 | अब 'Human insulin gene complete cds' फाइल चुनें। |
03:54 | चेक-बॉक्स पर क्लिक करें। |
03:57 | और 'home' फोल्डर में फाइल सेव करने के लिए पहले दिखाई गयी समान स्टेप्स का अनुसरण करें। |
04:01 | फाइल को 'insulin.fasta' की तरह सेव करें। |
04:08 | इन फाइल्स में संचित बायोलॉजिकल डेटा को 'Biopython' लाइब्रेरीज़ उपयोग करके एक्सट्रैक्ट और संशोधित किया जा सकता है। |
04:16 | टेक्स्ट-एडिटर बंद करें। |
04:19 | डेटा फाइल्स से डेटा एक्सट्रैक्ट करना 'Parsing' कहलाता है। |
04:23 | अधिकतर फाइल फॉर्मेट्स 'SeqIO' मॉड्यूल में उपलब्ध फंक्शन्स उपयोग करके पार्स किये जा सकते हैं। |
04:30 | 'SeqIO' मॉड्यूल के अधिकतर उपयोग होने वाले फंक्शन्स हैं: 'parse, read, write' और 'convert' |
04:38 | एकसाथ 'Ctrl, Alt' और 't' कीज़ दबाकर टर्मिनल खोलें। |
04:44 | प्रॉम्प्ट पर 'ipython' टाइप करके 'Ipython' शुरू करें। एंटर दबाएं। |
04:51 | आगे, 'Bio' पैकेज से 'SeqIO' मॉड्यूल को 'इम्पोर्ट' करें। |
04:56 | प्रॉम्प्ट पर टाइप करें: 'from Bio import SeqIO' एंटर दबाएं। |
05:04 | हम सबसे महत्वपूर्ण फंक्शन 'parse' से शुरू करेंगे। |
05:07 | प्रदर्शन के लिए मैं वो 'FASTA' फाइल उपयोग करुँगी जो बहुत से रेकॉर्डस रखती है जो हमने डेटाबेस से पहले ही डाउनलोड की थी। |
05:17 | आसान 'FASTA' पार्सिंग के लिए प्रॉम्प्ट पर निम्न टाइप करें। |
05:22 | यहाँ हम 'sequence.fasta' फाइल की विषय वस्तु पढ़ने के लिए 'parse' फंक्शन उपयोग कर रहे हैं। |
05:30 | आउटपुट के लिए 'record id', रेकॉर्ड में उपस्थित 'सीक्वेंस' और सीक्वेंस की लेंथ (लम्बाई) भी प्रिंट करें। |
05:41 | यह भी ध्यान दें कि सीक्वेंस डेटा को 'Sequence record objects' की तरह पढ़ने के लिए 'parse' फंक्शन उपयोग किया जाता है। |
05:48 | यह सामान्यतः 'for' लूप के साथ उपयोग किया जाता है। |
05:52 | यह दो 'आर्ग्युमेंट्स' स्वीकार कर सकता है पहला वाला डेटा पढ़ने के लिए फाइल नाम है। |
05:59 | दूसरा फाइल फॉर्मेट को निर्दिष्ट करता है। |
06:02 | आउटपुट के लिए एंटर की दो बार दबाएं। |
06:07 | आउटपुट में 'identifier line' इसके बाद फाइल में शामिल सीक्वेंस और फाइल में सारे रेकॉर्ड्स के लिए सीक्वेंस की लेंथ भी दिखती है। |
06:21 | ध्यान दें कि 'FASTA' फॉर्मेट अक्षर निर्दिष्ट नहीं करता है। |
06:26 | अतः आउटपुट इसे 'DNA सीक्वेंस' की तरह निर्दिष्ट नहीं करता है। |
06:31 | समान स्टेप्स 'GenBank' फाइल की पार्सिंग के लिए दोहराई जा सकती हैं। |
06:36 | प्रदर्शन के लिए हम 'GenBank' फाइल उपयोग करेंगे जो हमने पहले ही डेटाबेस से डाउनलोड कर ली है। |
06:43 | कोड की लाइनें जो हमने पहले उपयोग की थी, प्राप्त करने के लिए अप एरो की दबाएं। |
06:49 | फाइल का नाम बदलकर 'sequence.gb' करें। |
06:53 | फाइल फॉर्मेट बदलकर 'genbank' करें। |
06:56 | शेष कोड समान रहता है। |
06:58 | आउटपुट प्राप्त करने के लिए दो बार एंटर की दबाएं। |
07:03 | यहाँ भी आउटपुट फाइल में सारे रेकॉर्ड्स के लिए 'record id', 'sequence' और सीक्वेंस की लेंथ दिखाता है। |
07:12 | ध्यान दें 'GenBank' फॉर्मेट सीक्वेंस को DNA सीक्वेंस की तरह निर्दिष्ट करता है। |
07:19 | इसी तरह 'Swiss-prot' और 'EMBL' फाइल्स उपरोक्त की तरह समान कोड उपयोग करके पार्स की जा सकती हैं। |
07:27 | यदि आपकी फाइल एक रेकॉर्ड रखती है तो 'parsing' के लिए निम्न कोड टाइप करें। |
07:34 | यहाँ, हम सिंगल रेकॉर्ड के साथ पहले सेव की हुई 'FASTA' फाइल उपयोग करेंगे, जोकि उदाहरण के लिए 'insulin.fasta' है। |
07:43 | ध्यान दें कि हमने 'parse' फंक्शन के बजाए 'read' फंक्शन उपयोग किया है। एंटर दबाएं। |
07:50 | आउटपुट 'insulin.fasta' फाइल के लिए कंटेंट्स (विषय वस्तु) दिखाता है। |
07:55 | यह 'sequence record object' की तरह सीक्वेंस |
07:59 | और अन्य एट्रीब्यूट्स जैसे कि 'GI, accession number' और 'description' दिखाता है। |
08:06 | हम निम्न की तरह इस रेकॉर्ड के अलग अलग रेकॉर्ड्स भी देख सकते हैं। |
08:11 | प्रॉम्प्ट पर टाइप करें: 'record dot seq' एंटर दबाएं। |
08:18 | आउटपुट फाइल में उपस्थित सीक्वेंस दिखाता है। |
08:22 | इस रेकॉर्ड के लिए पहचानकर्ताओं (आइडेन्टिफाइअर्स) को देखने के लिए टाइप करें: 'record dot id' एंटर दबाएं। |
08:29 | आउटपुट 'GI' नंबर और ऐक्सेशन नंबर आदि दिखाता है। |
08:34 | आप अपनी पसंद की डेटा फाइल्स को 'parse' करने के लिए उपरोक्त वर्णित फंक्शन उपयोग कर सकते हैं। |
08:40 | अब इसे सारांशित करते हैं। |
08:42 | इस ट्यूटोरियल में हमने सीखा: 'NCBI' डेटाबेस वेबसाइट से 'FASTA' और 'GenBank' फाइल्स डाउनलोड करना और 'SeqIO' मॉड्यूल से 'parse' और 'read' फंक्शन्स उपयोग करना। |
08:55 | 'FASTA' और 'GenBank' फाइल्स से डेटा जैसे कि 'record ids', डिस्क्रिप्शन (विवरण) और सीक्वेंसेस एक्सट्रैक्ट करना। |
09:03 | नियत कार्य |
09:06 | 'NCBI' डेटाबेस से अपनी पसंद के न्यूक्लियोटाइड सीक्वेंस के लिए 'FASTA' फाइल्स डाउनलोड करें। |
09:13 | सीक्वेंसेस की फाइल को उनके 'reverse complements' में बदलें। |
09:17 | आपका पूरा किया हुआ नियत कार्य कोड की निम्न लाइनें रखना चाहिए। |
09:22 | 'FASTA' फाइल से न्यूक्लियोटाइड सीक्वेंसेस को 'लोड' करने के लिये 'parse' फंक्शन उपयोग करें। |
09:28 | आगे, 'reverse complement' मेथड में बने सीक्वेंस ऑब्जेक्ट उपयोग करके रिवर्स कॉम्प्लीमेंट प्रिंट करें। |
09:37 | निम्न लिंक पर उपलब्ध वीडियो स्पोकन ट्यूटोरियल प्रॉजेक्ट को सारांशित करता है। |
09:42 | कृपया इसे डाउनलोड करें और देखें। |
09:44 | स्पोकन ट्यूटोरियल प्रॉजेक्ट टीम कार्यशालाएं चलाती है और ऑनलाइन टेस्ट पास करने वालों को प्रमाणपत्र देती है। |
09:51 | अधिक जानकारी के लिए कृपया हमें लिखें। |
09:55 | स्पोकन ट्यूटोरियल प्रॉजेक्ट भारत सरकार के MHRD के NMEICT द्वारा निधिबद्ध है। |
10:01 | इस मिशन पर अधिक जानकारी दर्शाये लिंक पर उपलब्ध है। |
10:06 | आई आई टी बॉम्बे से मैं श्रुति आर्य आपसे विदा लेती हूँ। हमसे जुड़ने के लिए धन्यवाद। |