Biopython/C2/Parsing-Data/Hindi

From Script | Spoken-Tutorial
Revision as of 11:04, 27 April 2017 by Sakinashaikh (Talk | contribs)

Jump to: navigation, search
Time
Narration
00:01 नमस्कार
00:02 'Parsing Data' पर इस ट्यूटोरियल में आपका स्वागत है।
00:06 इस ट्यूटोरियल में हम सीखेंगे 'NCBI' डेटाबेस वेबसाइट से 'FASTA' और 'GenBank' फाइल्स डाउनलोड करना
00:14 और 'Sequence Input/Output' मॉड्यूल में 'फंक्शन्स' उपयोग करके डेटा फाइल्स 'Parse' करना।
00:19 इस ट्यूटोरियल के अनुसरण के लिए आपको स्नातक स्तर की बायोकेमिस्ट्री या बायोइन्फॉर्मेटिक्स
00:26 और बुनियादी 'Python' प्रोग्रामिंग से परिचित होना चाहिए।
00:30 दिए लिंक पर 'Python' ट्यूटोरियल्स देखें।
00:34 इस ट्यूटोरियल को रेकॉर्ड करने के लिए मैं उपयोग कर रही हूँ: 'Ubuntu OS' वर्जन 14.10
00:40 * 'Python' वर्जन 2.7.8
00:44 * 'Ipython interpretor' वर्जन 2.3.0
00:48 * 'Biopython' वर्जन 1.64 और * 'Mozilla Firefox' ब्राउज़र 35.0.
00:56 बायोलॉजी (जीवविज्ञान) में वैज्ञानिक डेटा सामान्यतः टेक्स्ट फाइल्स जैसे 'FASTA', 'GenBank', 'EMBL', 'Swiss-Prot' आदि में संचित किया जाता है।
01:07 डेटा फाइल्स डेटाबेस वेबसाइट्स से डाउनलोड की जा सकती हैं।
01:12 किसी भी वेब ब्राउज़र में नीचे दिया गया वेबसाइट लिंक खोलें।
01:17 एक वेब-पेज खुलता है।
01:19 अब मनुष्य के 'insulin gene' के लिए 'FASTA' और 'GenBank' फाइल्स डाउनलोड करते हैं।
01:25 सर्च बॉक्स में टाइप करें: 'human insulin', 'Search' बटन पर क्लिक करें।
01:31 वेब-पेज मनुष्य के 'insulin gene' की अनेक फाइल्स दिखाता है।
01:35 प्रदर्शन के लिए मैं 'Homo sapiens Insulin mRNA' नाम के साथ 4 फाइल्स चुनूँगी।
01:43 मैं 500 से कम 'base' पेयर्स (युग्म) रखने वाली फाइल्स चुनूँगी।
01:48 डाउनलोड के लिए फाइल चुनने के लिए चेक-बॉक्स पर क्लिक करें।
01:56 कर्सर को 'Send to' विकल्प पर लाएं जो पेज के ऊपरी दाएं कोने पर है।
02:02 डाउन एरो के साथ छोटे चयनित बटन पर क्लिक करें जो 'Send to' बटन के पास है।
02:09 'Choose destination' शीर्षक में 'File' विकल्प पर क्लिक करें।
02:13 आप इस फाइल को किसी भी फाइल फॉर्मेट में सेव कर सकते हैं जो 'format' ड्राप-डाउन सूची बॉक्स में सूचीबद्ध है।
02:21 दिए विकल्पों में से 'FASTA' चुनें।
02:25 फिर 'Create file' विकल्प पर क्लिक करें।
02:29 स्क्रीन पर एक डायलॉग बॉक्स दिखता है।
02:32 'Open with' चुनें, 'OK' पर क्लिक करें।
02:36 'टेक्स्ट एडिटर में फाइल खुलती है।
02:39 फाइल 4 रेकॉर्ड्स दिखाती है, चूँकि हमने डाउनलोड के लिए चार फाइल्स चुनी थीं।
02:46 प्रत्येक रेकॉर्ड में पहली लाइन 'identifier' लाइन है।
02:50 यह 'ग्रेटर दैन (>)' चिन्ह से शुरू होती है।
02:53 इसके बाद 'sequence' आती है।
02:56 उस फाइल को अपने 'home' फोल्डर में 'sequence.fasta' की तरह सेव करें।
03:01 टेक्स्ट एडिटर बंद करें।
03:03 पहले चयनित समान फाइल्स के लिए 'GenBank' फॉर्मेट में फाइल्स डाउनलोड करने के लिए ऊपर की तरह ही स्टेप्स का अनुसरण करें।
03:12 'file format' में 'GenBank' चुनें।
03:16 एक फाइल बनाएं। टेक्स्ट एडिटर के साथ खोलें।
03:21 ध्यान दें कि 'GenBank' फॉर्मेट में सीक्वेंस फाइल 'FASTA' फाइल से ज़्यादा फीचर्स रखती है।
03:27 फाइल को अपने 'home' फोल्डर में 'sequence.gb' की तरह सेव करें। टेक्स्ट एडिटर बंद करें।
03:34 प्रदर्शन के लिए हमें एकल 'रेकॉर्ड' के साथ 'FASTA' फाइल की ज़रुरत है।
03:39 इसके लिए चेक बॉक्सेस पर दोबारा क्लिक करके पिछले चयन को क्लियर करें।
03:48 अब 'Human insulin gene complete cds' फाइल चुनें।
03:54 चेक-बॉक्स पर क्लिक करें।
03:57 और 'home' फोल्डर में फाइल सेव करने के लिए पहले दिखाई गयी समान स्टेप्स का अनुसरण करें।
04:01 फाइल को 'insulin.fasta' की तरह सेव करें।
04:08 इन फाइल्स में संचित बायोलॉजिकल डेटा को 'Biopython' लाइब्रेरीज़ उपयोग करके एक्सट्रैक्ट और संशोधित किया जा सकता है।
04:16 टेक्स्ट-एडिटर बंद करें।
04:19 डेटा फाइल्स से डेटा एक्सट्रैक्ट करना 'Parsing' कहलाता है।
04:23 अधिकतर फाइल फॉर्मेट्स 'SeqIO' मॉड्यूल में उपलब्ध फंक्शन्स उपयोग करके पार्स किये जा सकते हैं।
04:30 'SeqIO' मॉड्यूल के अधिकतर उपयोग होने वाले फंक्शन्स हैं: 'parse, read, write' और 'convert'
04:38 एकसाथ 'Ctrl, Alt' और 't' कीज़ दबाकर टर्मिनल खोलें।
04:44 प्रॉम्प्ट पर 'ipython' टाइप करके 'Ipython' शुरू करें। एंटर दबाएं।
04:51 आगे, 'Bio' पैकेज से 'SeqIO' मॉड्यूल को 'इम्पोर्ट' करें।
04:56 प्रॉम्प्ट पर टाइप करें: 'from Bio import SeqIO' एंटर दबाएं।
05:04 हम सबसे महत्वपूर्ण फंक्शन 'parse' से शुरू करेंगे।
05:07 प्रदर्शन के लिए मैं वो 'FASTA' फाइल उपयोग करुँगी जो बहुत से रेकॉर्डस रखती है जो हमने डेटाबेस से पहले ही डाउनलोड की थी।
05:17 आसान 'FASTA' पार्सिंग के लिए प्रॉम्प्ट पर निम्न टाइप करें।
05:22 यहाँ हम 'sequence.fasta' फाइल की विषय वस्तु पढ़ने के लिए 'parse' फंक्शन उपयोग कर रहे हैं।
05:30 आउटपुट के लिए 'record id', रेकॉर्ड में उपस्थित 'सीक्वेंस' और सीक्वेंस की लेंथ (लम्बाई) भी प्रिंट करें।
05:41 यह भी ध्यान दें कि सीक्वेंस डेटा को 'Sequence record objects' की तरह पढ़ने के लिए 'parse' फंक्शन उपयोग किया जाता है।
05:48 यह सामान्यतः 'for' लूप के साथ उपयोग किया जाता है।
05:52 यह दो 'आर्ग्युमेंट्स' स्वीकार कर सकता है पहला वाला डेटा पढ़ने के लिए फाइल नाम है।
05:59 दूसरा फाइल फॉर्मेट को निर्दिष्ट करता है।
06:02 आउटपुट के लिए एंटर की दो बार दबाएं।
06:07 आउटपुट में 'identifier line' इसके बाद फाइल में शामिल सीक्वेंस और फाइल में सारे रेकॉर्ड्स के लिए सीक्वेंस की लेंथ भी दिखती है।
06:21 ध्यान दें कि 'FASTA' फॉर्मेट अक्षर निर्दिष्ट नहीं करता है।
06:26 अतः आउटपुट इसे 'DNA सीक्वेंस' की तरह निर्दिष्ट नहीं करता है।
06:31 समान स्टेप्स 'GenBank' फाइल की पार्सिंग के लिए दोहराई जा सकती हैं।
06:36 प्रदर्शन के लिए हम 'GenBank' फाइल उपयोग करेंगे जो हमने पहले ही डेटाबेस से डाउनलोड कर ली है।
06:43 कोड की लाइनें जो हमने पहले उपयोग की थी, प्राप्त करने के लिए अप एरो की दबाएं।
06:49 फाइल का नाम बदलकर 'sequence.gb' करें।
06:53 फाइल फॉर्मेट बदलकर 'genbank' करें।
06:56 शेष कोड समान रहता है।
06:58 आउटपुट प्राप्त करने के लिए दो बार एंटर की दबाएं।
07:03 यहाँ भी आउटपुट फाइल में सारे रेकॉर्ड्स के लिए 'record id', 'sequence' और सीक्वेंस की लेंथ दिखाता है।
07:12 ध्यान दें 'GenBank' फॉर्मेट सीक्वेंस को DNA सीक्वेंस की तरह निर्दिष्ट करता है।
07:19 इसी तरह 'Swiss-prot' और 'EMBL' फाइल्स उपरोक्त की तरह समान कोड उपयोग करके पार्स की जा सकती हैं।
07:27 यदि आपकी फाइल एक रेकॉर्ड रखती है तो 'parsing' के लिए निम्न कोड टाइप करें।
07:34 यहाँ, हम सिंगल रेकॉर्ड के साथ पहले सेव की हुई 'FASTA' फाइल उपयोग करेंगे, जोकि उदाहरण के लिए 'insulin.fasta' है।
07:43 ध्यान दें कि हमने 'parse' फंक्शन के बजाए 'read' फंक्शन उपयोग किया है। एंटर दबाएं।
07:50 आउटपुट 'insulin.fasta' फाइल के लिए कंटेंट्स (विषय वस्तु) दिखाता है।
07:55 यह 'sequence record object' की तरह सीक्वेंस
07:59 और अन्य एट्रीब्यूट्स जैसे कि 'GI, accession number' और 'description' दिखाता है।
08:06 हम निम्न की तरह इस रेकॉर्ड के अलग अलग रेकॉर्ड्स भी देख सकते हैं।
08:11 प्रॉम्प्ट पर टाइप करें: 'record dot seq' एंटर दबाएं।
08:18 आउटपुट फाइल में उपस्थित सीक्वेंस दिखाता है।
08:22 इस रेकॉर्ड के लिए पहचानकर्ताओं (आइडेन्टिफाइअर्स) को देखने के लिए टाइप करें: 'record dot id' एंटर दबाएं।
08:29 आउटपुट 'GI' नंबर और ऐक्सेशन नंबर आदि दिखाता है।
08:34 आप अपनी पसंद की डेटा फाइल्स को 'parse' करने के लिए उपरोक्त वर्णित फंक्शन उपयोग कर सकते हैं।
08:40 अब इसे सारांशित करते हैं।
08:42 इस ट्यूटोरियल में हमने सीखा:
  • 'NCBI' डेटाबेस वेबसाइट से 'FASTA' और 'GenBank' फाइल्स डाउनलोड करना
  • और 'SeqIO' मॉड्यूल से 'parse' और 'read' फंक्शन्स उपयोग करना।
08:55 'FASTA' और 'GenBank' फाइल्स से डेटा जैसे कि 'record ids', डिस्क्रिप्शन (विवरण) और सीक्वेंसेस एक्सट्रैक्ट करना।
09:03 नियत कार्य
09:06 'NCBI' डेटाबेस से अपनी पसंद के न्यूक्लियोटाइड सीक्वेंस के लिए 'FASTA' फाइल्स डाउनलोड करें।
09:13 सीक्वेंसेस की फाइल को उनके 'reverse complements' में बदलें।
09:17 आपका पूरा किया हुआ नियत कार्य कोड की निम्न लाइनें रखना चाहिए।
09:22 'FASTA' फाइल से न्यूक्लियोटाइड सीक्वेंसेस को 'लोड' करने के लिये 'parse' फंक्शन उपयोग करें।
09:28 आगे, 'reverse complement' मेथड में बने सीक्वेंस ऑब्जेक्ट उपयोग करके रिवर्स कॉम्प्लीमेंट प्रिंट करें।
09:37 निम्न लिंक पर उपलब्ध वीडियो स्पोकन ट्यूटोरियल प्रॉजेक्ट को सारांशित करता है।
09:42 कृपया इसे डाउनलोड करें और देखें।
09:44 स्पोकन ट्यूटोरियल प्रॉजेक्ट टीम कार्यशालाएं चलाती है और ऑनलाइन टेस्ट पास करने वालों को प्रमाणपत्र देती है।
09:51 अधिक जानकारी के लिए कृपया हमें लिखें।
09:55 स्पोकन ट्यूटोरियल प्रॉजेक्ट भारत सरकार के MHRD के NMEICT द्वारा निधिबद्ध है।
10:01 इस मिशन पर अधिक जानकारी दर्शाये लिंक पर उपलब्ध है।
10:06 आई आई टी बॉम्बे से मैं श्रुति आर्य आपसे विदा लेती हूँ। हमसे जुड़ने के लिए धन्यवाद।

Contributors and Content Editors

Sakinashaikh, Shruti arya