Biopython/C2/Parsing-Data/Hindi

Time	Narration
00:01	नमस्कार
00:02	'Parsing Data' पर इस ट्यूटोरियल में आपका स्वागत है।
00:06	इस ट्यूटोरियल में हम सीखेंगे 'NCBI' डेटाबेस वेबसाइट से 'FASTA' और 'GenBank' फाइल्स डाउनलोड करना
00:14	और 'Sequence Input/Output' मॉड्यूल में 'फंक्शन्स' उपयोग करके डेटा फाइल्स 'Parse' करना।
00:19	इस ट्यूटोरियल के अनुसरण के लिए आपको स्नातक स्तर की बायोकेमिस्ट्री या बायोइन्फॉर्मेटिक्स
00:26	और बुनियादी 'Python' प्रोग्रामिंग से परिचित होना चाहिए।
00:30	दिए लिंक पर 'Python' ट्यूटोरियल्स देखें।
00:34	इस ट्यूटोरियल को रेकॉर्ड करने के लिए मैं उपयोग कर रही हूँ: 'Ubuntu OS' वर्जन 14.10
00:40	* 'Python' वर्जन 2.7.8
00:44	* 'Ipython interpretor' वर्जन 2.3.0
00:48	* 'Biopython' वर्जन 1.64 और * 'Mozilla Firefox' ब्राउज़र 35.0.
00:56	बायोलॉजी (जीवविज्ञान) में वैज्ञानिक डेटा सामान्यतः टेक्स्ट फाइल्स जैसे 'FASTA', 'GenBank', 'EMBL', 'Swiss-Prot' आदि में संचित किया जाता है।
01:07	डेटा फाइल्स डेटाबेस वेबसाइट्स से डाउनलोड की जा सकती हैं।
01:12	किसी भी वेब ब्राउज़र में नीचे दिया गया वेबसाइट लिंक खोलें।
01:17	एक वेब-पेज खुलता है।
01:19	अब मनुष्य के 'insulin gene' के लिए 'FASTA' और 'GenBank' फाइल्स डाउनलोड करते हैं।
01:25	सर्च बॉक्स में टाइप करें: 'human insulin', 'Search' बटन पर क्लिक करें।
01:31	वेब-पेज मनुष्य के 'insulin gene' की अनेक फाइल्स दिखाता है।
01:35	प्रदर्शन के लिए मैं 'Homo sapiens Insulin mRNA' नाम के साथ 4 फाइल्स चुनूँगी।
01:43	मैं 500 से कम 'base' पेयर्स (युग्म) रखने वाली फाइल्स चुनूँगी।
01:48	डाउनलोड के लिए फाइल चुनने के लिए चेक-बॉक्स पर क्लिक करें।
01:56	कर्सर को 'Send to' विकल्प पर लाएं जो पेज के ऊपरी दाएं कोने पर है।
02:02	डाउन एरो के साथ छोटे चयनित बटन पर क्लिक करें जो 'Send to' बटन के पास है।
02:09	'Choose destination' शीर्षक में 'File' विकल्प पर क्लिक करें।
02:13	आप इस फाइल को किसी भी फाइल फॉर्मेट में सेव कर सकते हैं जो 'format' ड्राप-डाउन सूची बॉक्स में सूचीबद्ध है।
02:21	दिए विकल्पों में से 'FASTA' चुनें।
02:25	फिर 'Create file' विकल्प पर क्लिक करें।
02:29	स्क्रीन पर एक डायलॉग बॉक्स दिखता है।
02:32	'Open with' चुनें, 'OK' पर क्लिक करें।
02:36	'टेक्स्ट एडिटर में फाइल खुलती है।
02:39	फाइल 4 रेकॉर्ड्स दिखाती है, चूँकि हमने डाउनलोड के लिए चार फाइल्स चुनी थीं।
02:46	प्रत्येक रेकॉर्ड में पहली लाइन 'identifier' लाइन है।
02:50	यह 'ग्रेटर दैन (>)' चिन्ह से शुरू होती है।
02:53	इसके बाद 'sequence' आती है।
02:56	उस फाइल को अपने 'home' फोल्डर में 'sequence.fasta' की तरह सेव करें।
03:01	टेक्स्ट एडिटर बंद करें।
03:03	पहले चयनित समान फाइल्स के लिए 'GenBank' फॉर्मेट में फाइल्स डाउनलोड करने के लिए ऊपर की तरह ही स्टेप्स का अनुसरण करें।
03:12	'file format' में 'GenBank' चुनें।
03:16	एक फाइल बनाएं। टेक्स्ट एडिटर के साथ खोलें।
03:21	ध्यान दें कि 'GenBank' फॉर्मेट में सीक्वेंस फाइल 'FASTA' फाइल से ज़्यादा फीचर्स रखती है।
03:27	फाइल को अपने 'home' फोल्डर में 'sequence.gb' की तरह सेव करें। टेक्स्ट एडिटर बंद करें।
03:34	प्रदर्शन के लिए हमें एकल 'रेकॉर्ड' के साथ 'FASTA' फाइल की ज़रुरत है।
03:39	इसके लिए चेक बॉक्सेस पर दोबारा क्लिक करके पिछले चयन को क्लियर करें।
03:48	अब 'Human insulin gene complete cds' फाइल चुनें।
03:54	चेक-बॉक्स पर क्लिक करें।
03:57	और 'home' फोल्डर में फाइल सेव करने के लिए पहले दिखाई गयी समान स्टेप्स का अनुसरण करें।
04:01	फाइल को 'insulin.fasta' की तरह सेव करें।
04:08	इन फाइल्स में संचित बायोलॉजिकल डेटा को 'Biopython' लाइब्रेरीज़ उपयोग करके एक्सट्रैक्ट और संशोधित किया जा सकता है।
04:16	टेक्स्ट-एडिटर बंद करें।
04:19	डेटा फाइल्स से डेटा एक्सट्रैक्ट करना 'Parsing' कहलाता है।
04:23	अधिकतर फाइल फॉर्मेट्स 'SeqIO' मॉड्यूल में उपलब्ध फंक्शन्स उपयोग करके पार्स किये जा सकते हैं।
04:30	'SeqIO' मॉड्यूल के अधिकतर उपयोग होने वाले फंक्शन्स हैं: 'parse, read, write' और 'convert'
04:38	एकसाथ 'Ctrl, Alt' और 't' कीज़ दबाकर टर्मिनल खोलें।
04:44	प्रॉम्प्ट पर 'ipython' टाइप करके 'Ipython' शुरू करें। एंटर दबाएं।
04:51	आगे, 'Bio' पैकेज से 'SeqIO' मॉड्यूल को 'इम्पोर्ट' करें।
04:56	प्रॉम्प्ट पर टाइप करें: 'from Bio import SeqIO' एंटर दबाएं।
05:04	हम सबसे महत्वपूर्ण फंक्शन 'parse' से शुरू करेंगे।
05:07	प्रदर्शन के लिए मैं वो 'FASTA' फाइल उपयोग करुँगी जो बहुत से रेकॉर्डस रखती है जो हमने डेटाबेस से पहले ही डाउनलोड की थी।
05:17	आसान 'FASTA' पार्सिंग के लिए प्रॉम्प्ट पर निम्न टाइप करें।
05:22	यहाँ हम 'sequence.fasta' फाइल की विषय वस्तु पढ़ने के लिए 'parse' फंक्शन उपयोग कर रहे हैं।
05:30	आउटपुट के लिए 'record id', रेकॉर्ड में उपस्थित 'सीक्वेंस' और सीक्वेंस की लेंथ (लम्बाई) भी प्रिंट करें।
05:41	यह भी ध्यान दें कि सीक्वेंस डेटा को 'Sequence record objects' की तरह पढ़ने के लिए 'parse' फंक्शन उपयोग किया जाता है।
05:48	यह सामान्यतः 'for' लूप के साथ उपयोग किया जाता है।
05:52	यह दो 'आर्ग्युमेंट्स' स्वीकार कर सकता है पहला वाला डेटा पढ़ने के लिए फाइल नाम है।
05:59	दूसरा फाइल फॉर्मेट को निर्दिष्ट करता है।
06:02	आउटपुट के लिए एंटर की दो बार दबाएं।
06:07	आउटपुट में 'identifier line' इसके बाद फाइल में शामिल सीक्वेंस और फाइल में सारे रेकॉर्ड्स के लिए सीक्वेंस की लेंथ भी दिखती है।
06:21	ध्यान दें कि 'FASTA' फॉर्मेट अक्षर निर्दिष्ट नहीं करता है।
06:26	अतः आउटपुट इसे 'DNA सीक्वेंस' की तरह निर्दिष्ट नहीं करता है।
06:31	समान स्टेप्स 'GenBank' फाइल की पार्सिंग के लिए दोहराई जा सकती हैं।
06:36	प्रदर्शन के लिए हम 'GenBank' फाइल उपयोग करेंगे जो हमने पहले ही डेटाबेस से डाउनलोड कर ली है।
06:43	कोड की लाइनें जो हमने पहले उपयोग की थी, प्राप्त करने के लिए अप एरो की दबाएं।
06:49	फाइल का नाम बदलकर 'sequence.gb' करें।
06:53	फाइल फॉर्मेट बदलकर 'genbank' करें।
06:56	शेष कोड समान रहता है।
06:58	आउटपुट प्राप्त करने के लिए दो बार एंटर की दबाएं।
07:03	यहाँ भी आउटपुट फाइल में सारे रेकॉर्ड्स के लिए 'record id', 'sequence' और सीक्वेंस की लेंथ दिखाता है।
07:12	ध्यान दें 'GenBank' फॉर्मेट सीक्वेंस को DNA सीक्वेंस की तरह निर्दिष्ट करता है।
07:19	इसी तरह 'Swiss-prot' और 'EMBL' फाइल्स उपरोक्त की तरह समान कोड उपयोग करके पार्स की जा सकती हैं।
07:27	यदि आपकी फाइल एक रेकॉर्ड रखती है तो 'parsing' के लिए निम्न कोड टाइप करें।
07:34	यहाँ, हम सिंगल रेकॉर्ड के साथ पहले सेव की हुई 'FASTA' फाइल उपयोग करेंगे, जोकि उदाहरण के लिए 'insulin.fasta' है।
07:43	ध्यान दें कि हमने 'parse' फंक्शन के बजाए 'read' फंक्शन उपयोग किया है। एंटर दबाएं।
07:50	आउटपुट 'insulin.fasta' फाइल के लिए कंटेंट्स (विषय वस्तु) दिखाता है।
07:55	यह 'sequence record object' की तरह सीक्वेंस
07:59	और अन्य एट्रीब्यूट्स जैसे कि 'GI, accession number' और 'description' दिखाता है।
08:06	हम निम्न की तरह इस रेकॉर्ड के अलग अलग रेकॉर्ड्स भी देख सकते हैं।
08:11	प्रॉम्प्ट पर टाइप करें: 'record dot seq' एंटर दबाएं।
08:18	आउटपुट फाइल में उपस्थित सीक्वेंस दिखाता है।
08:22	इस रेकॉर्ड के लिए पहचानकर्ताओं (आइडेन्टिफाइअर्स) को देखने के लिए टाइप करें: 'record dot id' एंटर दबाएं।
08:29	आउटपुट 'GI' नंबर और ऐक्सेशन नंबर आदि दिखाता है।
08:34	आप अपनी पसंद की डेटा फाइल्स को 'parse' करने के लिए उपरोक्त वर्णित फंक्शन उपयोग कर सकते हैं।
08:40	अब इसे सारांशित करते हैं।
08:42	इस ट्यूटोरियल में हमने सीखा: 'NCBI' डेटाबेस वेबसाइट से 'FASTA' और 'GenBank' फाइल्स डाउनलोड करना और 'SeqIO' मॉड्यूल से 'parse' और 'read' फंक्शन्स उपयोग करना।
08:55	'FASTA' और 'GenBank' फाइल्स से डेटा जैसे कि 'record ids', डिस्क्रिप्शन (विवरण) और सीक्वेंसेस एक्सट्रैक्ट करना।
09:03	नियत कार्य
09:06	'NCBI' डेटाबेस से अपनी पसंद के न्यूक्लियोटाइड सीक्वेंस के लिए 'FASTA' फाइल्स डाउनलोड करें।
09:13	सीक्वेंसेस की फाइल को उनके 'reverse complements' में बदलें।
09:17	आपका पूरा किया हुआ नियत कार्य कोड की निम्न लाइनें रखना चाहिए।
09:22	'FASTA' फाइल से न्यूक्लियोटाइड सीक्वेंसेस को 'लोड' करने के लिये 'parse' फंक्शन उपयोग करें।
09:28	आगे, 'reverse complement' मेथड में बने सीक्वेंस ऑब्जेक्ट उपयोग करके रिवर्स कॉम्प्लीमेंट प्रिंट करें।
09:37	निम्न लिंक पर उपलब्ध वीडियो स्पोकन ट्यूटोरियल प्रॉजेक्ट को सारांशित करता है।
09:42	कृपया इसे डाउनलोड करें और देखें।
09:44	स्पोकन ट्यूटोरियल प्रॉजेक्ट टीम कार्यशालाएं चलाती है और ऑनलाइन टेस्ट पास करने वालों को प्रमाणपत्र देती है।
09:51	अधिक जानकारी के लिए कृपया हमें लिखें।
09:55	स्पोकन ट्यूटोरियल प्रॉजेक्ट भारत सरकार के MHRD के NMEICT द्वारा निधिबद्ध है।
10:01	इस मिशन पर अधिक जानकारी दर्शाये लिंक पर उपलब्ध है।
10:06	आई आई टी बॉम्बे से मैं श्रुति आर्य आपसे विदा लेती हूँ। हमसे जुड़ने के लिए धन्यवाद।

Contributors and Content Editors

Sakinashaikh, Shruti arya

Biopython/C2/Parsing-Data/Hindi

Contributors and Content Editors

Navigation menu

Personal tools

Namespaces

Variants

Views

Actions

Search

Navigation

Tools