Biopython/C2/Parsing-Data/Marathi

From Script | Spoken-Tutorial
Jump to: navigation, search
Time Narration
00:01 नमस्कार,Parsing Data वरील ट्यूटोरियल मध्ये आपले स्वागत.
00:06 ह्या ट्यूटोरियल मध्ये, आपण NCBI डेटाबेस वेबसाइट मधून FASTA आणि GenBank फाइल्स डाउनलोड करणे शिकणार आहोत.
00:14 आणि, Sequence Input/Output मॉड्यूल मध्ये functions वापरुन डेटा फाइल्स पार्स करणे शिकणार आहोत.
00:19 ह्या ट्यूटोरियलचे अनुसरण करण्यास तुम्हाला अंडर ग्रॅज्युएट बायोकेमिस्ट्री किंवा बायोइन्फर्मेटिक्स आणि मूलभूत Python प्रोग्रँमिंग माहीत असले पाहिजे.
00:30 दिलेल्या लिंक वरील Python ट्यूटोरियल्स पहा.
00:34 हा ट्यूटोरियल रेकॉर्ड करण्यास, मी Ubuntu OS वर्जन 14.10
00:40 Python वर्जन 2.7.8
00:44 Ipython interpreter वर्जन 2.3.0
00:48 Biopython वर्जन 1.64 आणि Mozilla Firefox ब्राउजर 35.0 वापरत आहे.
00:56 जीवशास्त्र मध्ये शास्त्रीय माहिती साधारणपणे टेक्स्ट फाईल मध्ये संचयित केली जाते जसे की FASTA, GenBank, EMBL, Swiss-Prot इत्यादी.
01:07 डेटाबेस वेबसाइट मधून डेटा फाइल्स डाउनलोड केले जाऊ शकते.
01:12 खाली दिलेले वेबसाइट लिंक कोणत्याही वेब ब्राउजरमध्ये उघडा.
01:17 एक वेब-पेज उघडते.
01:19 ह्यूमन insulin gene साठी FASTA आणि GenBank फाइल्स डाउनलोड करू.
01:25 'Search' बॉक्स मध्ये, टाइप करा: "human insulin", Search बटन वर क्‍लिक करा.
01:31 ह्यूमन insulin gene साठी वेब-पेज, अनेक फाइल्स दाखवते.
01:35 प्रात्यक्षिकेसाठी, मी “Homo sapiens Insulin mRNA” नावा सह 4 फाइल्स निवडेल.
01:43 मी 500 बेस जोड्यांपेक्षा कमी असलेल्या फाइल्स निवडेल.
01:48 डाउनलोड करीता, फाइल निवडण्यास चेक-बॉक्स वर क्‍लिक करा.
01:56 पेजच्या वरती उजव्या कोपर्यात असलेल्या “Send to” पर्याय वर कर्सर आणा.
02:02 “Send to” बटनाच्या पुढे उपस्थित एक डाउन एरो सह निवडण्यास लहान बटनावर क्‍लिक करा.
02:09 Choose destination शीर्षकाखाली, File पर्याय वर क्‍लिक करा.
02:13 तुम्ही ही फाइल कोणत्याही फाइल फॉर्मॅट मध्ये सेव्ह करू शकता. जे format ड्रॉप-डाउन लिस्ट बॉक्स अंतर्गत सूचीबद्ध आहेत.
02:21 दिलेल्या पर्ययांमधून FASTA निवडा.
02:25 नंतर Create file पर्याय वर क्‍लिक करा.
02:29 स्क्रीन वर एक डायलॉग-बॉक्स दिसेल.
02:32 Open with निवडून OK वर क्‍लिक करा.
02:36 text editor मध्ये फाइल उघडते.
02:39 फाइल 4 रेकॉर्ड्स दाखवते, जसे की आपण डाउनलोड करण्यास चार फाइल्स निवडले होते.
02:46 प्रत्येक रेकॉर्डमधील पहिली ओळ एक identifier ओळ आहे.
02:50 हे “greater than (>)” सिंबल ने सुरू होते.
02:53 हे sequence च्या नंतर येईल.
02:56 फाइलला “sequence.fasta” म्हणून तुमच्या होम फोल्डर मध्ये सेव्ह करा.
03:01 टेक्स्ट एडिटर बंद करा.
03:03 आधी निवड्लेल्या त्याच फाइल्स साठी, GenBank फॉर्मॅट मध्ये डाउनलोड करण्यास वरीलप्रमाणे त्याच स्टेप्सचे अनुसरण करा.
03:12 file format, GenBank म्हणून निवडा.
03:16 फाइल तयार करा. टेक्स्ट एडिटर सह उघडा.
03:21 लक्षात घ्या की GenBank फॉर्मॅट मधील सीक्वेन्स फाइल मध्ये FASTA फाइल पेक्षा अधिक वैशिष्ट्ये आहेत.
03:27 तुमच्या होम फोल्डर मध्ये फाइलला "sequence.gb" म्हणून सेव्ह करा. टेक्स्ट एडिटर बंद करा.
03:34 प्रात्यक्षिक कारणासाठी, आपल्याला एका record सह FASTA फाइलची गरज आहे.
03:39 ह्यासाठी, पुन्हा चेक बॉक्स वर क्‍लिक करून आधीचे निवड क्लियर करा.
03:48 आता, Human insulin gene complete cds फाइल निवडा.
03:54 चेक-बॉक्स वर क्‍लिक करा.
03:57 होम फोल्डर मध्ये फाइल सेव्ह करण्यास, आधी दाखवलेल्या त्याच स्टेप्सचे अनुसरण करा.
04:01 फाइलला, "insulin.fasta" म्हणून सेव्ह करा.
04:08 Biopython लाइब्ररीस वापरुन ह्या फाइल्स मधील संचित केलेला बाइयोलॉजिकल डेटा एक्सट्रॅक्ट करून बदलू शकतो.
04:16 टेक्स्ट-एडिटर बंद करा.
04:19 डेटा फाइल्स मधून डेटा एक्सट्रॅक्ट करणे ह्याला Parsing असे म्हणतात.
04:23 SeqIO मॉड्यूल मधील उपलब्ध फंक्शन्स वापरुन बहुतेक फाइल फॉरमॅट्स पार्स केले जाऊ शकतात.
04:30 SeqIO मॉड्यूलचे बहुतेक सामन्य फंक्शन्स वापरलेले आहेत: 'पार्स, रीड, राइट' आणि 'कनवर्ट'.
04:38 Ctrl, Alt आणि t किज दाबून टर्मिनल उघडा.
04:44 प्रॉंप्ट वर "ipython" टाइप करून Ipython सुरू करा. एंटर दाबा.
04:51 पुढे, Bio पॅकेज मधून "SeqIO" मॉड्यूल इम्पोर्ट करा.
04:56 प्रॉंप्ट वर टाइप करा: from Bio import SeqIO. एंटर दाबा.
05:04 आपण सर्वात महत्वाचे फंक्शन parse सह सुरवात करू.
05:07 प्रात्यक्षिकेसाठी, मी FASTA फाइल वापरेल ज्यात अनेक रेकॉर्ड्स आहेत, जे आपण याआधी डेटाबेस मधून डाउनलोड केले होते.
05:17 साध्या FASTA पारसिंगसाठी, प्रॉमप्टवर खालील टाइप करा.
05:22 येथे, आपण sequence.fasta फाइलचे कॉंटेंट्स वाचण्यासाठी 'पार्स' फंक्शन वापरत आहोत.
05:30 आउटपुट साठी, रेकॉर्ड आयडी आणि रेकॉर्ड मधील उपस्थित सीक्वेन्सची लांबी प्रिंट करा.
05:41 तसेच लक्ष्य द्या की पार्स फंक्शन, Sequence record objects म्हणून सीक्वेन्स डेटा वाचण्यास वापरले जाते.
05:48 हे सामन्यत: for लूप सह वापरले जाते.
05:52 हे दोन आर्ग्युमेंट्स ला स्वीकारते, ज्यामधून पहिला आहे फाइल नेम जो डेटा वाचतो.
05:59 दुसरा फाइल फॉर्मॅटला निर्दिष्ट करतो.
06:02 आउटपुट मिळण्यास दोनदा एंटर की दाबा.
06:07 आउटपुट आइडेंटिफाइयर लाइन त्यानंतर फाइल मध्ये जे सीक्वेन्स आहेत आणि तसेच फाइल मधील सर्व रेकॉर्ड्स साठी सीक्वेन्सची लांबी दाखवते.
06:21 लक्षात घ्या की FASTA फॉर्मॅट अक्षरावर निर्दिष्ट करीत नाही.
06:26 त्यामुळे, आउटपुट DNA sequence म्हणून त्याला निर्दिष्ट करीत नाही.
06:31 पारसिंग GenBank फाइल साठी त्याच स्टेप्स पुन्हा केले जाऊ शकतात.
06:36 प्रात्यक्षिकेसाठी, आपण GenBank फाइल वापरुया, जे आपण याआधी डेटाबेस मधून डाउनलोड केले आहेत.
06:43 कोडची ओळ मिळविण्यास अप-एरो की दाबा, जी आपण आधी वापरली होती.
06:49 फाइलचे नाव sequence.gb ने बदला.
06:53 फाइलचे फॉर्मॅट genbank ने बदला.
06:56 उर्वरित कोड समान राहील.
06:58 आउटपुट मिळण्यास दोनदा एंटर की दाबा.
07:03 येथे आउटपुट, फाइल मधील सर्व रेकॉर्ड्स साठी record id, sequence आणि सीक्वेन्सची लांबी दाखवते.
07:12 लक्ष्य द्या की GenBank फॉर्मॅट, DNA सीक्वेन्स म्हणून सीक्वेन्सला निर्देशीत करते.
07:19 तसेच, वरीलप्रमाणे तेच कोड वापरुन Swiss-prot आणि EMBL फाइल्स पार्स करू शकतो.
07:27 जर तुमची फाइल एक सिंगल रेकॉर्ड समाविष्ट करते, तर parsing साठी खालील ओळी टाइप करा.
07:34 येथे, आपण पुर्वी सेव्ह केलेली एक सिंगल रेकॉर्ड सह FASTA फाइल वापरुया, जी उधारण म्हणून insulin.fasta आहे.
07:43 लक्ष्य द्या की आपण parse फंक्शनच्या ऐवजी read फंक्शन वापरले आहेत. एंटर दाबा.
07:50 आउटपुट, insulin.fasta फाइल साठी कॉंटेंट्स दाखवते.
07:55 हे sequence record object म्हणून सीक्वेन्स दाखवते.
07:59 आणि इतर विशेषता जसे की GI, accession number आणि description.
08:06 खालिलप्रमाणे आपण ह्या रेकॉर्डची प्रत्येक विशेषता देखील पाहु शकतो.
08:11 प्रॉंप्ट वर, टाइप करा: record dot seq. एंटर दाबा.
08:18 आउटपुट, फाइल मधील उपस्थित सीक्वेन्स दाखवते.
08:22 ह्या रेकॉर्डसाठी आइडेंटिफाइयर्स पाहण्यास, टाइप करा: record dot id. एंटर दाबा.
08:29 आउटपुट, GI नंबर आणि एक्सेशन नंबर इत्यादी दाखवते.
08:34 तुम्ही तुमच्या पसंतीचा डेटा फाइल्स पार्स करण्यास, वरील स्पष्ट केलेले फंक्शन वापरु शकता.
08:40 थोडक्यात.
08:42 ह्या ट्यूटोरियल मध्ये, आपण शिकलो: NCBI डेटाबेस वेबसाइट मधून FASTA आणि GenBank फाइल्स डाउनलोड करणे.आणि SeqIO मॉड्यूल मधून parse आणि read फंक्शन्स वापरणे.
08:55 FASTA आणि GenBank फाइल्स मधून record ids, डिस्क्रिप्षन आणि सीक्वेन्सेस सारखे डेटा एक्सट्रॅक्ट करणे.
09:03 आता असाइनमेंट साठी-
09:06 NCBI डेटाबेस मधून तुमच्या पसंतीच्या न्यूक्लियोटाइड सीक्वेन्ससाठी FASTA फाइल्स डाउनलोड करा.
09:13 सीक्वेन्सेस च्या फाइल ला, त्यांच्या reverse complements मध्ये रुपांतरित करा.
09:17 तुमच्या पूर्ण झालेल्या असाइनमेंट मध्ये कोडचे खालील ओळी असणे आवश्यक आहे.
09:22 FASTA फाइल मधून न्यूक्लियोटाइड सीक्वेन्सेस लोड करण्यास parse फंक्शन वापरा.
09:28 reverse complement मेथड मध्ये निर्मित केलेले सीक्वेन्स ऑब्जेक्ट वापरुन रिवर्स कॉंप्लिमेंट्स ना प्रिंट करा.
09:37 स्क्रीनवर दिसणार्‍या लिंकवर उपलब्ध असलेल्या व्हिडिओमधे तुम्हाला प्रॉजेक्टचा सारांश मिळेल.
09:42 कृपया डाउनलोड करून पहा.
09:44 स्पोकन ट्युटोरियल प्रॉजेक्ट टीम, कार्यशाळा चालविते, परीक्षा उत्तीर्ण होणा-या विद्यार्थ्यांना प्रमाणपत्रही देते
09:51 अधिक माहितीसाठी, कृपया आम्हाला लिहा.
09:55 स्पोकन ट्युटोरियल प्रॉजेक्टला अर्थसहाय्य NMEICT, MHRD, Govt of India ने दिले आहे.
10:01 यासंबंधी माहिती पुढील साईटवर उपलब्ध आहे.
10:06 मी रंजना भांबळे आपला निरोप घेते. सहभागासाठी धन्यवाद.

Contributors and Content Editors

PoojaMoolya, Ranjana