Biopython/C2/Parsing-Data/Marathi
From Script | Spoken-Tutorial
Time | Narration |
00:01 | नमस्कार,Parsing Data वरील ट्यूटोरियल मध्ये आपले स्वागत. |
00:06 | ह्या ट्यूटोरियल मध्ये, आपण NCBI डेटाबेस वेबसाइट मधून FASTA आणि GenBank फाइल्स डाउनलोड करणे शिकणार आहोत. |
00:14 | आणि, Sequence Input/Output मॉड्यूल मध्ये functions वापरुन डेटा फाइल्स पार्स करणे शिकणार आहोत. |
00:19 | ह्या ट्यूटोरियलचे अनुसरण करण्यास तुम्हाला अंडर ग्रॅज्युएट बायोकेमिस्ट्री किंवा बायोइन्फर्मेटिक्स आणि मूलभूत Python प्रोग्रँमिंग माहीत असले पाहिजे. |
00:30 | दिलेल्या लिंक वरील Python ट्यूटोरियल्स पहा. |
00:34 | हा ट्यूटोरियल रेकॉर्ड करण्यास, मी Ubuntu OS वर्जन 14.10 |
00:40 | Python वर्जन 2.7.8 |
00:44 | Ipython interpreter वर्जन 2.3.0 |
00:48 | Biopython वर्जन 1.64 आणि Mozilla Firefox ब्राउजर 35.0 वापरत आहे. |
00:56 | जीवशास्त्र मध्ये शास्त्रीय माहिती साधारणपणे टेक्स्ट फाईल मध्ये संचयित केली जाते जसे की FASTA, GenBank, EMBL, Swiss-Prot इत्यादी. |
01:07 | डेटाबेस वेबसाइट मधून डेटा फाइल्स डाउनलोड केले जाऊ शकते. |
01:12 | खाली दिलेले वेबसाइट लिंक कोणत्याही वेब ब्राउजरमध्ये उघडा. |
01:17 | एक वेब-पेज उघडते. |
01:19 | ह्यूमन insulin gene साठी FASTA आणि GenBank फाइल्स डाउनलोड करू. |
01:25 | 'Search' बॉक्स मध्ये, टाइप करा: "human insulin", Search बटन वर क्लिक करा. |
01:31 | ह्यूमन insulin gene साठी वेब-पेज, अनेक फाइल्स दाखवते. |
01:35 | प्रात्यक्षिकेसाठी, मी “Homo sapiens Insulin mRNA” नावा सह 4 फाइल्स निवडेल. |
01:43 | मी 500 बेस जोड्यांपेक्षा कमी असलेल्या फाइल्स निवडेल. |
01:48 | डाउनलोड करीता, फाइल निवडण्यास चेक-बॉक्स वर क्लिक करा. |
01:56 | पेजच्या वरती उजव्या कोपर्यात असलेल्या “Send to” पर्याय वर कर्सर आणा. |
02:02 | “Send to” बटनाच्या पुढे उपस्थित एक डाउन एरो सह निवडण्यास लहान बटनावर क्लिक करा. |
02:09 | Choose destination शीर्षकाखाली, File पर्याय वर क्लिक करा. |
02:13 | तुम्ही ही फाइल कोणत्याही फाइल फॉर्मॅट मध्ये सेव्ह करू शकता. जे format ड्रॉप-डाउन लिस्ट बॉक्स अंतर्गत सूचीबद्ध आहेत. |
02:21 | दिलेल्या पर्ययांमधून FASTA निवडा. |
02:25 | नंतर Create file पर्याय वर क्लिक करा. |
02:29 | स्क्रीन वर एक डायलॉग-बॉक्स दिसेल. |
02:32 | Open with निवडून OK वर क्लिक करा. |
02:36 | text editor मध्ये फाइल उघडते. |
02:39 | फाइल 4 रेकॉर्ड्स दाखवते, जसे की आपण डाउनलोड करण्यास चार फाइल्स निवडले होते. |
02:46 | प्रत्येक रेकॉर्डमधील पहिली ओळ एक identifier ओळ आहे. |
02:50 | हे “greater than (>)” सिंबल ने सुरू होते. |
02:53 | हे sequence च्या नंतर येईल. |
02:56 | फाइलला “sequence.fasta” म्हणून तुमच्या होम फोल्डर मध्ये सेव्ह करा. |
03:01 | टेक्स्ट एडिटर बंद करा. |
03:03 | आधी निवड्लेल्या त्याच फाइल्स साठी, GenBank फॉर्मॅट मध्ये डाउनलोड करण्यास वरीलप्रमाणे त्याच स्टेप्सचे अनुसरण करा. |
03:12 | file format, GenBank म्हणून निवडा. |
03:16 | फाइल तयार करा. टेक्स्ट एडिटर सह उघडा. |
03:21 | लक्षात घ्या की GenBank फॉर्मॅट मधील सीक्वेन्स फाइल मध्ये FASTA फाइल पेक्षा अधिक वैशिष्ट्ये आहेत. |
03:27 | तुमच्या होम फोल्डर मध्ये फाइलला "sequence.gb" म्हणून सेव्ह करा. टेक्स्ट एडिटर बंद करा. |
03:34 | प्रात्यक्षिक कारणासाठी, आपल्याला एका record सह FASTA फाइलची गरज आहे. |
03:39 | ह्यासाठी, पुन्हा चेक बॉक्स वर क्लिक करून आधीचे निवड क्लियर करा. |
03:48 | आता, Human insulin gene complete cds फाइल निवडा. |
03:54 | चेक-बॉक्स वर क्लिक करा. |
03:57 | होम फोल्डर मध्ये फाइल सेव्ह करण्यास, आधी दाखवलेल्या त्याच स्टेप्सचे अनुसरण करा. |
04:01 | फाइलला, "insulin.fasta" म्हणून सेव्ह करा. |
04:08 | Biopython लाइब्ररीस वापरुन ह्या फाइल्स मधील संचित केलेला बाइयोलॉजिकल डेटा एक्सट्रॅक्ट करून बदलू शकतो. |
04:16 | टेक्स्ट-एडिटर बंद करा. |
04:19 | डेटा फाइल्स मधून डेटा एक्सट्रॅक्ट करणे ह्याला Parsing असे म्हणतात. |
04:23 | SeqIO मॉड्यूल मधील उपलब्ध फंक्शन्स वापरुन बहुतेक फाइल फॉरमॅट्स पार्स केले जाऊ शकतात. |
04:30 | SeqIO मॉड्यूलचे बहुतेक सामन्य फंक्शन्स वापरलेले आहेत: 'पार्स, रीड, राइट' आणि 'कनवर्ट'. |
04:38 | Ctrl, Alt आणि t किज दाबून टर्मिनल उघडा. |
04:44 | प्रॉंप्ट वर "ipython" टाइप करून Ipython सुरू करा. एंटर दाबा. |
04:51 | पुढे, Bio पॅकेज मधून "SeqIO" मॉड्यूल इम्पोर्ट करा. |
04:56 | प्रॉंप्ट वर टाइप करा: from Bio import SeqIO. एंटर दाबा. |
05:04 | आपण सर्वात महत्वाचे फंक्शन parse सह सुरवात करू. |
05:07 | प्रात्यक्षिकेसाठी, मी FASTA फाइल वापरेल ज्यात अनेक रेकॉर्ड्स आहेत, जे आपण याआधी डेटाबेस मधून डाउनलोड केले होते. |
05:17 | साध्या FASTA पारसिंगसाठी, प्रॉमप्टवर खालील टाइप करा. |
05:22 | येथे, आपण sequence.fasta फाइलचे कॉंटेंट्स वाचण्यासाठी 'पार्स' फंक्शन वापरत आहोत. |
05:30 | आउटपुट साठी, रेकॉर्ड आयडी आणि रेकॉर्ड मधील उपस्थित सीक्वेन्सची लांबी प्रिंट करा. |
05:41 | तसेच लक्ष्य द्या की पार्स फंक्शन, Sequence record objects म्हणून सीक्वेन्स डेटा वाचण्यास वापरले जाते. |
05:48 | हे सामन्यत: for लूप सह वापरले जाते. |
05:52 | हे दोन आर्ग्युमेंट्स ला स्वीकारते, ज्यामधून पहिला आहे फाइल नेम जो डेटा वाचतो. |
05:59 | दुसरा फाइल फॉर्मॅटला निर्दिष्ट करतो. |
06:02 | आउटपुट मिळण्यास दोनदा एंटर की दाबा. |
06:07 | आउटपुट आइडेंटिफाइयर लाइन त्यानंतर फाइल मध्ये जे सीक्वेन्स आहेत आणि तसेच फाइल मधील सर्व रेकॉर्ड्स साठी सीक्वेन्सची लांबी दाखवते. |
06:21 | लक्षात घ्या की FASTA फॉर्मॅट अक्षरावर निर्दिष्ट करीत नाही. |
06:26 | त्यामुळे, आउटपुट DNA sequence म्हणून त्याला निर्दिष्ट करीत नाही. |
06:31 | पारसिंग GenBank फाइल साठी त्याच स्टेप्स पुन्हा केले जाऊ शकतात. |
06:36 | प्रात्यक्षिकेसाठी, आपण GenBank फाइल वापरुया, जे आपण याआधी डेटाबेस मधून डाउनलोड केले आहेत. |
06:43 | कोडची ओळ मिळविण्यास अप-एरो की दाबा, जी आपण आधी वापरली होती. |
06:49 | फाइलचे नाव sequence.gb ने बदला. |
06:53 | फाइलचे फॉर्मॅट genbank ने बदला. |
06:56 | उर्वरित कोड समान राहील. |
06:58 | आउटपुट मिळण्यास दोनदा एंटर की दाबा. |
07:03 | येथे आउटपुट, फाइल मधील सर्व रेकॉर्ड्स साठी record id, sequence आणि सीक्वेन्सची लांबी दाखवते. |
07:12 | लक्ष्य द्या की GenBank फॉर्मॅट, DNA सीक्वेन्स म्हणून सीक्वेन्सला निर्देशीत करते. |
07:19 | तसेच, वरीलप्रमाणे तेच कोड वापरुन Swiss-prot आणि EMBL फाइल्स पार्स करू शकतो. |
07:27 | जर तुमची फाइल एक सिंगल रेकॉर्ड समाविष्ट करते, तर parsing साठी खालील ओळी टाइप करा. |
07:34 | येथे, आपण पुर्वी सेव्ह केलेली एक सिंगल रेकॉर्ड सह FASTA फाइल वापरुया, जी उधारण म्हणून insulin.fasta आहे. |
07:43 | लक्ष्य द्या की आपण parse फंक्शनच्या ऐवजी read फंक्शन वापरले आहेत. एंटर दाबा. |
07:50 | आउटपुट, insulin.fasta फाइल साठी कॉंटेंट्स दाखवते. |
07:55 | हे sequence record object म्हणून सीक्वेन्स दाखवते. |
07:59 | आणि इतर विशेषता जसे की GI, accession number आणि description. |
08:06 | खालिलप्रमाणे आपण ह्या रेकॉर्डची प्रत्येक विशेषता देखील पाहु शकतो. |
08:11 | प्रॉंप्ट वर, टाइप करा: record dot seq. एंटर दाबा. |
08:18 | आउटपुट, फाइल मधील उपस्थित सीक्वेन्स दाखवते. |
08:22 | ह्या रेकॉर्डसाठी आइडेंटिफाइयर्स पाहण्यास, टाइप करा: record dot id. एंटर दाबा. |
08:29 | आउटपुट, GI नंबर आणि एक्सेशन नंबर इत्यादी दाखवते. |
08:34 | तुम्ही तुमच्या पसंतीचा डेटा फाइल्स पार्स करण्यास, वरील स्पष्ट केलेले फंक्शन वापरु शकता. |
08:40 | थोडक्यात. |
08:42 | ह्या ट्यूटोरियल मध्ये, आपण शिकलो: NCBI डेटाबेस वेबसाइट मधून FASTA आणि GenBank फाइल्स डाउनलोड करणे.आणि SeqIO मॉड्यूल मधून parse आणि read फंक्शन्स वापरणे. |
08:55 | FASTA आणि GenBank फाइल्स मधून record ids, डिस्क्रिप्षन आणि सीक्वेन्सेस सारखे डेटा एक्सट्रॅक्ट करणे. |
09:03 | आता असाइनमेंट साठी- |
09:06 | NCBI डेटाबेस मधून तुमच्या पसंतीच्या न्यूक्लियोटाइड सीक्वेन्ससाठी FASTA फाइल्स डाउनलोड करा. |
09:13 | सीक्वेन्सेस च्या फाइल ला, त्यांच्या reverse complements मध्ये रुपांतरित करा. |
09:17 | तुमच्या पूर्ण झालेल्या असाइनमेंट मध्ये कोडचे खालील ओळी असणे आवश्यक आहे. |
09:22 | FASTA फाइल मधून न्यूक्लियोटाइड सीक्वेन्सेस लोड करण्यास parse फंक्शन वापरा. |
09:28 | reverse complement मेथड मध्ये निर्मित केलेले सीक्वेन्स ऑब्जेक्ट वापरुन रिवर्स कॉंप्लिमेंट्स ना प्रिंट करा. |
09:37 | स्क्रीनवर दिसणार्या लिंकवर उपलब्ध असलेल्या व्हिडिओमधे तुम्हाला प्रॉजेक्टचा सारांश मिळेल. |
09:42 | कृपया डाउनलोड करून पहा. |
09:44 | स्पोकन ट्युटोरियल प्रॉजेक्ट टीम, कार्यशाळा चालविते, परीक्षा उत्तीर्ण होणा-या विद्यार्थ्यांना प्रमाणपत्रही देते |
09:51 | अधिक माहितीसाठी, कृपया आम्हाला लिहा. |
09:55 | स्पोकन ट्युटोरियल प्रॉजेक्टला अर्थसहाय्य NMEICT, MHRD, Govt of India ने दिले आहे. |
10:01 | यासंबंधी माहिती पुढील साईटवर उपलब्ध आहे. |
10:06 | मी रंजना भांबळे आपला निरोप घेते. सहभागासाठी धन्यवाद. |