Biopython/C2/Parsing-Data/Tamil

From Script | Spoken-Tutorial
Revision as of 11:20, 2 May 2017 by Priyacst (Talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search
Time
Narration
00:01 வணக்கம். Dataஐ parse செய்வது குறித்த இந்த டுடோரியலுக்கு நல்வரவு.
00:06 இந்த டுடோரியலில், NCBI database வலைத்தளத்தில் இருந்து, FASTA மற்றும் GenBank fileகளை download செய்து,
00:14 மேலும், Sequence Input/Output moduleலில் இருக்கும், functionகளை பயன்படுத்தி, data fileகளை Parse செய்யக் கற்போம்.
00:19 இந்த டுடோரியலை புரிந்து கொள்ள, இளங்கலை Biochemistry அல்லது Bioinformatics,
00:26 மற்றும், அடிப்படை Python programming பற்றி தெரிந்திருக்க வேண்டும்.
00:30 அதற்கு கொடுக்கப்பட்டுள்ள இணைப்பில் உள்ள Python டுடோரியல்களை பார்க்கவும்.
00:34 இந்த டுடோரியலை பதிவு செய்ய, நான் பயன்படுத்துவது: Ubuntu OS பதிப்பு 14.10
00:40 Python பதிப்பு 2.7.8
00:44 Ipython interpreter பதிப்பு 2.3.0
00:48 Biopython பதிப்பு 1.64 மற்றும் Mozilla Firefox browser 35.0.
00:56 உயிரியலில், scientific data, பொதுவாக, FASTA, GenBank, Swiss-Prot, EMBL போன்ற text fileகளில் சேமிக்கப்படுகின்றன.
01:07 Database வலைத்தளங்களில் இருந்து, data fileகளை download செய்யலாம்.
01:12 ஏதேனும் web browserல் , கீழே கொடுக்கப்பட்டுள்ள வலைத்தள இணைப்பை திறக்கவும்.
01:17 ஒரு web-page திறக்கும்.
01:19 மனித insulin geneக்கான, FASTA மற்றும் GenBank fileகளை download செய்வோம்
01:25 Search boxல், டைப் செய்க: "human insulin". பின் Search பட்டனை அழுத்தவும்.
01:31 மனித insulin geneக்கான, பல fileகளை web-page காட்டும்.
01:35 செயல் விளக்கத்திற்கு, “Homo sapiens Insulin mRNA” என்ற பெயருடைய 4 fileகளை, நான் தேர்ந்தெடுக்கிறேன்.
01:43 500 base ஜோடிகளுக்கு குறைவாக உள்ள fileகளை, நான் தேர்வு செய்கிறேன்.
01:48 Download செய்வதற்கு, fileஐ தேர்வு செய்து, check-boxஐ க்ளிக் செய்யவும்.
01:56 பக்கத்தின், மேல் வலது மூலையில் உள்ள, “Send to” optionக்கு, cursorஐ கொண்டு வரவும்.
02:02 Send to” பட்டனுக்கு அருகில் இருக்கும், down arrowஉடன் கூடிய, சிறிய selection பட்டனை க்ளிக் செய்யவும்.
02:09 Choose destination” தலைப்பின் கீழ் இருக்கும், File optionஐ க்ளிக் செய்யவும்.
02:13 format drop-down list boxன் கீழ் பட்டியலிடபட்டு இருக்கும், எந்த file formatலும், இந்த fileஐ சேமிக்கலாம்.
02:21 கொடுக்கப்பட்டுள்ள optionகளில் இருந்து, FASTAஐ தேர்வு செய்யவும்.
02:25 பின், Create file optionஐ க்ளிக் செய்யவும்.
02:29 ஒரு dialog-box திரையில் தோன்றும்.
02:32 Open withஐ தேர்ந்தெடுத்து, பின், OKஐ க்ளிக் செய்யவும்.
02:36 Text editorல் ஒரு file திறக்கும்.
02:39 நாம் download செய்வதற்கு, நான்கு fileகளை தேர்ந்தெடுத்து இருப்பதனால், file, 4 recordகளை காட்டுகிறது.
02:46 ஒவ்வொரு recordலும் உள்ள, முதல் வரி, identifier வரி ஆகும்.
02:50 அது, “greater than (>)” குறியுடன் தொடங்கும்.
02:53 இதனை, sequence பின் தொடர்கிறது.
02:56 உங்கள் home folderல், fileஐ, “sequence.fasta'” என சேமிக்கவும்.
03:01 Text editorஐ மூடவும்.
03:03 Fileகளை, GenBank formatல் download செய்ய, முன்பு தேர்ந்தெடுக்கப்பட்ட அதே fileகளுக்கு,
03:08 மேலுள்ள அதே படிகளை பின்பற்றவும்.
03:12 File formatஐ, GenBank என மாற்றவும்.
03:16 ஒரு fileஐ உருவாக்கவும். அதை, text editorல் திறக்கவும்.
03:21 GenBank formatல் உள்ள sequence file, ஒரு FASTA fileஐ விட அதிக அம்சங்களை பெற்றிருப்பதை கவனிக்கவும்.
03:27 உங்கள் home folderல், fileஐ, “sequence.gb'” என சேமிக்கவும். Text editorஐ மூடவும்.
03:34 செயல் விளக்கத்திற்கு, ஒரு ஒற்றை recordஐ கொண்டுள்ள, ஒரு FASTA file நமக்கு தேவைப்படுகிறது.
03:39 இதற்கு, மீண்டும் check boxகளின் மீது க்ளிக் செய்வதன் மூலம், முந்தைய selectionஐ நீக்கவும்.
03:48 இப்போது, “Human insulin gene complete cds” fileஐ தேர்ந்தெடுக்கவும்.
03:54 Check-boxஐ க்ளிக் செய்யவும்.
03:57 Home folderல், fileஐ சேமிக்க, முன்பு காட்டப்பட்ட அதே படிகளை பின்பற்றவும்.
04:01 Fileஐ, "insulin.fasta" என சேமிக்கவும்.
04:08 Biopython libraryகளை பயன்படுத்தி, இந்த fileகளில் சேமிக்கப்பட்டுள்ள, உயிரியல் dataக்களை, extract செய்து, மாற்ற முடியும்.
04:16 Text-editorஐ மூடவும்.
04:19 Data fileகளில் இருந்து, dataஐ extract செய்வது, Parsing எனப்படும்.
04:23 SeqIO moduleலில் இருக்கும், functionகளை பயன்படுத்தி, பெரும்பாலானfile formatகளை parse செய்யலாம்.
04:30 SeqIO moduleலில், பொதுவாக, அதிக அளவில் பயன்படுத்தப்படும் functionகள்: parse, read, write மற்றும் convert.
04:38 Terminalஐ திறக்க, Ctrl, Alt மற்றும் t keyகளை ஒன்றாக அழுத்தவும்.
04:44 Ipythonஐ தொடங்க, Promptல் டைப் செய்க: ipython", பின் Enterஐ அழுத்தவும்.
04:51 அடுத்து,Bio packageல் இருந்து,Seq IO moduleஐ import செய்யவும்.
04:56 Promptல் டைப் செய்க: from Bio import SeqIO'", பின் Enterஐ அழுத்தவும்.
05:04 மிக முக்கியமான “parse” functionஉடன் தொடங்குவோம்.
05:07 செயல் விளக்கத்திற்கு, நான் முன்பு databaseல் இருந்து, download செய்த, பல recordகளை கொண்ட FASTA' fileஐ பயன்படுத்துகிறேன்.
05:17 எளிய FASTA parsingக்கு, பின்வருவனவற்றை, Promptல் டைப் செய்க.
05:22 இங்கு, sequence.fasta fileன் contentகளை read செய்ய, parse functionஐ நாம் பயன்படுத்துவோம்.
05:30 Outputக்கு, print செய்க: record id, recordல் இருக்கும் sequence, மற்றும், sequenceன் நீளம்.
05:41 Sequence dataஐ, Sequence record objectகளாக read செய்ய, parse function பயன்படுத்தப்படுகிறது என்பதையும் கவனிக்கவும்.
05:48 அது பொதுவாக for loopஉடன் பயன்படுத்தப்படுகிறது.
05:52 அது இரண்டு argumentகளை ஏற்றுக் கொள்ளும். முதலாவது, fileன் பெயர், dataஐ read செய்வதற்கு.
05:59 இரண்டாவது, file formatஐ குறிக்கிறது.
06:02 Outputஐ பெற, Enter keyஐ இருமுறை அழுத்தவும்.
06:07 identifier line, அதனைத் தொடர்ந்து, fileல் உள்ள sequence, மேலும், fileல் உள்ள எல்லா recordகளுக்கான sequenceன் நீளம் ஆகியவற்றை Output காட்டுகிறது.
06:21 FASTA format, alphabetஐ குறிப்பதில்லை என்பதையும் கவனிக்கவும்.
06:26 அதனால், output, அதை ஒரு DNA sequenceஆக குறிப்பதில்லை.
06:31 GenBank fileஐ parse செய்ய அதே படிகளை பின்பற்றவும்.
06:36 செயல் விளக்கத்திற்கு, நாம் முன்பு databaseல் இருந்து, download செய்த GenBank fileஐ பயன்படுத்துவோம்.
06:43 நாம் முன்பு பயன்படுத்திய, codeன் வரிகளைப் பெற, up-arrow keyஐ அழுத்தவும்.
06:49 Fileன் பெயரை, sequence.gb என மாற்றவும்.
06:53 File formatஐ, genbankக்கு மாற்றவும்.
06:56 மீதமுள்ள codeகள் அப்படியே இருக்கும்.
06:58 Outputஐ பெற, Enter keyஐ இருமுறை அழுத்தவும்.
07:03 இங்கும், record id, sequence, fileல் உள்ள எல்லா recordகளுக்கான sequenceன் நீளம் ஆகியவற்றை output காட்டுகிறது.
07:12 GenBank format, sequenceஐ, DNA sequenceஆக குறிப்பதை கவனிக்கவும்.
07:19 இவ்வாறே, மேலுள்ள அதே codeஐ பயன்படுத்தி, Swiss-prot மற்றும் EMBL fileகளை parse செய்ய முடியும்.
07:27 உங்கள் fileலில், ஒற்றை record உள்ளதெனில், parsingக்கு, பின்வரும் வரிகளை டைப் செய்யவும்.
07:34 இங்கு, நாம் முன்னர் சேமித்து வைத்திருந்த, ஒற்றை recordஐ கொண்ட, FASTA file, அதாவது, insulin.fasta ஐ, உதாரணமாக பயன்படுத்துவோம்.
07:43 நாம் Parse functionக்கு பதிலாக read functionஐ பயன்படுத்தி இருப்பதை கவனிக்கவும். Enterஐ அழுத்தவும்.
07:50 insulin.fasta fileலின் contentகளை output காட்டுகிறது.
07:55 Sequenceஐ, sequence record objectஆக அது காட்டுகிறது.
07:59 மேலும், GI, accession number மற்றும் description போன்ற மற்ற அம்சங்களையும் காட்டுகிறது.
08:06 இந்த recordன் தனிப்பட்ட அம்சங்களையும், பின்வருமாறு நாம் காணலாம்.
08:11 Promptல் டைப் செய்க: record dot seq, பின் Enterஐ அழுத்தவும்.
08:18 Fileலில் இருக்கும் sequenceஐ output காட்டுகிறது.
08:22 இந்த recordன் identifierகளை காண, டைப் செய்க: record dot id, பின் Enterஐ அழுத்தவும்.
08:29 GI எண் மற்றும் accession எண்ணை output காட்டுகிறது.
08:34 உங்களுக்கு விருப்பமான data fileகளை parse செய்ய, மேலே விவரிக்கப்பட்டுள்ள functionஐ நீங்கள் பயன்படுத்தலாம்.
08:40 இப்போது, சுருங்கசொல்ல,
08:42 இந்த டுடோரியலில் நாம் கற்றது: NCBI database வலைத்தளத்தில் இருந்து, FASTA மற்றும் GenBank fileகளை download செய்வது, SeqIO moduleலில் இருந்து, parse மற்றும் read functionகளை பயன்படுத்துவது,
08:55 FASTA மற்றும் GenBank fileகளில் இருந்து, record idகள், descriptionகள் மற்றும் sequenceகள் போன்ற dataக்களை extract செய்வது.
09:03 இப்போது, பயிற்சியாக-
09:06 NCBI databaseல் இருந்து, உங்களுக்கு விருப்பமான, nucleotide sequenceக்கான, FASTA fileகளை download செய்யவும்.
09:13 Sequenceகளின் fileஐ, அதன் reverse complementகளுக்கு மாற்றவும்.
09:17 நீங்கள் செய்த பயிற்சி பின்வரும் codeன் வரிகளைப் பெற்றிருக்க வேண்டும்.
09:22 FASTA fileல் இருந்து, nucleotide sequenceகளை load செய்ய, parse functionஐ பயன்படுத்தவும்.
09:28 அடுத்து, Sequence objectன் built in reverse complement methodஐ பயன்படுத்தி, reverse complementகளை print செய்யவும்.
09:37 இந்த வீடியோ ஸ்போகன் டுடோரியல் திட்டத்தை சுருங்க சொல்கிறது.
09:42 உங்கள் இணைய இணைப்பு வேகமாக இல்லையெனில் அதை தரவிறக்கி காணவும்.
09:44 ஸ்போகன் டுடோரியல் திட்டக்குழு செய்முறை வகுப்புகள் நடத்தி இணையத்தில் பரீட்சை எழுதி தேர்வோருக்கு சான்றிதழ்கள் தருகிறது.
09:51 மேலும் விவரங்களுக்கு எங்களுக்கு மின்னஞ்சல் செய்யவும்.
09:55 இந்திய அரசாங்கத்தின், NMEICT, MHRD, ஸ்போகன் டுடோரியல் திட்டத்திற்கு ஆதரவு அளிக்கிறது.
10:01 மேலும் விவரங்களுக்கு, கீழ்கண்ட இணைப்பை பார்க்கவும்.
10:06 இந்த டுடோரியலை தமிழாக்கம் செய்தது ஜெயஸ்ரீ. குரல் கொடுத்தது ஐஐடி பாம்பேவில் இருந்து பிரியா. நன்றி.

Contributors and Content Editors

Priyacst