Biopython/C2/Parsing-Data/Gujarati

From Script | Spoken-Tutorial
Revision as of 11:22, 12 April 2017 by Jyotisolanki (Talk | contribs)

Jump to: navigation, search
Time
Narration
00:01 નમસ્તે મિત્રો .
00:02 Parsing Data પરના ટ્યુટોરીયલ માં તમારું સ્વાગત છે.
00:06 આ ટ્યુટોરીયલમાં આપણે NCBI ડેટાબેઝ વેબસાઈટમાં થી FASTA અને GenBank ફાઈલો ડાઉનલોડ કરતા શીખીશું.
00:14 અને Sequence Input/Output મોડ્યુલમાં functions યુપયોગ કરીને ડેટા ફાઈલ Parse કરતા.
00:19 આ ટ્યુટોરીયલનું અનુસરણ કરવા માટે તમને અંડર ગ્રેજ્યુએટ બાયોકેમિસ્ટ્રી અને મૂળભૂત Python પ્રોગ્રામ ની જાણકારી હોવી જોઈએ.
00:30 આપેલ લિંક પર Python ટ્યુટોરીયલને જુઓ.
00:34 આ ટ્યુટોરીયલ રિકોર્ડ કરવા માટે હું ઉપયોગ કરી રહી છું Ubuntu OS version 14.10 .
00:40 Python version 2.7.8
00:44 Ipython interpretor version 2.3.0
00:48 Biopython version 1.64 અને Mozilla Firefox browser 35.0.
00:56 જીવવિજ્ઞાનમાં વૈજ્ઞાનિક માહિતી સામાન્યપણે ટેક્સ્ટ ફાઈલમાં સંગ્રહ કરવા માં આવે છે જેમ કે FASTA, GenBank, EMBL, Swiss-Prot વગેરે.
01:07 ડેટાબેસ વેબસાઈટ પરથી ડેટા ફાઈલો ડાઉનલોડ કરી શકાય છે.
01:12 આપેલ લિંક કોઈ પણ વેબ બ્રાઉઝરમાં ખોલો.
01:17 એક વેબ પેજ ખુલશે.
01:19 મનુષ્ય insulin gene માટે FASTA અને GenBank ફાઈલો ડાઉનલોડ કરીએ.
01:25 સર્ચ બોક્સમાં ટાઈપ કરો "human insulin" Search બટન પર ક્લિક કરો
01:31 આ વેબ પેજ મનુષ્ય insulin gene માટે અનેક ફાઈલો દેખાડશે.
01:35 પ્રદશન માટે હું “Homo sapiens Insulin mRNA” મન સાથે 4 ફળી પસંદ કરીશ.
01:43 હું 500 base જોડી કરતા કમી ફાઈલ ને પસંદ કરીશ.
01:48 ડાઉનલોડ કરવા માટે ફાઈલ પસંદ કરવા માટે ચેક બોક્સ પર ક્લિક કરો.
01:56 કર્સર ને “Send to” વિકલ્પના પાસે લઇ જાવ જે પેજના જમણી બાજુએ એકદમ ઉપર છે.
02:02 Send to” બટનના આગળ ઉપસ્થિત ડાઉન એરો બટન પર ક્લિક કરો.
02:09 Choose destination” શીર્ષક અંતર્ગત File વિકલ્પ પર ક્લિક કરો.
02:13 તમે આ ફાઈલ કોઈ પણ ફાઈલ ફોર્મેટમાં સેવ કરી શકો છો. જે format ડ્રોપ ડાઉન લિસ્ટ બોક્સ અંતર્ગત સૂચિબદ્ધ છે.
02:21 આપેલ વિકલ્પ માંથી FASTA પસંદ કરો.
02:25 પછી Create file વિકલ્પ પર ક્લિક કરો.
02:29 સ્ક્રીન પર ડાઈલોગ બોક્સ દેખાશે.
02:32 Open with પસંદ કરો અને OK. પર ક્લિક કરો.
02:36 text editor માં ફાઈલ ખુલે છે.
02:39 ફાઈલ 4 રિકોર્ડસ દેખાડે છે. કેમકે આપણે ચાર ડાઉનલોડ કરવા માટે ફાઈલો પસંદ કરી હતી.
02:46 પ્રત્યેક રિકોર્ડમાં પ્રથમ લાઈન એક identifier લાઈન છે.
02:50 આ “greater than (>)” સીમ્બોલ સાથે શરુ થાય છે.
02:53 sequence. પછી આવે છે.
02:56 ફાઈલને “sequence.fasta'”. ફોલ્ડર તરીએકે તમારા હોમ ફોલ્ડરમાં સેવ કરો.
03:01 ટેક્સ્ટ એડિટર ને બંધ કરો.
03:03 પહેલા પસંદ કરેલ ફાઈલો માટે GenBank ફોર્મેટમાં ડાઉનલોડ કરવા માટે ઉપરબતાડ્યા પ્રમાણે સ્ટેપ્સ નું અનુસરણ કરો.
03:12 file format ને GenBank. તરીકે પસંદ કરો.
03:16 ફાઈલ બનાવો. ટેક્સ્ટ એડિટર સાથે ખોલો.
03:21 નોંધ લો GenBank ફોર્મેટમાં અનુક્રમ ફાઈલમાં FASTA ફાઈલ કરતા વધુ વશિષ્ટતા ધરાવે છે.
03:27 તમારા હોમ ફોલ્ડરમાં ફાઈલને "sequence.gb" તરીકે સેવ કરો. ટેક્સ્ટ એડિટર બંધ કરો.
03:34 પ્રદશન હેતુ માટે આપણને એક record સાથે FASTA ફાઈલની જરૂરિયાત છે.
03:39 આ માટે ફરીથી ચેકબોક્સ પર ક્લિક કરીને પહેલાની પસંદગી કાઢી કાઢો.
03:48 હવે “Human insulin gene complete cds” ફાઈલ પસંદ કરો.
03:54 ચેક બોક્સ પર ક્લિક કરો.
03:57 હોમ ફોલ્ડરમાં ફાઈલ સેવ કરવા માટે પહેલા બતાડેલ તેજ સ્ટેપનું અનુસરણ કરો.
04:01 ફાઈલ ને "insulin.fasta" તરીકે સેવ કરો.
04:08 Biopython લાઈબ્રેરી વાપરીને આ ફાઇલ્સમાં સન્ગ્રહ કરેલ બાયોલોજીકલ ડેટા એક્સટ્રેક્ટ કરીને બદલી શકીએ છીએ.
04:16 ટેક્સ્ટ એડિટર બંધ કરો.
04:19 ડેટા ફાઇલ્સમાં ડેટા એક્સટ્રેક્ટ કરવું તેને Parsing કહેવાય છે.
04:23 SeqIO મોડ્યુલ માં ઉપલબ્ધ functions વાપરીને વધુ ફાઈલ ફોર્મેટ્સ પાર્સ કરી શકાય છે.
04:30 SeqIO મોડ્યુલ વધુકરીને સામાન્ય ફંન્કશન નો ઉપયોગ કરે છે. SeqIO module are: parse, read, write and convert.
04:38 Ctrl, Alt અને t કી ને એક સાથે દાબીને ટર્મિનલ ખોલો.
04:44 પ્રોમ્પ્ટ પર "ipython" ટાઈપ કરીને Ipython શરુ કરો. એન્ટર દબાવો.
04:51 આગળ Bio પેકેજમાં "SeqIO" મોડ્યુલ ઈમ્પોર્ટ કરો.
04:56 પ્રોમ્પ્ટ પર ટાઈપ કરો : from Bio import SeqIO. એન્ટર દબાવો.
05:04 આપણે સૌથી મહત્વનો ફંન્કશન “parse”. સાથે શરૂઆત કરીશ.
05:07 પ્રદશન માટે હું FASTA ફાઈલ નો ઉપયોગ કરીશ જે અનેક રિકોર્ડસ ધરાવે છે.જે આપણે પહેલા ડેટાબેસથી ડાઉનલોડ કર્યું હતું.
05:17 સામાન્ય FASTA parsing, માટે પ્રોમ્પ્ટ પર આપેલ ટાઈપ કરો.
05:22 અહીં આપણે sequence.fasta ફાઈલ નું કંટેટસ વાંચવા માટે parse ફંન્કશનનો ઉપયોગ કરી રહ્યા છીએ.
05:30 આઉટપુટ માટે record id અને રિકોર્ડમાં ઉપલબ્ધ સિક્વેન્સની લંબાઈ પ્રિન્ટ કરો.
05:41 તેમજ નોંધ લો કે parse ફંન્કશન Sequence record objects તરીકે સિક્વેન્સ ડેટાને વાંચવા માટે ઉપયોગ કરાવાય છે.
05:48 આ સામાન્ય રીતે for લૂપ માટે ઉપયોગ કરાવાય છે.
05:52 આ બે આર્ગ્યુમેન્ટ ને સ્વીકારે છે જેમાંથી પ્રથમ ફાઈલ નેમ છે જે ડેટા વાંચે છે.
05:59 બીજું ફાઈલ ફોરમેટને સ્પષ્ટ કરે છે.
06:02 આઉટપુટ મેળવવા માટે Enter કી ને બે વાર દબાવો.
06:07 આઉટપુટ identifier line, પછીથી ફાઈલમાં જે સિક્વેન્સ છે અને તેમજ ફાઈલમાં બધા રિકોર્ડસ માટે સિક્વેન્સ લંબાઈ દેખાડે છે.
06:21 નોંધ લો કે FASTA ફોર્મેટ મુળાક્ષરોને સ્પષ્ટ નથી કરતા.
06:26 માટે આઉટપુટ DNA sequence તરીકે તેને સ્પષ્ટ કરે છે.
06:31 પારસીંગ GenBank ફાઈલ માટે તેજ સ્ટેપ ને ફરી કરી શકાય છે.
06:36 પ્રદશન માટે આપણે ' GenBank' ફાઈલ વાપરીશું જે આપણે આ પહેલા ડેટાબેસ પરથી ડાઉનલોડ કર્યું હતું.
06:43 કોડની લાઈન મેળવવા માટે અપ એરો કી દબાવો જે આપણે પહેલા ઉપયોગ કર્યો હતો.
06:49 ફાઈલનું નામ sequence.gb થી બદલો
06:53 ફાઈલનું ફોર્મેટ genbank. થી બદલો.
06:56 બચેલા કોડ સમાન જ રહેશે.
06:58 આઉટપુટ મેળવવા માટે Enter કી બે બાર દાબો.
07:03 અહીં આઉટપુટ ફાઈલ માં બધા રિકોર્ડસ માટે record id, sequence અને સિક્વેન્સની લંબાઈ દેખાડે છે.
07:12 નોંધ લો કે GenBank ફોર્મેટ DNA સિકવેન્સ તરીકે સિક્વેન્સને સ્પષ્ટ કરે છે.
07:19 તેમજ ઉપરની જેમ તેજ કોડ વાપરીને Swiss-prot અને EMBL ફાઈલો પાર્સ કરી શકાય છે.
07:27 જો તમારી ફાઈલ એક સિંગલ રિકોર્ડ ધરાવે છે તો parsing માટે નીચે આપેલ લાઈન ટાઈપ કરો.
07:34 અહીં આપણે પહેલા સેવ કરેલ એક સિંગલ રિકોર્ડ સાથે FASTA ફાઈલ વાપરીએ જે ઉદાહરણ તરીકે insulin.fasta છે.
07:43 નોંધ લો કે આપણે parse ફંક્શનની જગ્યાએ read ફંક્શન ઉપયોગ કરીએ છીએ.એન્ટર દબાવો.
07:50 આઉટપુટ insulin.fasta ફાઈલ માટે કંટેટ દેખાડે છે.
07:55 sequence record object. તરીકે સિક્વેન્સ દેખાડે છે.
07:59 અને અન્ય વિશેષતા જેમ કે GI, accession number અને description.
08:06 આપેલ પ્રમાણે આપણે આ રિકોર્ડની પ્રત્યેક વિશેષતા જોઈ શકીએ છીએ.
08:11 પ્રોમ્પ્ટ પર ટાઈપ કરો : record dot seq. Enter દબાવો.
08:18 આઉટપુટ ફાઈલમાં ઉપસ્થિત સિક્વેન્સ દેખાડે છે.
08:22 આ રિકોર્ડમાટે આઇડેન્ટીફાયર્સ જોવા માટે ટાઈપ કરો : record dot id. Enter દબાવો.
08:29 આઉટપુટ GI નંબર અને એક્સેશન નંબર વગેરે દેખાડે છે.
08:34 તમે તમારી પસંદગીના ડેટા ફાઈલો પાર્સ કરવા માટે ઉપર સ્પષ્ટ કરેલ ફંકશન વાપરી શકીએ છીએ.
08:40 ચાલો સારાંશ લઈએ.
08:42 આ ટ્યુટોરીયલમાં આપણે શીખ્યા:
 NCBI  ડેટાબેસ વેબસાઈટ પરથી  FASTA અને  GenBank ફાઈલો ડાઉનલોડ કરતા.
 અને SeqIO મોડ્યુલમાં  parse અને  read ફંકશન્સનો ઉપયોગ કરતા.
08:55 FASTA અને GenBank ફાઈલોમાં record ids ડિસ્ક્રિપશન અને સીકવેંસીસ તરીકે ડેટા એક્સ્ટ્રક્ટ કરતા.
09:03 હમણાં માટેઅસાઇનમેન્ટ-
09:06 NCBI ડેટાબેસમાં તમારા પસંદગીના ન્યુક્લિયોટાઇડ સિકવેન્સમાટે FASTA ફાઈલ ડાઉનલોડ કરો.
09:13 સિકવેન્સના ફાઈલને તેના reverse complements માં રૂપાંતરિત કરો.
09:17 તમારું પૂર્ણ અસાઇનમેન્ટ માં કોડ નીચેની કોડ લાઈન હોવિ જરૂરી છે.
09:22 FASTA ફાઈલમાં ન્યુક્લિયોટાઇડ સિક્વેન્સ લોડ કરવામાટે parse ફંકશન વાપરો.
09:28 આગળ reverse complement મેથડમાં નિર્મિત કરેલ સિકવેન્સ ઓબ્જેક્ટ વાપરીને રિવર્સ કોમ્પલીમેંટસ ને પ્રિન્ટ કરો.
09:37 આપેલ લીંક પર ઉપલબ્ધ વિડીયો નિહાળો. તે સ્પોકન ટ્યુટોરીયલ પ્રોજેક્ટનો સારાંશ આપે છે.
09:42 તેને ડાઉનલોડ કરીને જુઓ
09:44 સ્પોકન ટ્યુટોરીયલ પ્રોજેક્ટ ટીમ સ્પોકન ટ્યુટોરીયલોનાં ઉપયોગથી વર્કશોપોનું આયોજન કરે છે.જેઓ ઓનલાઈન પરીક્ષા પાસ કરે છે તેઓને પ્રમાણપત્રો આપે છે.
09:51 વધુ વિગતો માટે, અમનેલખો
09:55 સ્પોકન ટ્યુટોરીયલ પ્રોજેક્ટને આઈસીટી, એમએચઆરડી, ભારત સરકાર મારફતે શિક્ષણ પર નેશનલ મિશન દ્વારા આધાર અપાયેલ છે.
10:01 આ મિશન પર વધુ માહિતી spoken hyphen tutorial dot org slash NMEICT hyphen Intro આ લીંક પર ઉપલબ્ધ છે.
10:06 IIT Bombay તરફથી હું, જ્યોતિ સોલંકી વિદાય લઉં છું. જોડાવાબદ્દલ આભાર.

Contributors and Content Editors

Jyotisolanki, PoojaMoolya