Biopython/C2/Parsing-Data/Gujarati
From Script | Spoken-Tutorial
Revision as of 11:22, 12 April 2017 by Jyotisolanki (Talk | contribs)
|
|
---|---|
00:01 | નમસ્તે મિત્રો . |
00:02 | Parsing Data પરના ટ્યુટોરીયલ માં તમારું સ્વાગત છે. |
00:06 | આ ટ્યુટોરીયલમાં આપણે NCBI ડેટાબેઝ વેબસાઈટમાં થી FASTA અને GenBank ફાઈલો ડાઉનલોડ કરતા શીખીશું. |
00:14 | અને Sequence Input/Output મોડ્યુલમાં functions યુપયોગ કરીને ડેટા ફાઈલ Parse કરતા. |
00:19 | આ ટ્યુટોરીયલનું અનુસરણ કરવા માટે તમને અંડર ગ્રેજ્યુએટ બાયોકેમિસ્ટ્રી અને મૂળભૂત Python પ્રોગ્રામ ની જાણકારી હોવી જોઈએ. |
00:30 | આપેલ લિંક પર Python ટ્યુટોરીયલને જુઓ. |
00:34 | આ ટ્યુટોરીયલ રિકોર્ડ કરવા માટે હું ઉપયોગ કરી રહી છું Ubuntu OS version 14.10 . |
00:40 | Python version 2.7.8 |
00:44 | Ipython interpretor version 2.3.0 |
00:48 | Biopython version 1.64 અને Mozilla Firefox browser 35.0. |
00:56 | જીવવિજ્ઞાનમાં વૈજ્ઞાનિક માહિતી સામાન્યપણે ટેક્સ્ટ ફાઈલમાં સંગ્રહ કરવા માં આવે છે જેમ કે FASTA, GenBank, EMBL, Swiss-Prot વગેરે. |
01:07 | ડેટાબેસ વેબસાઈટ પરથી ડેટા ફાઈલો ડાઉનલોડ કરી શકાય છે. |
01:12 | આપેલ લિંક કોઈ પણ વેબ બ્રાઉઝરમાં ખોલો. |
01:17 | એક વેબ પેજ ખુલશે. |
01:19 | મનુષ્ય insulin gene માટે FASTA અને GenBank ફાઈલો ડાઉનલોડ કરીએ. |
01:25 | સર્ચ બોક્સમાં ટાઈપ કરો "human insulin" Search બટન પર ક્લિક કરો |
01:31 | આ વેબ પેજ મનુષ્ય insulin gene માટે અનેક ફાઈલો દેખાડશે. |
01:35 | પ્રદશન માટે હું “Homo sapiens Insulin mRNA” મન સાથે 4 ફળી પસંદ કરીશ. |
01:43 | હું 500 base જોડી કરતા કમી ફાઈલ ને પસંદ કરીશ. |
01:48 | ડાઉનલોડ કરવા માટે ફાઈલ પસંદ કરવા માટે ચેક બોક્સ પર ક્લિક કરો. |
01:56 | કર્સર ને “Send to” વિકલ્પના પાસે લઇ જાવ જે પેજના જમણી બાજુએ એકદમ ઉપર છે. |
02:02 | “Send to” બટનના આગળ ઉપસ્થિત ડાઉન એરો બટન પર ક્લિક કરો. |
02:09 | “Choose destination” શીર્ષક અંતર્ગત File વિકલ્પ પર ક્લિક કરો. |
02:13 | તમે આ ફાઈલ કોઈ પણ ફાઈલ ફોર્મેટમાં સેવ કરી શકો છો. જે format ડ્રોપ ડાઉન લિસ્ટ બોક્સ અંતર્ગત સૂચિબદ્ધ છે. |
02:21 | આપેલ વિકલ્પ માંથી FASTA પસંદ કરો. |
02:25 | પછી Create file વિકલ્પ પર ક્લિક કરો. |
02:29 | સ્ક્રીન પર ડાઈલોગ બોક્સ દેખાશે. |
02:32 | Open with પસંદ કરો અને OK. પર ક્લિક કરો. |
02:36 | text editor માં ફાઈલ ખુલે છે. |
02:39 | ફાઈલ 4 રિકોર્ડસ દેખાડે છે. કેમકે આપણે ચાર ડાઉનલોડ કરવા માટે ફાઈલો પસંદ કરી હતી. |
02:46 | પ્રત્યેક રિકોર્ડમાં પ્રથમ લાઈન એક identifier લાઈન છે. |
02:50 | આ “greater than (>)” સીમ્બોલ સાથે શરુ થાય છે. |
02:53 | આ sequence. પછી આવે છે. |
02:56 | ફાઈલને “sequence.fasta'”. ફોલ્ડર તરીએકે તમારા હોમ ફોલ્ડરમાં સેવ કરો. |
03:01 | ટેક્સ્ટ એડિટર ને બંધ કરો. |
03:03 | પહેલા પસંદ કરેલ ફાઈલો માટે GenBank ફોર્મેટમાં ડાઉનલોડ કરવા માટે ઉપરબતાડ્યા પ્રમાણે સ્ટેપ્સ નું અનુસરણ કરો. |
03:12 | file format ને GenBank. તરીકે પસંદ કરો. |
03:16 | ફાઈલ બનાવો. ટેક્સ્ટ એડિટર સાથે ખોલો. |
03:21 | નોંધ લો GenBank ફોર્મેટમાં અનુક્રમ ફાઈલમાં FASTA ફાઈલ કરતા વધુ વશિષ્ટતા ધરાવે છે. |
03:27 | તમારા હોમ ફોલ્ડરમાં ફાઈલને "sequence.gb" તરીકે સેવ કરો. ટેક્સ્ટ એડિટર બંધ કરો. |
03:34 | પ્રદશન હેતુ માટે આપણને એક record સાથે FASTA ફાઈલની જરૂરિયાત છે. |
03:39 | આ માટે ફરીથી ચેકબોક્સ પર ક્લિક કરીને પહેલાની પસંદગી કાઢી કાઢો. |
03:48 | હવે “Human insulin gene complete cds” ફાઈલ પસંદ કરો. |
03:54 | ચેક બોક્સ પર ક્લિક કરો. |
03:57 | હોમ ફોલ્ડરમાં ફાઈલ સેવ કરવા માટે પહેલા બતાડેલ તેજ સ્ટેપનું અનુસરણ કરો. |
04:01 | ફાઈલ ને "insulin.fasta" તરીકે સેવ કરો. |
04:08 | Biopython લાઈબ્રેરી વાપરીને આ ફાઇલ્સમાં સન્ગ્રહ કરેલ બાયોલોજીકલ ડેટા એક્સટ્રેક્ટ કરીને બદલી શકીએ છીએ. |
04:16 | ટેક્સ્ટ એડિટર બંધ કરો. |
04:19 | ડેટા ફાઇલ્સમાં ડેટા એક્સટ્રેક્ટ કરવું તેને Parsing કહેવાય છે. |
04:23 | SeqIO મોડ્યુલ માં ઉપલબ્ધ functions વાપરીને વધુ ફાઈલ ફોર્મેટ્સ પાર્સ કરી શકાય છે. |
04:30 | SeqIO મોડ્યુલ વધુકરીને સામાન્ય ફંન્કશન નો ઉપયોગ કરે છે. SeqIO module are: parse, read, write and convert. |
04:38 | Ctrl, Alt અને t કી ને એક સાથે દાબીને ટર્મિનલ ખોલો. |
04:44 | પ્રોમ્પ્ટ પર "ipython" ટાઈપ કરીને Ipython શરુ કરો. એન્ટર દબાવો. |
04:51 | આગળ Bio પેકેજમાં "SeqIO" મોડ્યુલ ઈમ્પોર્ટ કરો. |
04:56 | પ્રોમ્પ્ટ પર ટાઈપ કરો : from Bio import SeqIO. એન્ટર દબાવો. |
05:04 | આપણે સૌથી મહત્વનો ફંન્કશન “parse”. સાથે શરૂઆત કરીશ. |
05:07 | પ્રદશન માટે હું FASTA ફાઈલ નો ઉપયોગ કરીશ જે અનેક રિકોર્ડસ ધરાવે છે.જે આપણે પહેલા ડેટાબેસથી ડાઉનલોડ કર્યું હતું. |
05:17 | સામાન્ય FASTA parsing, માટે પ્રોમ્પ્ટ પર આપેલ ટાઈપ કરો. |
05:22 | અહીં આપણે sequence.fasta ફાઈલ નું કંટેટસ વાંચવા માટે parse ફંન્કશનનો ઉપયોગ કરી રહ્યા છીએ. |
05:30 | આઉટપુટ માટે record id અને રિકોર્ડમાં ઉપલબ્ધ સિક્વેન્સની લંબાઈ પ્રિન્ટ કરો. |
05:41 | તેમજ નોંધ લો કે parse ફંન્કશન Sequence record objects તરીકે સિક્વેન્સ ડેટાને વાંચવા માટે ઉપયોગ કરાવાય છે. |
05:48 | આ સામાન્ય રીતે for લૂપ માટે ઉપયોગ કરાવાય છે. |
05:52 | આ બે આર્ગ્યુમેન્ટ ને સ્વીકારે છે જેમાંથી પ્રથમ ફાઈલ નેમ છે જે ડેટા વાંચે છે. |
05:59 | બીજું ફાઈલ ફોરમેટને સ્પષ્ટ કરે છે. |
06:02 | આઉટપુટ મેળવવા માટે Enter કી ને બે વાર દબાવો. |
06:07 | આઉટપુટ identifier line, પછીથી ફાઈલમાં જે સિક્વેન્સ છે અને તેમજ ફાઈલમાં બધા રિકોર્ડસ માટે સિક્વેન્સ લંબાઈ દેખાડે છે. |
06:21 | નોંધ લો કે FASTA ફોર્મેટ મુળાક્ષરોને સ્પષ્ટ નથી કરતા. |
06:26 | માટે આઉટપુટ DNA sequence તરીકે તેને સ્પષ્ટ કરે છે. |
06:31 | પારસીંગ GenBank ફાઈલ માટે તેજ સ્ટેપ ને ફરી કરી શકાય છે. |
06:36 | પ્રદશન માટે આપણે ' GenBank' ફાઈલ વાપરીશું જે આપણે આ પહેલા ડેટાબેસ પરથી ડાઉનલોડ કર્યું હતું. |
06:43 | કોડની લાઈન મેળવવા માટે અપ એરો કી દબાવો જે આપણે પહેલા ઉપયોગ કર્યો હતો. |
06:49 | ફાઈલનું નામ sequence.gb થી બદલો |
06:53 | ફાઈલનું ફોર્મેટ genbank. થી બદલો. |
06:56 | બચેલા કોડ સમાન જ રહેશે. |
06:58 | આઉટપુટ મેળવવા માટે Enter કી બે બાર દાબો. |
07:03 | અહીં આઉટપુટ ફાઈલ માં બધા રિકોર્ડસ માટે record id, sequence અને સિક્વેન્સની લંબાઈ દેખાડે છે. |
07:12 | નોંધ લો કે GenBank ફોર્મેટ DNA સિકવેન્સ તરીકે સિક્વેન્સને સ્પષ્ટ કરે છે. |
07:19 | તેમજ ઉપરની જેમ તેજ કોડ વાપરીને Swiss-prot અને EMBL ફાઈલો પાર્સ કરી શકાય છે. |
07:27 | જો તમારી ફાઈલ એક સિંગલ રિકોર્ડ ધરાવે છે તો parsing માટે નીચે આપેલ લાઈન ટાઈપ કરો. |
07:34 | અહીં આપણે પહેલા સેવ કરેલ એક સિંગલ રિકોર્ડ સાથે FASTA ફાઈલ વાપરીએ જે ઉદાહરણ તરીકે insulin.fasta છે. |
07:43 | નોંધ લો કે આપણે parse ફંક્શનની જગ્યાએ read ફંક્શન ઉપયોગ કરીએ છીએ.એન્ટર દબાવો. |
07:50 | આઉટપુટ insulin.fasta ફાઈલ માટે કંટેટ દેખાડે છે. |
07:55 | આ sequence record object. તરીકે સિક્વેન્સ દેખાડે છે. |
07:59 | અને અન્ય વિશેષતા જેમ કે GI, accession number અને description. |
08:06 | આપેલ પ્રમાણે આપણે આ રિકોર્ડની પ્રત્યેક વિશેષતા જોઈ શકીએ છીએ. |
08:11 | પ્રોમ્પ્ટ પર ટાઈપ કરો : record dot seq. Enter દબાવો. |
08:18 | આઉટપુટ ફાઈલમાં ઉપસ્થિત સિક્વેન્સ દેખાડે છે. |
08:22 | આ રિકોર્ડમાટે આઇડેન્ટીફાયર્સ જોવા માટે ટાઈપ કરો : record dot id. Enter દબાવો. |
08:29 | આઉટપુટ GI નંબર અને એક્સેશન નંબર વગેરે દેખાડે છે. |
08:34 | તમે તમારી પસંદગીના ડેટા ફાઈલો પાર્સ કરવા માટે ઉપર સ્પષ્ટ કરેલ ફંકશન વાપરી શકીએ છીએ. |
08:40 | ચાલો સારાંશ લઈએ. |
08:42 | આ ટ્યુટોરીયલમાં આપણે શીખ્યા:
NCBI ડેટાબેસ વેબસાઈટ પરથી FASTA અને GenBank ફાઈલો ડાઉનલોડ કરતા. અને SeqIO મોડ્યુલમાં parse અને read ફંકશન્સનો ઉપયોગ કરતા. |
08:55 | FASTA અને GenBank ફાઈલોમાં record ids ડિસ્ક્રિપશન અને સીકવેંસીસ તરીકે ડેટા એક્સ્ટ્રક્ટ કરતા. |
09:03 | હમણાં માટેઅસાઇનમેન્ટ- |
09:06 | NCBI ડેટાબેસમાં તમારા પસંદગીના ન્યુક્લિયોટાઇડ સિકવેન્સમાટે FASTA ફાઈલ ડાઉનલોડ કરો. |
09:13 | સિકવેન્સના ફાઈલને તેના reverse complements માં રૂપાંતરિત કરો. |
09:17 | તમારું પૂર્ણ અસાઇનમેન્ટ માં કોડ નીચેની કોડ લાઈન હોવિ જરૂરી છે. |
09:22 | FASTA ફાઈલમાં ન્યુક્લિયોટાઇડ સિક્વેન્સ લોડ કરવામાટે parse ફંકશન વાપરો. |
09:28 | આગળ reverse complement મેથડમાં નિર્મિત કરેલ સિકવેન્સ ઓબ્જેક્ટ વાપરીને રિવર્સ કોમ્પલીમેંટસ ને પ્રિન્ટ કરો. |
09:37 | આપેલ લીંક પર ઉપલબ્ધ વિડીયો નિહાળો. તે સ્પોકન ટ્યુટોરીયલ પ્રોજેક્ટનો સારાંશ આપે છે. |
09:42 | તેને ડાઉનલોડ કરીને જુઓ |
09:44 | સ્પોકન ટ્યુટોરીયલ પ્રોજેક્ટ ટીમ સ્પોકન ટ્યુટોરીયલોનાં ઉપયોગથી વર્કશોપોનું આયોજન કરે છે.જેઓ ઓનલાઈન પરીક્ષા પાસ કરે છે તેઓને પ્રમાણપત્રો આપે છે. |
09:51 | વધુ વિગતો માટે, અમનેલખો |
09:55 | સ્પોકન ટ્યુટોરીયલ પ્રોજેક્ટને આઈસીટી, એમએચઆરડી, ભારત સરકાર મારફતે શિક્ષણ પર નેશનલ મિશન દ્વારા આધાર અપાયેલ છે. |
10:01 | આ મિશન પર વધુ માહિતી spoken hyphen tutorial dot org slash NMEICT hyphen Intro આ લીંક પર ઉપલબ્ધ છે. |
10:06 | IIT Bombay તરફથી હું, જ્યોતિ સોલંકી વિદાય લઉં છું. જોડાવાબદ્દલ આભાર. |