Biopython/C2/Parsing-Data/Bengali

From Script | Spoken-Tutorial
Revision as of 15:50, 24 May 2017 by Kaushik Datta (Talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search
Time
Narration
00:01 Parsing Data এর টিউটোরিয়ালে আপনাদের স্বাগত।
00:06 এখানে শিখব NCBI ডাটাবেস ওয়েবসাইট থেকে FASTA এবং GenBank ফাইল ডাউনলোড করা এবং
00:14 Sequence Input/Output মডিউলে ফাংশন দ্বারা ডেটা ফাইল Parse করা।
00:19 টিউটোরিয়ালটি অনুসরণ করতে স্নাতক স্তরের বায়োকেমিস্ট্রি বা বায়োইনফরমেটিক্স
00:26 এবং মৌলিক Python প্রোগ্রামিং সম্পর্কে জানতে হবে।
00:30 প্রদত্ত লিঙ্কে Python টিউটোরিয়াল দেখুন।
00:34 টিউটোরিয়ালটি রেকর্ড করতে ব্যবহার করছি: উবুন্টু OS সংস্করণ 14.10
00:40 Python সংস্করণ 2.7.8
00:44 Ipython interpretor সংস্করণ 2.3.0
00:48 Biopython সংস্করণ 1.64 এবং Mozilla Firefox ব্রাউজার 35.0.
00:56 বায়োলজিতে বৈজ্ঞানিক তথ্য সাধারণত টেক্সট ফাইল যেমন FASTA, GenBank, Swiss-Prot, EMBL ইত্যাদিতে সংরক্ষিত হয়।
01:07 ডেটা ফাইল ডাটাবেস ওয়েবসাইট থেকে ডাউনলোড করা যাবে।
01:12 যে কোনো ওয়েব ব্রাউজারে নীচের দেওয়া ওয়েবসাইটের লিঙ্কটি খুলুন।
01:17 একটি ওয়েব পৃষ্ঠা খোলে।
01:19 এখন মানুষের insulin gene এর জন্য FASTA এবং GenBank ফাইল ডাউনলোড করি।
01:25 সার্চ বাক্সে লিখুন: human insulin, Search বোতামে ক্লিক করুন।
01:31 ওয়েব পৃষ্ঠা মানুষের insulin gene এর অনেক ফাইল দেখায়।
01:35 প্রদর্শন করতে আমি Homo sapiens Insulin mRNA নামে 4টি ফাইল চয়ন করব।
01:43 আমি 500 এর কম বেস পেয়ার্স রাখা ফাইলগুলি চয়ন করব।
01:48 ডাউনলোডের জন্য ফাইল চয়ন করতে চেক-বাক্সে ক্লিক করুন।
01:56 কার্সার Send to বিকল্পতে নিয়ে যান যা পৃষ্ঠার উপরে ডানদিকে রয়েছে।
02:02 ডাউন অ্যারোর সাথে ছোট চয়নিত বোতামে ক্লিক করুন যা Send To বোতামের পাশে আছে।
02:09 Choose destination এ, File বিকল্পে ক্লিক করুন।
02:13 আপনি এই ফাইল যে কোনো ফাইল ফরম্যাটে সংরক্ষণ করতে পারেন, যা format ড্রপ-ডাউন তালিকা বাক্সে সূচীবদ্ধ।
02:21 প্রদত্ত বিকল্প থেকে FASTA চয়ন করুন।
02:25 তারপর Create File বিকল্পে ক্লিক করুন।
02:29 স্ক্রীনে একটি ডায়ালগ বাক্স দেখায়।
02:32 Open with চয়ন করুন, OK তে লিক করুন।
02:36 টেক্সট এডিটরে একটি ফাইল খোলে।
02:39 ফাইলটি 4টি রেকর্ড দেখায়, কারণ ডাউনলোড করতে আমরা চারটি ফাইল চয়ন করেছি।
02:46 প্রত্যেক রেকর্ডের প্রথম লাইন হল identifier লাইন।
02:50 এটি (>) চিহ্ন দিয়ে শুরু হয়।
02:53 এরপর sequence আসে।
02:56 ফাইলটি হোম ফোল্ডারে sequence.fasta হিসাবে সংরক্ষণ করুন।
03:01 টেক্সট এডিটর বন্ধ করুন।
03:03 পূর্বে চয়নিত একই ফাইলসের জন্য GenBank ফরম্যাটে ফাইল ডাউনলোড করতে উপরের মত ধাপগুলি অনুসরণ করুন।
03:12 file format এ GenBank চয়ন করুন।
03:16 একটি ফাইল বানান। টেক্সট এডিটরের সাথে খুলুন।
03:21 লক্ষ্য করুন GenBank ফরম্যাটে সিকোয়েন্স ফাইলটি FASTA ফাইলের তুলনায় অধিক বৈশিষ্ট্য রাখে।
03:27 ফাইল home ফোল্ডারে sequence.gb হিসাবে সংরক্ষণ করুন। টেক্সট এডিটর বন্ধ করুন।
03:34 প্রদর্শন করতে একক রেকর্ড সহ একটি FASTA ফাইলের প্রয়োজন।
03:39 এর জন্য চেক বাক্সে আবার ক্লিক করে আগের চয়নটি মুছে ফেলুন।
03:48 এখন Human insulin gene complete cds ফাইলটি চয়ন করুন।
03:54 চেক-বক্সে ক্লিক করুন।
03:57 home ফোল্ডারে ফাইল সংরক্ষণ করার আগে দেখানো একই ধাপ অনুসরণ করুন।
04:01 ফাইলটি insulin.fasta হিসাবে সংরক্ষণ করুন।
04:08 এই ফাইলে সংরক্ষিত বায়োলজিকাল ডেটা Biopython লাইব্রেরীর মাধ্যমে এক্সট্র্যাক্ট এবং সংশোধন করা যায়।
04:16 টেক্সট এডিটর বন্ধ করুন।
04:19 ডেটা ফাইল থেকে ডেটা এক্সট্র্যাক্টকে Parsing বলে।
04:23 অধিকতর ফাইল ফরম্যাট SeqIO মডিউলে উপলব্ধ ফাংশন দ্বারা পার্স করা যায়।
04:30 SeqIO মডিউলের অধিকতর ব্যবহৃত ফাংশন হল: parse, read, write এবং convert
04:38 Ctrl, Alt এবং T কী একসাথে টিপে টার্মিনাল খুলুন।
04:44 প্রম্পটে ipython লিখে Ipython শুরু করুন। এন্টার টিপুন।
04:51 এরপর, Bio প্যাকেজ থেকে SeqIO মডিউল ইম্পোর্ট করুন।
04:56 প্রম্পটে লিখুন: from Bio import SeqIO, এন্টার টিপুন।
05:04 আমরা সবচেয়ে গুরুত্বপূর্ণ ফাংশন parse দিয়ে শুরু করব।
05:07 প্রদর্শন করতে সেই FASTA ফাইল ব্যবহার করব যা অনেক রেকর্ড রাখে যা ডেটাবেস থেকে আগেই ডাউনলোড করেছি।
05:17 সহজ FASTA পার্সিংয়ের জন্য প্রম্পটে নিম্ন লিখুন।
05:22 এখানে sequence.fasta ফাইলের বিষয় বস্তু পড়তে parse ফাংশন ব্যবহার করছি।
05:30 আউটপুটের জন্য record id, রেকর্ডে উপস্থিত সিকোয়েন্স এবং সিকোয়েন্সের দৈর্ঘ্য প্রিন্ট করে।
05:41 এও লক্ষ্য করুন, সিকোয়েন্স ডেটাকে Sequence record objects হিসাবে পড়তে parse ফাংশন ব্যবহৃত হয়।
05:48 এটি সাধারণ for লুপের জন্য ব্যবহৃত হয়।
05:52 এটি দুটি আর্গুমেন্ট গ্রহণ করতে পারে, প্রথমটি হল ডেটা পড়তে ফাইলের নাম।
05:59 দ্বিতীয়টি ফাইল ফরম্যাট নির্দিষ্ট করে।
06:02 আউটপুট পেতে এন্টার কী দুইবার টিপুন।
06:07 আউটপুটে identifier line এর পরে ফাইলে অন্তর্ভুক্ত সিকোয়েন্স এবং ফাইলে সকল রেকর্ডের জন্য সিকোয়েন্স দৈর্ঘ্যও দেখায়।
06:21 লক্ষ্য করুন যে FASTA ফরম্যাট অক্ষর নির্দিষ্ট করে না।
06:26 তাই আউটপুট এটিকে DNA সিকোয়েন্স হিসাবে নির্দিষ্ট করে না।
06:31 একই ধাপগুলি GenBank ফাইল পার্সিং করতে পুনরাবৃত্তি করা যায়।
06:36 প্রদর্শন করতে GenBank ফাইল ব্যবহার করব যা আগেই ডাটাবেস থেকে ডাউনলোড করেছি।
06:43 কোডের লাইন যা আগে ব্যবহার করেছি তা পেতে আপ অ্যারো কী টিপুন।
06:49 ফাইলের নাম বদলে sequence.gb করুন।
06:53 ফাইল ফরম্যাট বলে genbank করুন।
06:56 বাকি কোড একই থাকে।
06:58 আউটপুট পেতে এন্টার কী দুইবার টিপুন।
07:03 এখানেও আউটপুট ফাইলে সকল রেকর্ডের জন্য record id, sequence এবং সিকোয়েন্স এর দৈর্ঘ্য দেখায়।
07:12 লক্ষ্য করুন GenBank ফরম্যাট সিকোয়েন্সকে DNA সিকোয়েন্সের মত নির্দিষ্ট করে।
07:19 একইভাবে, Swiss-prot এবং EMBL ফাইল উপরের মত একই কোড ব্যবহার করে পার্স করা যায়।
07:27 আপনার ফাইল একক রেকর্ড রাখলে parsing এর জন্য নিম্নোক্ত কোড লিখুন।
07:34 এখানে, আমরা একক রেকর্ড সহ পূর্বে সংরক্ষিত FASTA ফাইল ব্যবহার করব, যা উদাহরণস্বরূপ insulin.fasta.
07:43 লক্ষ্য করুন আমরা parse ফাংশনের বদলে read ফাংশন ব্যবহার করেছি। এন্টার টিপুন।
07:50 আউটপুট insulin.fasta ফাইলের জন্য কন্টেন্ট দেখায়।
07:55 এটি sequence record object এর মত সিকোয়েন্স
07:59 এবং অন্যান্য এট্রিবিউট যেমন GI, accession number এবং description দেখায়।
08:06 আমরা নিম্নের মত এই রেকর্ডের স্বতন্ত্র এট্রিবিউট দেখতে পারেন।
08:11 প্রম্পটে লিখুন: record dot seq এন্টার টিপুন।
08:18 আউটপুট ফাইলে উপস্থিত সিকোয়েন্স দেখায়।
08:22 এই রেকর্ডের জন্য আইডেন্টিফায়ার্স দেখতে লিখুন: record dot id এন্টার টিপুন।
08:29 আউটপুট GI নম্বর এবং এক্সেশন নম্বর ইত্যাদি দেখায়।
08:34 আপনি পছন্দের ডেটা ফাইল parse করতে উপরে বর্ণিত ফাংশন ব্যবহার করতে পারেন।
08:40 এখন, সংক্ষিপ্তকরণ করি।
08:42 এখানে NCBI ডেটাবেস ওয়েবসাইট থেকে FASTA এবং GenBank ফাইল ডাউনলোড করা এবং SeqIO মডিউল থেকে parse এবং read ফাংশন ব্যবহার করা শিখেছি।
08:55 FASTA এবং GenBank ফাইল থেকে ডেটা যেমন record ids, ডিস্ক্রিপশন এবং সিকোয়েন্স এক্সট্র্যাক্ট করা।
09:03 অনুশীলনী হিসাবে-
09:06 NCBI ডেটাবেস থেকে পছন্দের নিউক্লিওটাইড সিকোয়েন্সের জন্য FASTA ফাইল ডাউনলোড করুন।
09:13 সিকোয়েন্সের ফাইল তাদের reverse complements এ বদলান।
09:17 আপনার সম্পন্ন কাজটির কোড নিম্নোক্ত লাইন রাখবে।
09:22 FASTA ফাইল থেকে নিউক্লিওটাইড সিকোয়েন্স লোড করতে parse ফাংশন ব্যবহার করুন।
09:28 এরপর, reverse complement মেথডে নির্মিত সিকোয়েন্স অবজেক্ট দ্বারা রিভার্স কমপ্লিমেন্ট প্রিন্ট করুন।
09:37 এই লিঙ্কে উপলব্ধ ভিডিওটি প্রকল্পকে সারসংক্ষেপে বোঝায়।
09:42 এটি ডাউনলোড করে দেখুন।
09:44 স্পোকেন টিউটোরিয়াল প্রকল্প দল কর্মশালার আয়োজন করে এবং অনলাইন পরীক্ষা পাস করলে প্রশংসাপত্র দেয়।
09:51 অধিক জানতে আমাদের সাথে যোগাযোগ করুন।
09:55 স্পোকেন টিউটোরিয়াল প্রকল্প ভারত সরকারের NMEICT, MHRD দ্বারা সমর্থিত।
10:01 এই বিষয়ে বিস্তারিত তথ্য এই লিঙ্কে প্রাপ্তিসাধ্য।
10:06 আইআইটি বোম্বে থেকে আমি বিদায় নিচ্ছি। অংশগ্রহণের জন্য ধন্যবাদ।

Contributors and Content Editors

Kaushik Datta, Satarupadutta