Biopython/C2/Parsing-Data/Bengali
From Script | Spoken-Tutorial
Revision as of 15:50, 24 May 2017 by Kaushik Datta (Talk | contribs)
|
|
---|---|
00:01 | Parsing Data এর টিউটোরিয়ালে আপনাদের স্বাগত। |
00:06 | এখানে শিখব NCBI ডাটাবেস ওয়েবসাইট থেকে FASTA এবং GenBank ফাইল ডাউনলোড করা এবং |
00:14 | Sequence Input/Output মডিউলে ফাংশন দ্বারা ডেটা ফাইল Parse করা। |
00:19 | টিউটোরিয়ালটি অনুসরণ করতে স্নাতক স্তরের বায়োকেমিস্ট্রি বা বায়োইনফরমেটিক্স |
00:26 | এবং মৌলিক Python প্রোগ্রামিং সম্পর্কে জানতে হবে। |
00:30 | প্রদত্ত লিঙ্কে Python টিউটোরিয়াল দেখুন। |
00:34 | টিউটোরিয়ালটি রেকর্ড করতে ব্যবহার করছি: উবুন্টু OS সংস্করণ 14.10 |
00:40 | Python সংস্করণ 2.7.8 |
00:44 | Ipython interpretor সংস্করণ 2.3.0 |
00:48 | Biopython সংস্করণ 1.64 এবং Mozilla Firefox ব্রাউজার 35.0. |
00:56 | বায়োলজিতে বৈজ্ঞানিক তথ্য সাধারণত টেক্সট ফাইল যেমন FASTA, GenBank, Swiss-Prot, EMBL ইত্যাদিতে সংরক্ষিত হয়। |
01:07 | ডেটা ফাইল ডাটাবেস ওয়েবসাইট থেকে ডাউনলোড করা যাবে। |
01:12 | যে কোনো ওয়েব ব্রাউজারে নীচের দেওয়া ওয়েবসাইটের লিঙ্কটি খুলুন। |
01:17 | একটি ওয়েব পৃষ্ঠা খোলে। |
01:19 | এখন মানুষের insulin gene এর জন্য FASTA এবং GenBank ফাইল ডাউনলোড করি। |
01:25 | সার্চ বাক্সে লিখুন: human insulin, Search বোতামে ক্লিক করুন। |
01:31 | ওয়েব পৃষ্ঠা মানুষের insulin gene এর অনেক ফাইল দেখায়। |
01:35 | প্রদর্শন করতে আমি Homo sapiens Insulin mRNA নামে 4টি ফাইল চয়ন করব। |
01:43 | আমি 500 এর কম বেস পেয়ার্স রাখা ফাইলগুলি চয়ন করব। |
01:48 | ডাউনলোডের জন্য ফাইল চয়ন করতে চেক-বাক্সে ক্লিক করুন। |
01:56 | কার্সার Send to বিকল্পতে নিয়ে যান যা পৃষ্ঠার উপরে ডানদিকে রয়েছে। |
02:02 | ডাউন অ্যারোর সাথে ছোট চয়নিত বোতামে ক্লিক করুন যা Send To বোতামের পাশে আছে। |
02:09 | Choose destination এ, File বিকল্পে ক্লিক করুন। |
02:13 | আপনি এই ফাইল যে কোনো ফাইল ফরম্যাটে সংরক্ষণ করতে পারেন, যা format ড্রপ-ডাউন তালিকা বাক্সে সূচীবদ্ধ। |
02:21 | প্রদত্ত বিকল্প থেকে FASTA চয়ন করুন। |
02:25 | তারপর Create File বিকল্পে ক্লিক করুন। |
02:29 | স্ক্রীনে একটি ডায়ালগ বাক্স দেখায়। |
02:32 | Open with চয়ন করুন, OK তে লিক করুন। |
02:36 | টেক্সট এডিটরে একটি ফাইল খোলে। |
02:39 | ফাইলটি 4টি রেকর্ড দেখায়, কারণ ডাউনলোড করতে আমরা চারটি ফাইল চয়ন করেছি। |
02:46 | প্রত্যেক রেকর্ডের প্রথম লাইন হল identifier লাইন। |
02:50 | এটি (>) চিহ্ন দিয়ে শুরু হয়। |
02:53 | এরপর sequence আসে। |
02:56 | ফাইলটি হোম ফোল্ডারে sequence.fasta হিসাবে সংরক্ষণ করুন। |
03:01 | টেক্সট এডিটর বন্ধ করুন। |
03:03 | পূর্বে চয়নিত একই ফাইলসের জন্য GenBank ফরম্যাটে ফাইল ডাউনলোড করতে উপরের মত ধাপগুলি অনুসরণ করুন। |
03:12 | file format এ GenBank চয়ন করুন। |
03:16 | একটি ফাইল বানান। টেক্সট এডিটরের সাথে খুলুন। |
03:21 | লক্ষ্য করুন GenBank ফরম্যাটে সিকোয়েন্স ফাইলটি FASTA ফাইলের তুলনায় অধিক বৈশিষ্ট্য রাখে। |
03:27 | ফাইল home ফোল্ডারে sequence.gb হিসাবে সংরক্ষণ করুন। টেক্সট এডিটর বন্ধ করুন। |
03:34 | প্রদর্শন করতে একক রেকর্ড সহ একটি FASTA ফাইলের প্রয়োজন। |
03:39 | এর জন্য চেক বাক্সে আবার ক্লিক করে আগের চয়নটি মুছে ফেলুন। |
03:48 | এখন Human insulin gene complete cds ফাইলটি চয়ন করুন। |
03:54 | চেক-বক্সে ক্লিক করুন। |
03:57 | home ফোল্ডারে ফাইল সংরক্ষণ করার আগে দেখানো একই ধাপ অনুসরণ করুন। |
04:01 | ফাইলটি insulin.fasta হিসাবে সংরক্ষণ করুন। |
04:08 | এই ফাইলে সংরক্ষিত বায়োলজিকাল ডেটা Biopython লাইব্রেরীর মাধ্যমে এক্সট্র্যাক্ট এবং সংশোধন করা যায়। |
04:16 | টেক্সট এডিটর বন্ধ করুন। |
04:19 | ডেটা ফাইল থেকে ডেটা এক্সট্র্যাক্টকে Parsing বলে। |
04:23 | অধিকতর ফাইল ফরম্যাট SeqIO মডিউলে উপলব্ধ ফাংশন দ্বারা পার্স করা যায়। |
04:30 | SeqIO মডিউলের অধিকতর ব্যবহৃত ফাংশন হল: parse, read, write এবং convert |
04:38 | Ctrl, Alt এবং T কী একসাথে টিপে টার্মিনাল খুলুন। |
04:44 | প্রম্পটে ipython লিখে Ipython শুরু করুন। এন্টার টিপুন। |
04:51 | এরপর, Bio প্যাকেজ থেকে SeqIO মডিউল ইম্পোর্ট করুন। |
04:56 | প্রম্পটে লিখুন: from Bio import SeqIO, এন্টার টিপুন। |
05:04 | আমরা সবচেয়ে গুরুত্বপূর্ণ ফাংশন parse দিয়ে শুরু করব। |
05:07 | প্রদর্শন করতে সেই FASTA ফাইল ব্যবহার করব যা অনেক রেকর্ড রাখে যা ডেটাবেস থেকে আগেই ডাউনলোড করেছি। |
05:17 | সহজ FASTA পার্সিংয়ের জন্য প্রম্পটে নিম্ন লিখুন। |
05:22 | এখানে sequence.fasta ফাইলের বিষয় বস্তু পড়তে parse ফাংশন ব্যবহার করছি। |
05:30 | আউটপুটের জন্য record id, রেকর্ডে উপস্থিত সিকোয়েন্স এবং সিকোয়েন্সের দৈর্ঘ্য প্রিন্ট করে। |
05:41 | এও লক্ষ্য করুন, সিকোয়েন্স ডেটাকে Sequence record objects হিসাবে পড়তে parse ফাংশন ব্যবহৃত হয়। |
05:48 | এটি সাধারণ for লুপের জন্য ব্যবহৃত হয়। |
05:52 | এটি দুটি আর্গুমেন্ট গ্রহণ করতে পারে, প্রথমটি হল ডেটা পড়তে ফাইলের নাম। |
05:59 | দ্বিতীয়টি ফাইল ফরম্যাট নির্দিষ্ট করে। |
06:02 | আউটপুট পেতে এন্টার কী দুইবার টিপুন। |
06:07 | আউটপুটে identifier line এর পরে ফাইলে অন্তর্ভুক্ত সিকোয়েন্স এবং ফাইলে সকল রেকর্ডের জন্য সিকোয়েন্স দৈর্ঘ্যও দেখায়। |
06:21 | লক্ষ্য করুন যে FASTA ফরম্যাট অক্ষর নির্দিষ্ট করে না। |
06:26 | তাই আউটপুট এটিকে DNA সিকোয়েন্স হিসাবে নির্দিষ্ট করে না। |
06:31 | একই ধাপগুলি GenBank ফাইল পার্সিং করতে পুনরাবৃত্তি করা যায়। |
06:36 | প্রদর্শন করতে GenBank ফাইল ব্যবহার করব যা আগেই ডাটাবেস থেকে ডাউনলোড করেছি। |
06:43 | কোডের লাইন যা আগে ব্যবহার করেছি তা পেতে আপ অ্যারো কী টিপুন। |
06:49 | ফাইলের নাম বদলে sequence.gb করুন। |
06:53 | ফাইল ফরম্যাট বলে genbank করুন। |
06:56 | বাকি কোড একই থাকে। |
06:58 | আউটপুট পেতে এন্টার কী দুইবার টিপুন। |
07:03 | এখানেও আউটপুট ফাইলে সকল রেকর্ডের জন্য record id, sequence এবং সিকোয়েন্স এর দৈর্ঘ্য দেখায়। |
07:12 | লক্ষ্য করুন GenBank ফরম্যাট সিকোয়েন্সকে DNA সিকোয়েন্সের মত নির্দিষ্ট করে। |
07:19 | একইভাবে, Swiss-prot এবং EMBL ফাইল উপরের মত একই কোড ব্যবহার করে পার্স করা যায়। |
07:27 | আপনার ফাইল একক রেকর্ড রাখলে parsing এর জন্য নিম্নোক্ত কোড লিখুন। |
07:34 | এখানে, আমরা একক রেকর্ড সহ পূর্বে সংরক্ষিত FASTA ফাইল ব্যবহার করব, যা উদাহরণস্বরূপ insulin.fasta. |
07:43 | লক্ষ্য করুন আমরা parse ফাংশনের বদলে read ফাংশন ব্যবহার করেছি। এন্টার টিপুন। |
07:50 | আউটপুট insulin.fasta ফাইলের জন্য কন্টেন্ট দেখায়। |
07:55 | এটি sequence record object এর মত সিকোয়েন্স |
07:59 | এবং অন্যান্য এট্রিবিউট যেমন GI, accession number এবং description দেখায়। |
08:06 | আমরা নিম্নের মত এই রেকর্ডের স্বতন্ত্র এট্রিবিউট দেখতে পারেন। |
08:11 | প্রম্পটে লিখুন: record dot seq এন্টার টিপুন। |
08:18 | আউটপুট ফাইলে উপস্থিত সিকোয়েন্স দেখায়। |
08:22 | এই রেকর্ডের জন্য আইডেন্টিফায়ার্স দেখতে লিখুন: record dot id এন্টার টিপুন। |
08:29 | আউটপুট GI নম্বর এবং এক্সেশন নম্বর ইত্যাদি দেখায়। |
08:34 | আপনি পছন্দের ডেটা ফাইল parse করতে উপরে বর্ণিত ফাংশন ব্যবহার করতে পারেন। |
08:40 | এখন, সংক্ষিপ্তকরণ করি। |
08:42 | এখানে NCBI ডেটাবেস ওয়েবসাইট থেকে FASTA এবং GenBank ফাইল ডাউনলোড করা এবং SeqIO মডিউল থেকে parse এবং read ফাংশন ব্যবহার করা শিখেছি। |
08:55 | FASTA এবং GenBank ফাইল থেকে ডেটা যেমন record ids, ডিস্ক্রিপশন এবং সিকোয়েন্স এক্সট্র্যাক্ট করা। |
09:03 | অনুশীলনী হিসাবে- |
09:06 | NCBI ডেটাবেস থেকে পছন্দের নিউক্লিওটাইড সিকোয়েন্সের জন্য FASTA ফাইল ডাউনলোড করুন। |
09:13 | সিকোয়েন্সের ফাইল তাদের reverse complements এ বদলান। |
09:17 | আপনার সম্পন্ন কাজটির কোড নিম্নোক্ত লাইন রাখবে। |
09:22 | FASTA ফাইল থেকে নিউক্লিওটাইড সিকোয়েন্স লোড করতে parse ফাংশন ব্যবহার করুন। |
09:28 | এরপর, reverse complement মেথডে নির্মিত সিকোয়েন্স অবজেক্ট দ্বারা রিভার্স কমপ্লিমেন্ট প্রিন্ট করুন। |
09:37 | এই লিঙ্কে উপলব্ধ ভিডিওটি প্রকল্পকে সারসংক্ষেপে বোঝায়। |
09:42 | এটি ডাউনলোড করে দেখুন। |
09:44 | স্পোকেন টিউটোরিয়াল প্রকল্প দল কর্মশালার আয়োজন করে এবং অনলাইন পরীক্ষা পাস করলে প্রশংসাপত্র দেয়। |
09:51 | অধিক জানতে আমাদের সাথে যোগাযোগ করুন। |
09:55 | স্পোকেন টিউটোরিয়াল প্রকল্প ভারত সরকারের NMEICT, MHRD দ্বারা সমর্থিত। |
10:01 | এই বিষয়ে বিস্তারিত তথ্য এই লিঙ্কে প্রাপ্তিসাধ্য। |
10:06 | আইআইটি বোম্বে থেকে আমি বিদায় নিচ্ছি। অংশগ্রহণের জন্য ধন্যবাদ। |