بررسی تاریخچه الگوریتم YOLO

درک الگوریتم تشخیص شیYOLO، مزایا، نحوه تکامل آن در طی سال‌های اخیر و چند مثال کاربردی

تشخیص شی یک روش بینایی ماشین برای شناسایی و تشخیص مکان شی در یک تصویر یا ویدئو است. تشخیص مکان شی در تصویر، فرایند شناسایی مکان درست یک یا چند شی با استفاده از خطوط مرزی (bounding box) دور شی است که معمولا به شکل مستطیل دور شی مورد نظر کشیده می‌شود. گاهی اوقات این فرآیند با طبقه‌بندی تصویر یا تشخیص تصویر اشتباه گرفته می‌شود، که هدف آن پیش‌بینی کلاس یک تصویر یا یک شی در یک تصویر است. شکل زیر یک نمای کلی از تصویر خام، شی کادربندی شده و شی کادر بندی شده به همراه برچسب کلاس را نمایش می‌دهد.

در این پست مفهومی، ابتدا مزایای تشخیص شی، قبل از معرفی YOLO که سرآمد تمامی الگوریتم‌های تشخیص شی است را درک می‌کنید. در بخش دوم ما بیشتر تمرکز را روی الگوریتم YOLO و نحوه کارکرد آن می‌گذاریم. در نهایت چندین مثال کاربردی که در آن از الگوریتم YOLO استفاده شده است معرفی می‌شود. در بخش آخر شیوه تکامل الگوریتم YOLO از سال 2015 تا 2024 توضیح داده خواهد شد.

YOLO چیست؟

You Only Look Once (YOLO) شما تنها یکبار نگاه می‌کنید. این الگوریتم سرامد الگوریتم‌های تشخیص شی بی‌درنگ است که در سال 2015 در این مقاله https://arxiv.org/abs/1506.02640 معرفی شد.

نویسندگان در این مقاله به مشکل تشخیص شی بصورت رگرسیون نگاه کردند تا طبقه بندی، طوری‌که با خطوط مرزی جداکننده و احتمالات مرتبط با هر تصویر تشخیص داده شده توسط یک شبکه عصبی مصنوعی، این کار انجام شد. اگر شما علاقه مند به یادگیری بحث یادگیری عمیق در چارچوب پایتورچ با استفاده از زبان پایتون هستید، دوره یادگیری عمیق با پایتورچ مخصوص شماست. که این دوره شما را قادر به ساخت انواع مدلهای شبکه عصبی عمیق خواهد نمود.

چه چیزی YOLO را برای تشخیص شی مشهور نمود؟

برخی از دلایلی که چرا YOLO سرامد سایر روش‌ها شد در زیر آمده است.

1- سرعت

2- دقت تشخیص

3- قابلیت تعمیم خوب

4- Open-source

بیایید به این موارد با جزئیات بیشتر بپردازیم.

1- سرعت:

یکی از دلایلی که YOLO بسیار سریع عمل می‌کند این است که خود را درگیر pipeline ها نمی‌کند. این الگوریتم قادر به پردازش 45فریم در هر ثانیه است، به‌علاوه، YOLO به دقت میانگین دو برابری نسبت به سایر سیستم‌ها دست یافت، که این الگوریتم را پیشگام در پردازش‌های بلادرنگ نمود. از شکل زیر کاملا واضح است که YOLO با پردازش 91 فریم در ثانیه پیشگام در عمل تشخیص شی است.

2- دقت بالای تشخیص

از نظر دقت YOLO بسیار فراتر از سایر روش‌ها که روزی سرامد بوده‌اند با خطای اندکی عمل کرده است.

3- تعمیم‌پذیری خوب

این در مورد نسخه جدید YOLO کاملا صحیح است که YOLO کاملا توانسته است در حوزه‌های بینایی ماشین که در ادامه بحث خواهد شد وارد شود، که مناسب نرم‌افزارهای کاربردی که نیازمند به پردازش سریع و دقیق در تشخیص شی هستند، می‌باشد. بعنوان مثال دراین مقاله نشان میدهد که اولین نسخه YOLO که با نام YOLOv1 مشهور بوده دقت میانگین کمتری در تشخیص تومور سرطانی نسبت به نسخه‌های YOLOV2, YOLOV3 داشته است.

4- Open-source

این مزیت منجر به تشکیل اجتماعاتی می‌شود تا روی بهبود نسخ مختلف کار کنند، که این تنها دلیلی است که این الگوریتم توانسته در بازه زمانی محدود رشد چشم‌گیری نماید.

معماری YOLO

معماری YOLO بسیار شبیه به معماری GoogleNet است. همانطور که در شکل زیر نشان داده شده است، این معماری شامل 24 لایه کانولوشن، 4 لایه max-pool و دو لایه Fully-connected است.

معماری بصورت زیر کار می‌کند:

· تصویر ورودی به 448*448 قبل از ورود به لایه کانولوشن تغییر سایز داده می‌شود.

· یک کانولوشن 1×1 جهت کاهش تعداد کانال‌های تصویر در ابتدا و به دنبال آن یک کانولوشن 3×3 روی تصویر جهت تولید یک خروجی مکعبی اعمال می‌شود.

· تابع فعال‌ساز به‌کار گرفته شده ReLU است به استثنای لایه آخر که از یک تابع فعال‌ساز خطی استفاده می‌کند.

· برخی روش‌های اضافه‌تر مانند dropout, batch normalization, regularization جهت جلوگیری از overfitting استفاده شده است.

با شرکت در دوره یادگیری عمیق توسط پایتورچ شما قادر خواهید بود که شبکه‌های پیچیده‌تری را آموزش دهید و به دنیای هوش مصنوعی وارد شوید.

چگونه الگوریتم تشخیص شی YOLO کار می‌کند؟

حالا که معماری YOLO را فهمیدید، بیایید یک مرور سطح بالاتری از چگونگی عملکرد الگوریتم YOLO در انجام تشخیص شی با استفاده از یک نمونه ساده داشته باشیم. یک مدل YOLO را که بازیکنان و توپ فوتبال را تشخیص می‌دهد را در نظر بگیرید. خوب چطور این عمل را برای افراد غیر آشنا توضیح میدهید؟ کل نکته همینجاست. شما نحوه عملکرد الگوریتم YOLO در تشخیص شی و چگونگی رسیدن به تصویر B از تصویر A را متوجه خواهید شد.

الگوریتم براساس چهار رویکرد زیر کار خواهد کرد.

Residual blocks
Bounding box regression
Intersection Over Unions or IOU for short
Non-Maximum Suppression.

بیایید نگاه عمیق‌تری به موضوع داشته باشیم.

Residual blocks

اولین مرحله با تقسیم تصویر اصلی A به یک گرید شامل تعداد NxN سلول با اندازه‌های مساوی شروع می‌شود. بطوری که N برای این مثال 4 در نظر گرفته شده است. در تصویر سمت راست می توانید مشاهده نمایید. هر سلول گرید مسئول جانمایی و تخمین کلاس شیی است که تحت پوشش آن سلول است به همراه مقدار ضریب احتمال آن کلاس.

Bounding box regression

مرحله بعدی تعیین کادرهای محدود مربوط به مستطیل ها است و تمام اشیاء در تصویر را برجسته می کند. ما می توانیم به تعداد اشیاء درون یک تصویر داده شده، جعبه های محدود کننده داشته باشیم. YOLO صفات این کادرها را با استفاده از یک رگرسیون ساده همانند قالب زیر تعیین نموده طوری که Y نمایشگر بردار نهایی برای هر کادر است.

Y = [pc, bx, by, bh, bw, c1, c2]

که این بردار در فاز آموزش مدل خیلی مهم است.

Pc به امتیاز احتمال گرید شامل یک شی اشاره دارد. برای مثال تمامی گریدهای ناحیه قرمز ضریب احتمال بالاتر از صفر دارند تصویر سمت راست نسخه ساده شده است که احتمال سلول‌های زرد را صفر در نظر گرفته است.

Bx و by نقاط مختصات متناظر با مرکز هر کادر به ترتیب سلول پوشاننده هستند.

Bh و bw نقاط مختصات متناظر با طول و عرض هر کادر به ترتیب سلول پوشاننده هستند.

C1و C2 متناظر با دو کلاس بازیکن و توپ هستند، ما می‌توانیم به تعداد کلاس‌های مورد نیاز شما مقادیر C داشته باشیم.

برای فهم بیشتر بیایید جزئی تر به بازیکن سمت راست شکل زیر نگاه بیندازیم.

Intersection Over Unions or IOU for short

اغلب اوقات، یک شی تکی در یک تصویر می‌تواند گریدهای چندگانه‌ای را برای تخمین درگیر کند. هرچند تمامی آنها مرتبط نباشند. هدف IOU (یک مقدار بین صفر و یک) حذف این سلول‌های غیرمرتبط است تا سلول‌های مرتبط را حفظ نماید. به منطق پشت آن در زیر اشاره شده است.

1- کاربر حد آستانه IOU را تعیین می‌نماید برای مثال می‌تواند عدد 0.5 باشد.

2- سپس YOLO مقدار IOU هر سلول گرید را محاسبه می‌نماید طوری که مکان‌های متقاطع به Union Area تقسیم می‌شوند.

3- در نهایت سلول‌هایی که احتمال آنها از حد آستانه کمتر هستند حذف شده و فقط سلولها با حد آستانه بیشتر از 0.5 باقی می مانند.

در زیر تصویری از اعمال فرآیند انتخاب گرید بر روی شی پایین سمت چپ ارائه شده است. می‌توان مشاهده کرد که شی در ابتدا دارای دو گرید کاندید بود و در پایان فقط گرید۲ انتخاب شد.

Non-Maximum Suppression.

تنظیم حد آستانه همیشه برای IOU کافی نیست زیرا یک شی می تواند کادرهای چندگانه با IOU بالاتر از حد آستانه داشته باشند که تمام آنها شامل نویز باشند. در اینجا است که ما می‌توانیم از NMS برای حفظ کادرها با بالاترین امتیاز تخمین زده شده استفاده کنیم.

کاربردهای YOLO:

الگوریتم تشخیص شی YOLO کاربردهای مختلفی در زندگی روزمره ما دارد. در این بخش به برخی از حوزه‌های کاربردی که این الگوریتم پوشش می‌دهد اشاره شده است. مانند حوزه سلامت، کشاورزی، نظارتی امنیتی و خودروهای خودران

حوزه سلامت:

به طور خاص، در جراحی، بومی سازی اندام ها در زمان واقعی به دلیل تنوع بیولوژیکی از یک بیمار به بیمار دیگر می تواند چالش برانگیز باشد. در این مقاله برای تشخیص کلیه در CT از YOLOv3 برای تسهیل جانمایی کلیه ها به صورت دو بعدی و سه بعدی از اسکن های توموگرافی کامپیوتری (CT) استفاده شده است.

کشاورزی:

هوش مصنوعی و رباتیک نقش مهمی در کشاورزی مدرن دارند. ربات‌های برداشت رباتهایی براساس دید هستند که به عنوان ابزاری جایگزین جهت چیدن میوه‌ها و سبزیجات بصورت دستی شده‌اند.

نظارتی امنیتی

اگرچه تشخیص شی اغلب در موارد نظارتی امنیتی استفاده شده است این تنها کاربرد آن نیست. YOLOv3 در طول همه‌گیری COVID-19 برای تخمین نقض فاصله اجتماعی بین افراد استفاده شده است.

خودروهای خودران

تشخیص شی بلادرنگ بخش DNA خودروهای خودران به حساب میاید. این یکپارچگی برای خودروهای خودران حیاتی است، زیرا آنها بایستی خطوط و تمامی اشیای اطراف و همچنین عابرین پیاده را جهت افزایش امنیت جاده‌ای بدرستی شناسایی نماید. جنبه بلادرنگ YOLO آن را در مقایسه با رویکردهای ساده بخش‌بندی تصویر، نامزد بهتری می کند.

تکامل YOLO از سال 2015 تا سال 2024

از وقتی که در سال 2015 اولین نسخه YOLO منتشر شد، YOLO بعد از آن با نسخه‌های متفاوت به‌سرعت رشد نموده است. در این بخش به جزئیات این اختلافات خواهیم پرداخت.

YOLO یا YOLOV1: نقطه شروع

این نسخه از YOLOتغییردهنده زمین بازی برای تشخیص شی بود، زیرا می‌توانست خیلی سریع و کارآمد اشیا را تشخیص دهد. بااین‌حال، نسخه ابتدایی YOLO هم مانند دیگر نرم‌افزارها با محدودیت‌هایی مواجه بود.

· آن نسخه در حال تقلا برای تشخیص تصاویر کوچک‌تر درون گروهی از تصاویر بود. مانند تشخیص گروهی از افراد در استادیوم. این مشکل به این دلیل بود که در این نسخه هر گرید مختص یک شی بود.

· دوم، YOLO قادر به شناسایی اشکال غیرمعمول یا جدید نبود.

· در نهایت، تابع هزینه عادت به تخمین هزینه عملکرد تشخیص بطور یکسان برای کادرهای کوچک و بزرگ داشت که با خطاهای زیادی در جانمایی اشیا مواجه بود.

YOLOV2 یا YOLO9000

YOLOV2 در سال 2016 با ایده ساخت نسخه بهتر، سریعتر و قویتر ایجاد شد. این بهبود شامل استفاده از Darknet-19 به‌عنوان معماری جدید، نرمال‌سازی دسته‌ای، وضوح بالاتر ورودی‌ها، لایه‌های پیچشی با لنگرها، خوشه‌بندی ابعاد، و (5) ویژگی‌های ریز دانه است، اما محدود به آن نمی‌شود.

· Batch Normalization

با اضافه کردن لایه batch normalization عملکرد با 2% روی میانگین دقت(mAP) بهبود داشت. این batch normalization شامل یک اثر منظم‌سازی، جلوگیرنده از overfitting بود.

· Higher Input Resolution

YOLOV2 مستقیمه از رزولوشن بالاتری448×448 بجای 224×224 استفاده می‌کند. طوری که مدل فیلترش را جهت عملکرد بهتر روی تصاویر با رزولوشن بالاتر تنظیم می‌کند. این رویکرد دقت را برای آموزش دیتای ImageNet با تعداد epochs=10 تا 4% روی mAP افزایش داد.

لایه‌های کانولوشنی با استفاده از anchor boxes

بجای تخمین مختصات دقیق کادر دور شی مانند روشی که در YOLOV1 استفاده شد YoloV2 مشکل را با جایگزینی لایه‌های fully connected با anchor boxes ساده‌تر نمود. این رویکرد کمی دقت را کاهش داد اما recall مدل را تا 7% بهبود داد که جای بیشتری برای رشد داشت.

· Dimensionality clustering

YOLOv2 به طور خودکار anchor boxes ذکر شده قبلی را با استفاده از خوشه بندی ابعاد k-means با k=5 به جای انتخاب دستی پیدا می کند. این رویکرد جدید، تعادل خوبی بین recall و دقت مدل فراهم می‌کند.

برای درک بهتر خوشه‌بندی ابعاد k-means، نگاهی به K-Means Clustering در پایتون با آموزش‌های scikit-learn و K-Means Clustering در R بیندازید. آنها به مفهوم خوشه بندی k-means با استفاده از پایتون و R می پردازند.

· Fine-grained features

پیش‌بینی‌های YOLOv2 feature maps ۱۳×۱۳ را تولید می‌کنند که البته برای تشخیص اشیاء بزرگ کافی است. اما برای تشخیص اشیاء بسیار ظریف، معماری را می توان با تبدیل feature maps 26 × 26 × 512 به یک feature map 13 × 13 × 2048 که با ویژگی های اصلی الحاق شده است، تغییر داد. این رویکرد عملکرد مدل را 1٪ بهبود بخشید.

YoloV3 یک بهبود تدریجی

یک بهیود تدریجی روی YoloV2 انجام شد تا نسخه YoloV3 ساخته شد. تغییر اصلی معماری شبکه جدید (DarkNet-53) را شامل می‌شود. این یک شبکه عصبی 106 تایی با شبکه های UPSampling و بلوک های باقی مانده است. در مقایسه با Darknet-19، که بستر YOLOv2 است، بسیار بزرگ‌تر، سریع‌تر و دقیق‌تر است. این معماری جدید در سطوح مختلف سودمند بوده است:

· تخمین بهتر کادر

یک مدل رگرسیون لجستیک توسط YOLOv3 برای پیش‌بینی امتیاز شیء برای هر جعبه محدود استفاده می‌شود.

· تخمین دقیق‌تر کلاسها

به جای استفاده از softmax همانطور که در YOLOv2 انجام شد، طبقه‌بندی‌کننده‌های لجستیک مستقل برای پیش‌بینی دقیق کلاس کادرها معرفی شده‌اند. این حتی زمانی مفید است که با دامنه‌های پیچیده‌تر با برچسب‌های همپوشانی مواجه می‌شوید (مانند شخص → بازیکن فوتبال). استفاده از softmax هر جعبه را محدود می کند که فقط یک کلاس داشته باشد، که همیشه درست نیست.

· تخمین دقیق‌تر در پیش‌بینی مقیاس‌های متفاوت

YOLOv3 سه پیش‌بینی را در مقیاس‌های مختلف برای هر مکان در تصویر ورودی انجام می‌دهد تا به Up-Sampling از لایه‌های قبلی کمک کند. این استراتژی به شما امکان می دهد تا اطلاعات معنایی دقیق و معنی داری را برای تصویر خروجی با کیفیت بهتر دریافت کنید.

YoloV4: سرعت بهینه و دقت در تشخیص شی

این نسخه از YOLO دارای سرعت و دقت بهینه تشخیص اشیاء در مقایسه با تمام نسخه های قبلی و دیگر الگوریتم‌های پیشگام تشخیص شیء پیشرفته است. تصویر زیر عملکرد YOLOv4 را نشان می دهد که با سرعت و FPS به ترتیب 10% و 12% بر YOLOv3 غلبه کرده‌است.

YOLOv4 به طور خاص برای سیستم های تولید طراحی شده و برای محاسبات موازی بهینه شده است. معماری بکارگرفته‌شده در YOLOv4، CSPDarknet53 است، شبکه ای حاوی 29 لایه کانولوشنی با فیلترهای 3×3 و تقریباً 27.6 میلیون پارامتر. این معماری در مقایسه با YOLOv3، اطلاعات زیر را برای تشخیص بهتر شی اضافه می کند

1- بلوک ادغام هرم فضایی (SPP: Spatial Pyramid Pooling) به طور قابل توجهی میدان دریافت را افزایش می دهد، مرتبط ترین ویژگی های زمینه را جدا می کند و بر سرعت شبکه تأثیر نمی گذارد.

2- به جای شبکه هرمی ویژگی (FPN: Feature Pyramid Network) مورد استفاده در YOLOv3، YOLOv4 از PANet برای تجمیع پارامترها از سطوح تشخیص مختلف استفاده می‌کند.

3- تقویت داده ها از تکنیک موزاییک استفاده می کند که چهار تصویر آموزشی را علاوه بر رویکرد آموزشی خود رقیبی(یعنی با در آموزش با نسخه قبلی خود رقابت نموده تا به نسخه بهتری تبدیل شود) ترکیب می کند.

4- با استفاده از الگوریتم های ژنتیک انتخاب فراپارامتر بهینه را انجام دهید.
YOLOR : You Only Look One Representation

به عنوان یک شبکه یکپارچه برای وظایف چندگانه، YOLOR مبتنی بر شبکه یکپارچه است که ترکیبی از رویکردهای دانش صریح و ضمنی است.

دانش ضمنی، یادگیری عادی یا آگاهانه است. از سوی دیگر، یادگیری ضمنی، یادگیری ناخودآگاه (از تجربه) است. با ترکیب این دو تکنیک، YOLOR قادر است معماری قوی تری را بر اساس سه فرآیند ایجاد کند: (1) هم ترازی ویژگی ها، (2) هم ترازی پیش بینی برای تشخیص اشیا و (3) نمایش متعارف برای یادگیری چند کار.

· هم‌ترازی تخمین

این رویکرد یک نمایش ضمنی را در feature map هر شبکه هرمی ویژگی (FPN) معرفی می کند که دقت را حدود 0.5٪ بهبود می بخشد.

· اصلاح پیش بینی برای تشخیص اشیا

پیش‌بینی‌های مدل با افزودن نمایش صریح به لایه‌های خروجی شبکه اصلاح می‌شوند.

· نمایش متعارف برای یادگیری چند کاره

انجام آموزش چند کاره مستلزم اجرای بهینه سازی مشترک بر روی تابع ضرر مشترک در همه وظایف است. این فرآیند می تواند عملکرد کلی مدل را کاهش دهد و این موضوع را می توان با ادغام نمایش متعارف در طول آموزش مدل کاهش داد.

از نمودار زیر می‌توان مشاهده کرد که YOLOR بر روی داده‌های MS COCO در مقایسه با مدل‌های دیگر، به سرعت استنتاج پیشرفته‌ای دست یافته است.

YOLOX: فراتر از انتظار سری‌های مدل در 2021
این از یک خط مبنا استفاده می کند که یک نسخه اصلاح شده از YOLOv3 است و Darknet-53 به عنوان معماری پایه آن است. YOLOX که در مقاله Exceeding YOLO Series در سال 2021 منتشر شد، چهار ویژگی کلیدی زیر را برای ایجاد یک مدل بهتر در مقایسه با نسخه‌های قدیمی‌تر به جدول آورده است.

· سرجفت کارامد:

تعریف سرجفت: در شبکه‌های عصبی عمیق، به‌ویژه در مدل‌های تشخیص اشیا (Object Detection)، اصطلاح Coupled Head معمولاً به معماری‌ای اشاره دارد که در آن سر خروجی (head) شبکه شامل بخش‌های وابسته به هم است.

در مدل‌های تشخیص اشیا، سر خروجی معمولاً شامل دو وظیفه است: تشخیص کلاس و پیش‌بینی موقعیت مکانی (Bounding Box Regression).
اگر این دو وظیفه به‌صورت وابسته و مشترک پردازش شوند، به آن Coupled Head می‌گویند.
در مقابل، اگر این وظایف به‌صورت مستقل از هم پردازش شوند، به آن Decoupled Head می‌گویند.

سر جفت استفاده شده در نسخه های قبلی YOLO نشان داده شده است که عملکرد مدل ها را کاهش می دهد. YOLOX به جای آن از یک جدا شده استفاده می کند که امکان جداسازی وظایف طبقه بندی و بومی سازی را فراهم می کند و در نتیجه عملکرد مدل را افزایش می دهد.

· تقویت data augmentation

ادغام Mosaic و MixUp در رویکرد data augmentation به طور قابل توجهی عملکرد YOLOX را افزایش داد.

· یک سیستم anchor-free

مدلYOLOX از یک معماری Anchor-free استفاده می‌کند، یعنی دیگر نیازی به Anchor Boxes ندارد.

این کار باعث شد که تعداد پیش‌بینی‌ها برای هر تصویر کاهش یابد و در نتیجه، پردازش سریع‌تر انجام شود.

از آنجایی که دیگر نیازی به محاسبه IoU (Intersection over Union) برای تعداد زیادی Anchor نیست، محاسبات سبک‌تر و ساده‌تر می‌شوند.

مزایای حذف Anchor در YOLOX

کاهش تعداد پیش‌بینی‌ها در هر تصویر
کاهش زمان استنتاج (Inference Time)
کاهش پیچیدگی محاسباتی
بهبود کارایی مدل در کاربردهای بلادرنگ (Real-Time)

تکنیک SimOTA برای تخصیص برچسب

در اینجا بجای استفاده از رویکرد (IoU)، تکنیک SimOTA را معرفی شده‌است ، یک استراتژی تخصیص برچسب قوی‌تر که نه تنها با کاهش زمان آموزش، بلکه با اجتناب از مسائل فراپارامتر اضافی، به نتایج پیشرفته‌تری دست می‌یابد. علاوه بر آن، mAP تشخیص را 3٪ بهبود بخشید.

YOLOv5
YOLOv5 در مقایسه با سایر نسخه ها، مقاله تحقیقاتی منتشر شده ای ندارد و اولین نسخه از YOLO است که به جای Darknet در Pytorch پیاده سازی شده است.
YOLOv5 که توسط Glenn Jocher در ژانویه 2020 منتشر شد، مشابه YOLOv4، از CSPDarknet53 به عنوان ستون فقرات معماری خود استفاده می کند. نسخه شامل پنج مدل مختلف است: YOLOv5s (کوچکترین)، YOLOv5m، YOLOv5l و YOLOv5x (بزرگترین).
یکی از پیشرفت‌های عمده در معماری YOLOv5 ادغام لایه فوکوس است که با یک لایه نشان داده می‌شود که با جایگزینی سه لایه اول YOLOv3 ایجاد می‌شود. این ادغام تعداد لایه‌ها و تعداد پارامترها را کاهش داد و همچنین سرعت رو به جلو و عقب را بدون تأثیر عمده بر روی mAP افزایش داد.
تصویر زیر زمان آموزش بین YOLOv4 و YOLOv5 را مقایسه می‌کند.

YOLOv6: یک چارچوب تشخیص شی تک مرحله ای برای کاربردهای صنعتی

چارچوب YOLOv6 (MT-YOLOv6) که به برنامه های صنعتی با طراحی کارآمد سخت افزاری و عملکرد بالا اختصاص دارد توسط Meituan، یک شرکت تجارت الکترونیک چینی منتشر شد. این نسخه جدید که در Pytorch نوشته شده است، بخشی از YOLO رسمی نبود، اما همچنان نام YOLOv6 را به خود اختصاص داده است، زیرا معماری پایه استفاده شده در آن از معماری اصلی یک مرحله ای YOLO الهام گرفته شده است. YOLOv6 سه پیشرفت قابل توجه را نسبت به نسخه YOLOv5 قبلی معرفی کرد: طراحی معماری پایه و سازگار با سخت افزار، سر جدا شده کارآمد و استراتژی آموزشی موثرتر.

YOLOv6 نتایج فوق‌العاده‌ای را در مقایسه با نسخه‌های قبلی YOLO از نظر دقت و سرعت در مجموعه داده COCO ارائه می‌دهد که در زیر نشان داده شده است.

به 35.9% AP در مجموعه داده COCO با توان عملیاتی 1234 (خروجی) FPS در یک پردازنده گرافیکی NVIDIA Tesla T4 دست یافت.

YOLOv6-S به 43.3% AP جدید با سرعت 869 FPS دست یافت. YOLOv6-M و YOLOv6-L نیز به ترتیب در 49.5% و 52.3% با همان سرعت استنتاج دقت بهتری را به دست آوردند. همه این ویژگی ها YOLOv6 را به الگوریتم مناسب برای کاربردهای صنعتی تبدیل می کند.

YOLOv7: یک مجموعه قابل آموزش رایگان پیشگام جدید در تشخیص‌دهنده اشیا بصورت بلادرنگ

YOLOv7 در ژانویه 2022 در مقاله Trained bag-of-freebies مجموعه ای از پیشرفته ترین هنرهای جدید برای تشخیص شی بصورت بلادرنگ منتشر شد. این نسخه در زمینه تشخیص اشیا حرکت چشمگیری را انجام داد و از نظر دقت و سرعت از تمامی مدل های قبلی پیشی گرفت.

YOLOv7 یک تغییر عمده در (1) معماری و (2) در سطح مجموعه قابل آموزش رایگان ایجاد کرده است:

سطح معماری:

YOLOv7 معماری خود را با ادغام شبکه تجمع لایه کارآمد توسعه یافته (E-ELAN) اصلاح کرد که به مدل اجازه می دهد تا ویژگی های متنوع تری را برای یادگیری بهتر بیاموزد. علاوه بر این، YOLOv7 معماری خود را با الحاق معماری مدل‌هایی که از آن مشتق شده‌اند مانند YOLOv4، Scaled YOLOv4 و YOLO-R مقیاس‌بندی می‌کند. این به مدل اجازه می دهد تا نیازهای سرعت های مختلف استنتاج را برآورده کند.

عبارت bag-of-freebies به بهبود دقت مدل بدون افزایش هزینه آموزش اشاره دارد و به همین دلیل است که YOLOv7 نه تنها سرعت استنتاج بلکه دقت تشخیص را نیز افزایش می دهد.
YOLOv8: گسترش ماژولار بودن و انعطاف پذیری
YOLOv8 یک طراحی ماژولارتر و انعطاف پذیرتر را معرفی می کند که امکان سفارشی سازی و تنظیم دقیق تر را فراهم می کند. پشتیبانی داخلی برای کارهای مختلف فراتر از تشخیص اشیا، مانند تقسیم بندی و تخمین موقعیت.
مدل‌های سبک وزن، سرعت و دقت را بیشتر بهینه می‌کنند، با اندازه‌های مدل‌های کوچک‌تر با هدف برنامه‌های بلادرنگ در دستگاه‌های لبه.
Edge Device چیست؟

Edge Device (دستگاه لبه‌ای) به سخت‌افزاری اطلاق می‌شود که در لبه شبکه قرار دارد و پردازش داده‌ها را نزدیک به منبع تولید داده انجام می‌دهد. این دستگاه‌ها به جای ارسال داده‌ها به سرورهای ابری برای پردازش، تحلیل و پردازش را به‌صورت محلی انجام می‌دهند، که باعث کاهش تأخیر و افزایش کارایی می‌شود.
ویژگی‌های اصلی Edge Devices:

پردازش محلی داده‌ها → کاهش نیاز به ارسال داده‌ها به سرورهای ابری
کاهش تأخیر (Latency) → مناسب برای کاربردهای بلادرنگ (Real-Time)
کاهش مصرف پهنای باند → چون همه داده‌ها به ابر ارسال نمی‌شوند
افزایش امنیت و حریم خصوصی → چون پردازش در محل انجام می‌شود
مثال‌هایی از Edge Devices:

1. گوشی‌های هوشمند → تشخیص چهره و پردازش صدا روی خود دستگاه (مثل Face ID اپل)

2. دوربین‌های امنیتی هوشمند → پردازش تصاویر برای تشخیص حرکت بدون ارسال به سرور

3. بردهای محاسباتی کوچک مثل Raspberry Pi و NVIDIA Jetson → اجرای مدل‌های هوش مصنوعی در لبه

4. روبات‌ها و پهپادها → پردازش محیط برای تصمیم‌گیری سریع

5. دستگاه‌های IoTاینترنت اشیا
Edge Device در هوش مصنوعی و بینایی کامپیوتری

در کاربردهای بینایی کامپیوتری و یادگیری ماشین، استفاده از دستگاه‌های لبه‌ای اهمیت زیادی دارد، زیرا:

· مدل‌های هوش مصنوعی می‌توانند مستقیماً روی دستگاه اجرا شوند (بدون نیاز به سرور ابری).

· می‌توان از سخت‌افزارهای کم‌مصرف مانند Coral TPU، Jetson Nano یا Raspberry Pi برای پردازش استفاده کرد.

· در پروژه‌های بینایی کامپیوتری مثل تشخیص اشیا با YOLO، می‌توان مدل را مستقیماً روی Edge Device اجرا کرد.دستگاه‌های Edge برای پردازش بلادرنگ، کاهش هزینه‌های ارسال داده و افزایش امنیت استفاده می‌شوند و در هوش مصنوعی، اینترنت اشیا و بینایی کامپیوتری نقش مهمی دارند.
از دیگر ویژگیهای YOLOv8 پشتیبانی از داده های سفارشی است تا به راحتی با مجموعه داده های سفارشی ادغام شود و آن را برای برنامه های خاص همه کاره می کند.
YOLOv8 همچنین API های جدیدی را برای استقرار آسان تر و مدیریت مدل در تنظیمات تولید اضافه می کند.
YOLO-NAS (Neural Architecture Search): Optimizing architecture

YOLO-NAS از جستجوی معماری عصبی (NAS) برای طراحی خودکار یک معماری بهینه شده، جهت به حداکثر رساندن عملکرد بدون تنظیم دستی استفاده می کند. این برای تعادل بهینه بین عملکرد و استفاده از منابع، مناسب برای مدل‌های با دقت بالا و برنامه‌های با تأخیر کم طراحی شده است. این به طور خودکار وضوح را برای اشیاء مختلف در یک تصویر تنظیم می کند و روند استنتاج را بیشتر بهینه می کند.

:YOLOv9 تکنیک های پیشگامانه برای تشخیص اشیا در زمان واقعی

نسخه YOLOv9 که در سال 2024 راه اندازی شد، چندین تکنیک نوآورانه را معرفی می کند، مانند موارد زیر:

· اطلاعات گرادیان قابل برنامه ریزی (PGI): تکنیک جدیدی است که جریان گرادیان را در طول آموزش بهینه می کند و توانایی مدل را برای یادگیری کارآمدتر از مجموعه داده های پیچیده بهبود می بخشد.

· شبکه تجمیع لایه کارآمد تعمیم یافته (GELAN): یک پیشرفت معماری قابل توجه که یادگیری و تجمیع ویژگی ها را بیشتر بهبود می بخشد و به بهبود دقت و سرعت کمک می کند.

YOLOv9 معیارهای جدیدی را بر روی مجموعه داده MS COCO تنظیم می کند و عملکرد برتر را در مقایسه با نسخه های قبلی به ویژه از نظر دقت و سازگاری در کارهای مختلف نشان می دهد. اگرچه YOLOv9 توسط یک تیم منبع باز جداگانه توسعه یافته است، اما YOLOv9 بر پایه کد Ultralytics YOLOv5 ساخته شده است، که نشان دهنده تلاش مشترک در جامعه هوش مصنوعی برای پیشبرد مرزهای تشخیص اشیا است. در این نسخه پیشرفت های قابل توجهی را در فرآیند آموزش و معماری، با تمرکز بر کارایی، سازگاری و دقت برای کاربردهای بلادرنگ نشان می دهد.

نتیجه‌گیری:

این مقاله مزایای YOLO را در مقایسه با سایر الگوریتم‌های پیشرفته تشخیص اشیاء و تکامل آن از 2015 تا 2020 با برجسته‌ترین مزایای آن پوشش داده است. با توجه به پیشرفت سریع YOLO، شکی نیست که برای مدت طولانی در زمینه تشخیص اشیا پیشرو باقی خواهد ماند. گام بعدی این مقاله استفاده از الگوریتم YOLO در موارد واقعی خواهد بود. تا آن زمان، دوره_مقدماتی_یادگیری_عمیق_با_پایتورچ که در آکادمی هوش مصنوعی کامبیز طباطبائی ارائه شده است میتواند به شما در یادگیری اصول شبکه‌های عصبی و نحوه ساخت مدل‌های هوش مصنوعی در پایتون کمک کند.

مطالب زیر را حتما مطالعه کنید

دیدگاهتان را بنویسید لغو پاسخ

مطالب زیر را حتما مطالعه کنید

هوش مصنوعی: از نوکری تا نوکری، فقط با کلاس‌تر!

برگزاری دوره آموزشی آنلاین Raspberry Pi همراه با پروژه های کاربردی

ربات‌های رستورانی: انقلاب تکنولوژیک در صنعت غذا

تاثیر هوش مصنوعی بر بازاریابی و کسب و کارهای آنلاین

تاثیر بینایی ماشین در حوزه سلامت و بهداشت

تست نویسی در داده کاوی

دیدگاهتان را بنویسید لغو پاسخ