در دنیای سریعالتغییر هوش مصنوعی، یکی از پیشرفتهای کلیدی در حوزه بینایی ماشین، توسعه روش آموزشی جدیدی توسط محققان MIT است که مدلهای generative AI را قادر میسازد تا اشیای شخصیسازیشده را در تصاویر محلیسازی کنند. این روش، که در اکتبر ۲۰۲۵ منتشر شد، بر چالشهای سنتی در شناسایی اشیای منحصربهفرد مانند یک کیف خاص یا یک حیوان خانگی غلبه میکند، جایی که مدلهای سنتی اغلب در تمایز بین اشیای مشابه شکست میخورند. این پیشرفت با استفاده از تکنیکهای یادگیری عمیق، مدلها را آموزش میدهد تا ویژگیهای منحصربهفرد را استخراج کنند و موقعیت دقیق شی را در صحنههای پیچیده تعیین نمایند. این فناوری نه تنها دقت را افزایش میدهد، بلکه کاربردهای گستردهای در صنایع مختلف ایجاد میکند، از جمله جستجوی شخصیسازیشده در گالریهای عکس تا نظارت امنیتی پیشرفته.
در شرکت ترادید، این نوع پیشرفتها مستقیماً با مدلهای ما مانند تشخیص اشیا (Object Detection) همخوانی دارد، که بر پایه YOLO ساخته شده و دقت بالای ۹۵% در محیطهای پویا ارائه میدهد. برای مثال، در پروژه جریان بیوقفه، که بر کنترل ترافیک خودروها و عابران تمرکز دارد، ادغام چنین روشهایی میتواند به شناسایی وسایل نقلیه خاص یا عابران کمک کند و جریان حرکت را بدون توقف نگه دارد. محققان MIT این روش را با دادههای آموزشی متنوع آزمایش کردهاند، جایی که مدلها توانستهاند اشیای شخصی را با دقت ۸۵-۹۰% محلیسازی کنند، حتی در شرایط نوری ضعیف یا صحنههای شلوغ. این پیشرفت از تکنیکهای augmentation داده استفاده میکند تا مدلها را مقاومتر سازد، و این امر میتواند به کاهش خطاهای انسانی در کاربردهای واقعی منجر شود.
این فناوری با مدلهای یادگیری ماشین نظارتشده ترکیب میشود تا دقت را در محیطهای واقعی افزایش دهد. برای مثال، در پروژه چشم جریان (Floweye)، سیستم پیشرفته بینایی ماشین میتواند اشیای شخصی را با دقت بالا تحلیل کند. آزمایشهای MIT شامل بیش از ۱۰۰۰ تصویر شخصیسازیشده بود، که نتایج نشاندهنده بهبود ۲۰% در محلیسازی نسبت به روشهای قبلی است. این پیشرفت همچنین با پردازش بلادرنگ همخوانی دارد، جایی که دادهها در میلیثانیه پردازش میشوند، مشابه آنچه در جریان سینما رخ میدهد برای تحلیل صحنههای پویا.
در بخش ادغامها، ترکیب با Google Coral Dev Board برای مصرف انرژی پایین، ایدهآل برای کاربردهای لبه است. این ادغام در پروژه جریان فضایی استفاده میشود برای نقشهبرداری سهبعدی. در کل، این خبر علمی نشاندهنده جهشی در بینایی ماشین است که ترادید را به سمت راهحلهای هوشمندتر سوق میدهد.این پیشرفت علمی همچنین چالشهای اخلاقی را مطرح میکند، مانند حفظ حریم خصوصی در شناسایی اشیای شخصی. در ترادید، ما با ادغام با سختافزارهایی مانند NVIDIA Jetson AGX Orin، که قدرت بالایی برای AI در لبه ارائه میدهد، این مسائل را مدیریت میکنیم. این سختافزار در پروژه جریان عملگر استفاده میشود تا حرکات رباتیکی دقیق فراهم آید. در نهایت، این روش MIT میتواند پایهای برای نسل بعدی بینایی ماشین باشد، جایی که مدلها نه تنها میبینند، بلکه درک شخصیسازیشدهای از جهان دارند. با ادامه تحقیقات، انتظار میرود کاربردها در پزشکی، مانند محلیسازی تومورها در تصاویر، گسترش یابد، و ترادید آماده است تا این نوآوریها را در پلتفرم خود ادغام کند.